NGS-Datenanalyse

Nachdem wir nun die DNA-Probe sequenziert haben, müssen wir die Daten analysieren Ergebnis. Die Rohbilddaten (Bilder der fluoreszenzmarkierten Nukleotide) sind sehr groß; sie können bis zu 1 Terabyte groß sein! Die Sequenziermaschine ist in der Lage, einige Daten zu verarbeiten, um die Dateigröße zu Größe zu reduzieren. Der Prozess der Datenanalyse beim Next Generation Sequencing lässt sich in drei Schritte unterteilt werden:

Primäranalyse

The primary data analysis has 3 parts. Part 1 shows the Illumina sequence identifiers, the read sequence, and the phred quality score. Part 2 is a table explaining the meaning of each part of the Illumina sequence identifier for the identifier called H W U S I E A S 100 R, 6, 73, 941, 1973, hashtag 0, 1. The unique instrument name is given at the beginning. Then 6 is the flow cell lane. 73 is the tile number within the flow cell name. 941 is the x coordinate of the cluster within the tile. 1973 is the y coordinate of the cluster within the tile. Hashtag 0 is the index number for a multiplexed sample and 0 means no indexing. 1 is the member of a pair for pair end or mate pair reads only. Part 3 is a table with columns for the phred quality score, probability of incorrect base call, and base call accuracy. A phred quality score of 10 represents the probability of an incorrect base call as 1 of 10, and a base call accuracy of 90%. As the pred quality score increases, the probability of an incorrect base call decreases, and the base call accuracy increases. At a phred quality score of 50, the probability of an incorrect base call is 1 of 1 hundred thousand, and the base call accuracy is 99.9%.

Die Primäranalyse umfasst alle Schritte, die für den Aufruf oder die Identifizierung jeder Base erforderlich sind. Neben der Identifizierung der Basen weist das Sequenziergerät auch eine Qualitätsbewertung für jede einzelne Base zu. Das Ergebnis wird in der Regel als FASTQ-Datei (siehe Abbildung) gespeichert, die die Sequenzkennungen, die zugeordneten Nukleotide (A, G, T oder C), auch "Reads" genannt, und den zugehörigen Phred-Qualitätsscore enthält. Wenn ein Nukleotid zugewiesen ist N zugeordnet ist, bedeutet dies, dass die Maschine das genaue Nukleotid nicht bestimmen kann. Der Phred-Qualitätsscore bezieht sich auf die Wahrscheinlichkeit eines falschen Base Aufruf. Die primäre Analyse wird in der Regel im Sequenziergerät Sequenziergerät automatisch nach jedem Lauf durchgeführt.

Sekundäranalyse

Die Sekundäranalyse wird nach der Primäranalyse durchgeführt. Wenn Sie mehrere Proben in einem Lauf sequenzieren möchten (z. B. von verschiedenen Patienten oder aus verschiedenen Experimenten), können Sie jeder Probe ein bestimmtes Tag zuweisen. Das Tag, auch Barcode genannt, ist eine kurze DNA-Sequenz, die dem Adapter hinzugefügt wird, um die Reads der einzelnen Proben zu unterscheiden. Dieses Tag wird ebenfalls sequenziert, und durch die Identifizierung der spezifischen Adaptersequenz für jede Probe können Sie diese voneinander trennen. Dies wird auch als Multiplexing bezeichnet und hat den großen Vorteil, dass die Sequenzierungskosten gesenkt werden und man eine größere Probe erhält. Der erste Schritt vor der Durchführung der Sekundäranalyse ist das Herausschneiden der Tags und Adapter, da diese Sequenzen keine biologische Bedeutung haben.

Das Hauptziel der Sekundäranalyse besteht darin, all diese kurzen DNA-Sequenzen (auch Reads genannt) zusammenzusetzen, damit wir die Sequenzdaten interpretieren können. Vor dieser Zusammenführung werden die "rohen" Reads von der Maschine häufig bewertet und auf ihre Qualität hin gefiltert, um die besten Ergebnisse zu erzielen, wobei Reads mit niedrigen Phred-Qualitätswerten entfernt werden. Wenn die Neuzusammensetzung von Grund auf ohne Referenzgenom erfolgt, wird sie als de novo assembly bezeichnet. Wenn jedoch ein Referenzgenom vorhanden ist Referenzgenom vorhanden ist, ist der Prozess viel einfacher, da wir einfach alle alle Reads an das Referenzgenom ausrichten.

Normalerweise haben wir mehrere Reads, die denselben Bereich des Genoms abbilden; dies wird oft als "Lesetiefe" bezeichnet. Die Lesetiefe misst, wie oft dieser Bereich von verschiedenen Reads abgedeckt wird. Eine Lesetiefe von 10 bedeutet beispielsweise, dass im selben Genombereich 10 Reads übereinander kartiert sind.

Tertiäranalyse

Die Tertiäranalyse ist notwendig, um die Sequenzierungsergebnisse zu verstehen und zu verwerten. Sie umfasst das Varianten-Calling und die eigentliche Analyse (z. B. SNP-Profiling, genomweite Assoziationsstudien, Auffinden von Chromosomenaberrationen und Sonstiges).

Beim Varianten-Calling geht es darum, die Abweichungen (oder Unterschiede) zwischen einer Probe und dem Referenzgenom genau zu bestimmen. Dabei kann es sich um einzelne Nukleotidvarianten, kleinere Insertionen oder Deletionen (sogenannte Indels) oder größere Strukturvarianten wie Transversionen, Translokationen und Kopienzahlvarianten handeln.

Es gibt bestimmte Variationen, die für antike DNA-Proben charakteristisch sind, zum Beispiel C > T am 5'-Ende und G > A am 3'-Ende. Anhand dieser Merkmale können wir die antike DNA identifizieren und sie von kontaminierter moderner DNA trennen.

Nachdem wir die in der Probe vorhandenen Variationen identifiziert haben, können wir sie analysieren und versuchen, die biologischen Auswirkungen dieser Variationen zu verstehen, indem wir zum Beispiel eine SNP-Analyse durchführen. Der Unterschied in einem Nukleotid kann zu einer unterschiedlichen Genexpression führen, die einen bestimmten Phänotyp hervorruft; Sie können einige dieser SNP-Beispiele in antike Grönland SNP nachlesen.