NGS-Datenanalyse
Nachdem wir nun die DNA-Probe sequenziert haben, müssen wir die Daten analysieren Ergebnis. Die Rohbilddaten (Bilder der fluoreszenzmarkierten Nukleotide) sind sehr groß; sie können bis zu 1 Terabyte groß sein! Die Sequenziermaschine ist in der Lage, einige Daten zu verarbeiten, um die Dateigröße zu Größe zu reduzieren. Der Prozess der Datenanalyse beim Next Generation Sequencing lässt sich in drei Schritte unterteilt werden:
Primäranalyse
Die Primäranalyse umfasst alle Schritte, die für den Aufruf oder die Identifizierung jeder Base erforderlich sind. Neben der Identifizierung der Basen weist das Sequenziergerät auch eine Qualitätsbewertung für jede einzelne Base zu. Das Ergebnis wird in der Regel als FASTQ-Datei (siehe Abbildung) gespeichert, die die Sequenzkennungen, die zugeordneten Nukleotide (A, G, T oder C), auch "Reads" genannt, und den zugehörigen Phred-Qualitätsscore enthält. Wenn ein Nukleotid zugewiesen ist N zugeordnet ist, bedeutet dies, dass die Maschine das genaue Nukleotid nicht bestimmen kann. Der Phred-Qualitätsscore bezieht sich auf die Wahrscheinlichkeit eines falschen Base Aufruf. Die primäre Analyse wird in der Regel im Sequenziergerät Sequenziergerät automatisch nach jedem Lauf durchgeführt.
Sekundäranalyse
Die Sekundäranalyse wird nach der Primäranalyse durchgeführt. Wenn Sie mehrere Proben in einem Lauf sequenzieren möchten (z. B. von verschiedenen Patienten oder aus verschiedenen Experimenten), können Sie jeder Probe ein bestimmtes Tag zuweisen. Das Tag, auch Barcode genannt, ist eine kurze DNA-Sequenz, die dem Adapter hinzugefügt wird, um die Reads der einzelnen Proben zu unterscheiden. Dieses Tag wird ebenfalls sequenziert, und durch die Identifizierung der spezifischen Adaptersequenz für jede Probe können Sie diese voneinander trennen. Dies wird auch als Multiplexing bezeichnet und hat den großen Vorteil, dass die Sequenzierungskosten gesenkt werden und man eine größere Probe erhält. Der erste Schritt vor der Durchführung der Sekundäranalyse ist das Herausschneiden der Tags und Adapter, da diese Sequenzen keine biologische Bedeutung haben.
Das Hauptziel der Sekundäranalyse besteht darin, all diese kurzen DNA-Sequenzen (auch Reads genannt) zusammenzusetzen, damit wir die Sequenzdaten interpretieren können. Vor dieser Zusammenführung werden die "rohen" Reads von der Maschine häufig bewertet und auf ihre Qualität hin gefiltert, um die besten Ergebnisse zu erzielen, wobei Reads mit niedrigen Phred-Qualitätswerten entfernt werden. Wenn die Neuzusammensetzung von Grund auf ohne Referenzgenom erfolgt, wird sie als de novo assembly bezeichnet. Wenn jedoch ein Referenzgenom vorhanden ist Referenzgenom vorhanden ist, ist der Prozess viel einfacher, da wir einfach alle alle Reads an das Referenzgenom ausrichten.
Normalerweise haben wir mehrere Reads, die denselben Bereich des Genoms abbilden; dies wird oft als "Lesetiefe" bezeichnet. Die Lesetiefe misst, wie oft dieser Bereich von verschiedenen Reads abgedeckt wird. Eine Lesetiefe von 10 bedeutet beispielsweise, dass im selben Genombereich 10 Reads übereinander kartiert sind.
Tertiäranalyse
Die Tertiäranalyse ist notwendig, um die Sequenzierungsergebnisse zu verstehen und zu verwerten. Sie umfasst das Varianten-Calling und die eigentliche Analyse (z. B. SNP-Profiling, genomweite Assoziationsstudien, Auffinden von Chromosomenaberrationen und Sonstiges).
Beim Varianten-Calling geht es darum, die Abweichungen (oder Unterschiede) zwischen einer Probe und dem Referenzgenom genau zu bestimmen. Dabei kann es sich um einzelne Nukleotidvarianten, kleinere Insertionen oder Deletionen (sogenannte Indels) oder größere Strukturvarianten wie Transversionen, Translokationen und Kopienzahlvarianten handeln.
Es gibt bestimmte Variationen, die für antike DNA-Proben charakteristisch sind, zum Beispiel C > T am 5'-Ende und G > A am 3'-Ende. Anhand dieser Merkmale können wir die antike DNA identifizieren und sie von kontaminierter moderner DNA trennen.
Nachdem wir die in der Probe vorhandenen Variationen identifiziert haben, können wir sie analysieren und versuchen, die biologischen Auswirkungen dieser Variationen zu verstehen, indem wir zum Beispiel eine SNP-Analyse durchführen. Der Unterschied in einem Nukleotid kann zu einer unterschiedlichen Genexpression führen, die einen bestimmten Phänotyp hervorruft; Sie können einige dieser SNP-Beispiele in antike Grönland SNP nachlesen.