Primäranalyse

Die Primäranalyse umfasst alle Schritte, die erforderlich sind, um jede Base zu identifizieren. Neben der Identifizierung der Basen weist das Sequenziergerät auch einen Qualitätsscore für jede der Basen zu.

Das Ergebnis wird als FASTQ-Datei (siehe Abbildung) gespeichert, die die Sequenzkennungen, die zugeordneten Nukleotide (A, G, T oder C), die auch als Reads bezeichnet werden, und die zugehörige Phred-Qualitätsbewertung enthält. Wenn das Zeichen N einem Nukleotid zugeordnet ist, bedeutet dies, dass die Maschine das Nukleotid nicht genau bestimmen kann. Der Phred-Qualitätsscore bezieht sich auf die Wahrscheinlichkeit einer falschen Basenbestimmung. In einer FASTQ-Datei wird der Phred-Qualitätsscore als ASCII-Zeichen (ein Buchstabe, eine Ziffer oder ein Symbol) gespeichert, wobei der ASCII-Wert die Genauigkeit der Basenbestimmung angibt.

Die Primäranalyse wird in der Regel automatisch im Sequenziergerät nach jedem Lauf durchgeführt.

Wenn man mehrere Proben in einem Lauf zusammen sequenzieren möchte (z. B. von verschiedenen Patienten oder aus verschiedenen Experimenten), kann man jeder Probe ein spezifisches Tag zuweisen. Der Tag (auch Barcode genannt) ist eine kurze DNA-Sequenz, die dem Adapter hinzugefügt wird, um die Reads der einzelnen Proben zu unterscheiden. Dieses Tag wird ebenfalls sequenziert, und durch die Identifizierung der spezifischen Adaptersequenz für jede Probe können diese voneinander getrennen werden. Dies wird auch Multiplexing genannt und hat den zusätzlichen Vorteil, dass die Sequenzierungskosten gesenkt und größere Proben produziert werden.

Beispiel für eine FASTQ-Datei als Ergebnis des NGS.

At the top of the results, an illumina sequence identifiers are shown. Next, the read, or sequence of nucleotides, is shown. A phred quality score is shown underneath the read. The illumina sequence identifiers consist of numbers and letters representing the instrument name, flow cell number, tile, and coordinates within the tile. The phred quality score is a number from 10 to 50, with 10 indicating 90% base call accuracy and 50 indicating 99.999% base call accuracy.

Der nächste Schritt in der NGS-Datenanalyse ist die Sekundäranalyse.