Labster Logo

Analisi dei dati NGS

Ora che abbiamo sequenziato il campione di DNA, dobbiamo analizzare i risultati. I dati grezzi delle immagini (immagini dei nucleotidi marcati con fluorescenza) sono molto grandi; possono occupare fino a 1 Terabyte! La macchina di sequenziamento è in grado di fare alcune elaborazioni sui dati per ridurre le dimensioni del file. Il processo di analisi dei dati per il Next Generation Sequencing può essere diviso in tre fasi:

Analisi primaria

L'analisi primaria dei dati ha 3 parti. La parte 1 mostra gli identificatori di sequenza Illumina, la sequenza di lettura e il punteggio di qualità phred. La parte 2 è una tabella che spiega il significato di ogni parte dell'identificatore di sequenza Illumina per l'identificatore chiamato H W U S I E A S 100 R, 6, 73, 941, 1973, hashtag 0, 1. Il nome unico dello strumento è indicato all'inizio. Poi 6 è la corsia della cella di flusso. 73 è il numero della piastrella all'interno del nome della cella di flusso. 941 è la coordinata x del cluster all'interno della piastrella. 1973 è la coordinata y del cluster all'interno della piastrella. Hashtag 0 è il numero di indice per un campione multiplexed e 0 significa nessuna indicizzazione. 1 è il membro di una coppia solo per le letture di fine coppia o di coppia mate. La parte 3 è una tabella con colonne per il punteggio di qualità phred, la probabilità di un'assegnazione della base errata e l'accuratezza dell'assegnazione. Un punteggio di qualità phred di 10 rappresenta la probabilità di un'assegnazione della base errata pari a 1 su 10, e una precisione di assegnazione del 90%. Man mano che il punteggio di qualità pred aumenta, la probabilità di un'assegnazione errata diminuisce e la precisione dell'assegnazione base aumenta. Con un punteggio di qualità phred di 50, la probabilità di un'assegnazione errata della base è 1 su centomila, e l'accuratezza dell'assegnazione è del 99,9%.

L'analisi primaria include tutti i passi necessari per nominare o identificare ogni base. Oltre a identificare le basi, la macchina di sequenziamento assegna anche un punteggio di qualità per ciascuna delle basi. I risultati sono comunemente salvati come un file FASTQ (vedi immagine), contenente gli identificatori, i nucleotidi assegnati (A, G, T o C) chiamati anche "letture" e il punteggio di qualità Phred associato. Se a un nucleotide è assegnata la categoria N, questo significa che la macchina non può determinare il nucleotide esatto. Il punteggio di qualità Phred si riferisce alla probabilità di un'errata assegnazione della base. L'analisi primaria è tipicamente eseguita nella macchina di sequenziamento automaticamente dopo ogni ciclo.

Analisi secondaria

L'analisi secondaria viene eseguita dopo l'analisi primaria. Quando si vogliono sequenziare diversi campioni insieme nello stesso ciclo (per esempio appartenenti a pazienti o esperimenti diversi) è possibile assegnare una specifica etichetta a ciascuno di essi. L'etichetta, nota anche come codice a barre, è una breve sequenza di DNA che viene aggiunta all'adattatore per differenziare le letture di ogni campione. Anche l'etichetta verrà sequenziata, e sarà grazie all'identificazione della sequenza specifica dell'adattatore di ogni campione che è possibile separare gli uni dagli altri. Questa tecnica è anche chiamata multiplexing e ha il grande vantaggio di abbassare il costo di sequenziamento e ottenere un campione più grande. Il primo passo da effettuare prima di eseguire l'analisi secondaria è quello di tagliare l'etichetta e gli adattatori, in quanto queste sequenze non hanno un significato biologico.

Lo scopo principale dell'analisi secondaria è quello di assemblare tutte le brevi sequenze di DNA (chiamate anche letture) per poter interpretare i dati di sequenziamento. Prima di questo riassemblaggio, le letture "grezze" dalla macchina sono spesso valutate e filtrate per qualità per produrre i migliori risultati, rimuovendo le letture che hanno un basso punteggio di qualità Phred. Quando il riassemblaggio viene eseguito da zero senza alcun genoma di riferimento, si parla di assemblaggio de novo. Tuttavia, quando c'è un genoma di riferimento disponibile, il processo è molto più semplice perché possiamo semplicemente allineare tutte le letture al genoma di riferimento.

Normalmente avremmo diverse letture che mappano la stessa area del genoma e sono spesso indicate come "profondità di lettura". La profondità di lettura misura quante volte quell'area è coperta da letture diverse; per esempio, una profondità di lettura di 10 implica che ci sono 10 letture che si sovrappongono nella stessa area genomica.

Analisi terziaria

L'analisi terziaria è necessaria per capire e dare un senso al risultato del sequenziamento. Include l'identificazione delle varianti e l'effettiva analisi (per esempio il profilo SNP, studi di associazione genomica, ricerca di aberrazioni cromosomiche e altro).

L'individuazione delle varianti è il processo di determinazione accurata delle variazioni (o differenze) tra un campione e il genoma di riferimento. Queste possono essere sotto forma di varianti di un singolo nucleotide, piccoli inserimenti o rimozioni (chiamati indel), o varianti strutturali più grandi di categorizzazioni come le trasversioni, le traslocazioni e le varianti del numero di copie.

Ci sono varianti specifiche che sono caratteristiche dei campioni di DNA antico, per esempio il C > T al 5' e G > A all'estremità 3'. Usando queste caratteristiche, possiamo identificare il DNA antico e separarlo dal DNA moderno contaminante.

Dopo aver identificato le variazioni presenti nel campione, possiamo analizzarle e cercare di determinarne l'impatto biologico, ad esempio eseguendo l'analisi SNP. La differenza di un nucleotide può risultare in un'espressione del gene differenziale che può dare origine a un fenotipo specifico; puoi leggere alcuni di questi esempi di SNP in SNP dell'antico uomo della Groenlandia.