Labster Logo

L'analyse des données SNG

Maintenant que nous avons séquencé l'échantillon d'ADN, nous devons analyser les données obtenues. Les données brutes (images des nucléotides marqués par fluorescence) sont très volumineuses : jusqu'à 1 téraoctet ! La machine de séquençage est capable de traiter les données afin de réduire la taille du fichier. Le processus d'analyse des données du séquençage de nouvelle génération peut être divisé en trois étapes :

L'analyse primaire

L'analyse primaire des données comporte 3 parties. La partie 1 montre les identifiants de séquence Illumina, la séquence de lecture et le score de qualité phred. La partie 2 est un tableau qui explique la signification de chaque partie de l'identifiant de séquence Illumina H W U S I E A S 100 R, 6, 73, 941, 1973, dièse 0, 1. Le nom unique de l'instrument est indiqué au début. Ensuite, 6 est la rangée de la cellule d'écoulement. 73 est le numéro de carreau dans la rangée de la cellule d'écoulement. 941 est la coordonnée x de l'amas dans le carreau. 1973 est la coordonnée y de l'amas dans le carreau. Dièse 0 est l'indice pour un échantillon multiplexé et 0 signifie pas d'indexation. 1 est le membre d'une paire pour le séquençage en paire ou en mate pair seulement. La partie 3 est un tableau avec des colonnes pour le score de qualité phred. La probabilité qu'une base soit mal identifiée et la précision de l'identification de la base. Un score de qualité phred de 10 représente la probabilité d'une identification incorrecte de la base de 1 sur 10, et une précision de l'identification de la base de 90 %. Plus le score de qualité phred augmente, plus la probabilité d'une identification incorrecte de la base diminue et plus la précision de l'identification de la base augmente. Pour un score de qualité phred de 50, la probabilité d'une identification incorrecte de la base est de 1 sur 100 000, et la précision de l'identification de la base est de 99,9 %.

L'analyse primaire comprend toutes les étapes nécessaires pour identifier chaque base. Outre l'identification des bases, la machine de séquençage attribue un score de qualité pour chacune des bases. Le résultat le plus courant est stocké sous la forme d'un fichier FASTQ (voir image) contenant les identificateurs de la séquence, les nucléotides attribués (A, G, T ou C), également appelés "lectures", et le score de qualité Phred associé. Lorsqu'un nucléotide est attribué à N, cela implique que la machine ne peut pas déterminer le nucléotide exact. Le score de qualité Phred désigne la probabilité qu'une base soit mal identifiée. En général, l'analyse primaire est effectuée automatiquement dans la machine de séquençage après chaque cycle.

L'analyse secondaire

L'analyse secondaire est effectuée après l'analyse primaire. Lorsque vous souhaitez séquencer plusieurs échantillons simultanément (par exemple, des échantillons provenant de différents patients ou de différentes expériences), vous pouvez attribuer à chacun un marqueur spécifique. Ce marqueur, également appelé code-barres, est une séquence d'ADN courte ajoutée à l'adaptateur pour différencier les lectures de chaque échantillon. Ce marqueur sera également séquencé, et en identifiant la séquence spécifique de l'adaptateur pour chaque échantillon, vous serez en mesure de les séparer les échantillons. Cette méthode, également appelée multiplexage, a le grand avantage de réduire le coût de la séquence et de permettre l'obtention d'un échantillon plus important. Avant d'effectuer l'analyse secondaire, la première étape consiste à éliminer le marqueur et les adaptateurs car ces séquences n'ont pas de signification biologique.

L'objectif principal de l'analyse secondaire est d'assembler toutes ces séquences d'ADN courtes (également appelées "lectures") afin de pouvoir interpréter les données de la séquence. Avant ce réassemblage, les lectures "brutes" de la machine sont souvent évaluées et filtrées. On élimine les lectures qui ont un faible score de qualité Phred afin de produire les meilleurs résultats. Lorsque le réassemblage est effectué à partir de zéro sans génome de référence, on parle d'assemblage de novo. Lorsqu'un génome de référence est disponible, le processus est beaucoup plus simple car il suffit d'aligner toutes les lectures sur le génome de référence.

Normalement, plusieurs lectures cartographient la même zone du génome. C'est ce qu'on appelle la "profondeur de lecture". La profondeur de lecture mesure le nombre de fois que la zone est couverte par différentes lectures. Par exemple, une profondeur de lecture de 10 implique que 10 lectures se superposent dans la même zone du génome.

L'analyse tertiaire

L'analyse tertiaire est nécessaire pour comprendre et donner un sens aux résultats du séquençage. Elle comprend l'identification des variants et l'analyse proprement dite (par exemple, le profilage des PSN, l'étude d'association à l'échelle du génome, la recherche d'aberrations chromosomiques, etc.)

L'identification des variants est le processus qui consiste à déterminer avec précision les variations (ou les différences) entre un échantillon et le génome de référence. Ces variations peuvent prendre la forme de variants nucléotidiques simples, d'insertions ou de délétions plus petites (appelées indels), ou de plus grands variants structurels de catégories telles que les transversions, les translocations et les variants du nombre de copies.

Il existe des variations spécifiques qui sont caractéristiques des échantillons d'ADN ancien, par exemple C > T à l'extrémité 5' et G > A à l'extrémité 3'. À l'aide de ces caractéristiques, nous pouvons identifier l'ADN ancien et le séparer de l'ADN moderne contaminant.

Après avoir identifié les variations présentes dans l'échantillon, nous pouvons les analyser et essayer de comprendre leur impact biologique, par exemple en effectuant une analyse PSN. La différence d'un nucléotide peut entraîner une expression génique différentielle qui donne lieu à un phénotype spécifique. Vous trouverez quelques exemples dans les PSN anciens du Groenland.