Análisis de datos de la NGS
Ahora que hemos secuenciado la muestra de ADN, tenemos que analizar los datos obtenidos. Los datos de las imágenes en bruto (imágenes de los nucleótidos marcados con fluoróforos) son muy grandes; ¡pueden llegar a ocupar 1 terabyte! La máquina de secuenciación permite procesar los datos con tal de reducir el tamaño del archivo. El proceso de análisis de datos para la secuenciación de nueva generación puede dividirse en tres pasos:
Análisis primario
El análisis primario incluye todos los pasos necesarios para identificar cada base. Además de identificar las bases, la máquina de secuenciación también asignará una puntuación de calidad a cada una de las bases. El resultado se almacena como un archivo FASTQ (ver imagen), que contiene los identificadores de la secuencia, los nucleótidos asignados (A, G, T o C), que también se denominan «lecturas», y la puntuación de calidad Phred asociada. Cuando el carácter «N» está asociado a un nucleótido, eso significa que la máquina no puede determinar el nucleótido exacto. La puntuación de calidad Phred se refiere a la probabilidad de una identificación de base incorrecta. El análisis primario suele realizarse automáticamente en la máquina de secuenciación después de cada ejecución.
Análisis secundario
El análisis secundario se realiza después del análisis primario. Para secuenciar varias muestras juntas en una misma ejecución (por ejemplo, de diferentes pacientes o de diferentes experimentos) se puede asignar una etiqueta específica a cada una de ellas. La etiqueta, también conocida como código de barras, es una secuencia corta de ADN que se añade al adaptador para diferenciar las lecturas de cada muestra. Esta etiqueta también se secuencia, y al identificar la secuencia específica del adaptador para cada muestra, se pueden separar unas de otras. Esto también se llama multiplexación y tiene la gran ventaja de reducir el coste de la secuenciación y proporcionar una muestra más grande. El primer paso que hay que hacer antes de realizar el análisis secundario es recortar la etiqueta y los adaptadores, ya que estas secuencias no tienen ningún significado biológico.
El objetivo principal del análisis secundario es ensamblar todas las secuencias cortas de ADN (también llamadas lecturas) para interpretar los datos de la secuencia. Antes de este reensamblaje, las lecturas en bruto de la máquina suelen evaluarse y filtrarse según su calidad con el fin de obtener los mejores resultados. Las lecturas con puntuaciones de calidad Phred bajas deben eliminarse y hay que recortar los adaptadores. Cuando el reensamblaje se realiza desde cero sin ningún genoma de referencia, se denomina ensamblaje de novo. En cambio, cuando se dispone de un genoma de referencia, el proceso es mucho más sencillo porque podemos simplemente alinear todas las lecturas con el genoma de referencia.
Normalmente tenemos varias lecturas que mapean la misma zona del genoma; esto se suele denominar profundidad de lectura. La profundidad de lectura mide el número de veces que un área determinada está cubierta por diferentes lecturas. Por ejemplo, una profundidad de lectura de diez implica que hay diez lecturas mapeadas una encima de otra en la misma área genómica.
Análisis terciario
El análisis terciario es necesario para comprender y dar sentido al resultado de la secuenciación. Incluye la identificación de variantes y el análisis propiamente dicho (por ejemplo, el perfil de SNP, el estudio de asociación de todo el genoma, la búsqueda de anomalías cromosómicas y otros).
La identificación de variantes es el proceso de determinar con precisión las variaciones (o diferencias) entre una muestra y el genoma de referencia. Estas pueden ser en forma de variantes de un solo nucleótido, inserciones o deleciones más pequeñas (llamadas indels), o variantes estructurales más grandes de categorizaciones como transversiones, translocaciones y variantes de número de copias.
Existen variaciones específicas que son características de las muestras de ADN antiguo, por ejemplo la de C > T en el extremo 5' y G > A en el extremo 3'. Gracias a estas características, podemos identificar el ADN antiguo y separarlo para evitar que contamine el ADN moderno.
Una vez identificadas las variaciones presentes en la muestra, podemos analizar e intentar comprender el impacto biológico de estas variaciones, por ejemplo, realizando un análisis de SNP. La diferencia en un nucleótido puede dar lugar a una expresión génica diferencial que dé lugar a un fenotipo específico; puedes consultar algunos ejemplos de SNP en el apartado SNP del hombre primitivo groenladés.