Un nuevo genoma humano de referencia representa las secuencias más comunes
ARRIBA: ISTOCK.COM, NOBI_PRIZUE
El genoma humano de referencia es un modelo de ADN que se utiliza como estándar para la comparación en investigación básica y entornos clínicos. A pesar de las mejoras en la precisión y la integridad que se han realizado a lo largo de los años, todavía alberga limitaciones que pueden dar lugar a resultados erróneos.
En la versión actual de la referencia, denominada GRCh38 o Build 38, el 93 % de los La secuencia proviene de solo 11 individuos y el 70 por ciento de un solo hombre, lo que resulta en una falta de diversidad y al menos 300 millones de letras de ADN faltantes. Además, un pequeño porcentaje de los genes en el genoma de referencia están representados por alelos que no son las formas más comunes de los genes.
Para abordar estos problemas, algunos científicos están desarrollando una nueva referencia, denominada pangenoma o genoma gráfico, que contiene una vasta colección de genomas que representan todas las secuencias de ADN posibles para cualquier locus dado. Pero representar estos datos, los 3 mil millones de bases en una sola persona, multiplicado por los cientos o miles de individuos que los científicos buscan incluir, es extremadamente complicado.
El problema con un pangenoma es que incorporarlo a las prácticas de investigación y software existentes sería una empresa enorme porque requiere una representación gráfica en lugar de un solo genoma lineal. Por ejemplo, los métodos utilizados para la transcriptómica, que pueden indicar a los científicos qué genes están activos en una célula en particular, necesitarían una revisión completa.
Mientras que una disminución absoluta de un factor de dos a tres sonidos como una diferencia impresionante, en realidad, va de lo que yo diría que es excepcionalmente bueno a un poco más que excepcionalmente bueno.
Jesse Gillis, Cold Spring Harbor Laboratory
La mayoría de los métodos que transcriben la expresión análisis, trabajan en, o esperan como entrada, una sola secuencia como un solo genoma de referencia. No esperan un gráfico, dice Christina Boucher, investigadora de bioinformática de la Universidad de Florida. Eso es un gran salto en la entrada. Entonces, los métodos que realmente hacen la expresión de transcripción tendrían que volver a desarrollarse para tomar un gráfico en lugar de una sola referencia. Los algoritmos en sí mismos tendrían que volver a desarrollarse.
Es por eso que investigadores como Jesse Gillis, biólogo computacional del Laboratorio Cold Spring Harbor, tuvieron una nueva idea: el genoma de consenso. Todavía es un genoma único como la referencia actual, pero representa los alelos más comunes entre miles de individuos en lugar de los pocos individuos que se usaron para hacer la referencia actual que tenían en su ADN. Esto permite una adopción casi indolora en cuanto a su uso en el software de análisis del genoma existente, dice Gillis.
En una preimpresión publicada en bioRxiv el 22 de diciembre, Gillis y sus colegas, incluyendo a Alexander Dobin de Cold Spring Harbor Laboratory, quien desarrolló el popular software de análisis de secuencias de ARN STAR, compara su genoma de consenso con el genoma de referencia actual, así como con los genomas de consenso específicos de la población que crearon representando superpoblaciones como las de Asia oriental y subpoblaciones como chinos han en Beijing.
Consulte El pangenoma: ¿Están muertos los genomas de referencia única? subpoblaciones, agrupadas en cinco superpoblaciones. Probaron el rendimiento de GRCh38 y de cada genoma de consenso durante la transcriptómica usando STAR, para ver si la mejora en el genoma de referencia de entrada mejoraría el análisis de expresión génica.
Al igual que el análisis de ADN, los datos recibidos durante la secuenciación de ARN vienen en partes llamadas lecturas. . Para determinar de dónde provienen estas piezas en el genoma, los investigadores a menudo comparan estas lecturas con un genoma de referencia, un proceso conocido como mapeo o alineación. Luego, pueden contar cuánto ARN mensajero hay para cada gen para cuantificar la actividad del gen.
Como línea de base, Gillis y sus colegas primero alinearon las lecturas de un individuo con su propio genoma y midieron el gen. expresión. Luego hicieron lo mismo usando los genomas de referencia y de consenso y compararon los resultados con la línea base, cuantificando las diferencias, o la cantidad de error, entre ellos.
Descubrieron que, mientras que las imprecisiones producidas por el genoma de referencia durante la alineación y la medición de la expresión génica son menores, según Gillis, los genomas de consenso tenían incluso menos errores. Específicamente, en comparación con el genoma de referencia, los genomas de consenso arrojaron una mejora en la tasa de error de mapeo de alrededor del 9 por ciento a alrededor del 4 por ciento. Y debido a que los errores en el mapeo darán como resultado errores al contar el ARN mensajero, la referencia también generó errores en la medición de la expresión génica en casi seis veces más genes que el consenso.
Si bien hubo una disminución absoluta de un factor de dos a tres suena como una diferencia impresionante, en realidad, va de lo que yo diría que es excepcionalmente bueno a un poco más que excepcionalmente bueno, dice Gillis. Y eso debería ser un alivio porque llevamos mucho tiempo haciendo ciencia usando la referencia. Si descubriéramos que esta es una diferencia que cambia la vida, sería preocupante.
Gillis y su equipo también encontraron que los genomas específicos de la población solo tenían una mejora marginal en la reducción de errores más allá del consenso general, un máximo diferencia de alrededor del 1 por ciento. Esto sugiere que tener referencias dedicadas para cada población puede ser innecesario para el análisis de secuenciación de ARN.
Esta es una buena noticia para Elizabeth Atkinson del Hospital General de Massachusetts y el Instituto Broad del MIT y Harvard, que estudia poblaciones mixtas cuya ascendencia reciente proviene de múltiples fuentes. Ella dice que los genomas específicos de la población no solo dificultarían la comparación de individuos con múltiples ancestros entre sí, sino que simplemente asignar personas a esos grupos es un desafío.
Si tiene a alguien de ascendencia mixta, ¿qué ascendencia Qué eliges para su genoma de consenso de población? dice Atkinson. La población se está mezclando más con el tiempo, por lo que tiene sentido para mí que, si la opción de [consenso] pan-especies parece funcionar tan bien [como el consenso específico de la población], eso solucionaría algunas de esas arrugas en términos de comparación entre poblaciones y decidir cómo asignar personas a su población correcta.
Aunque Gillis dice que cree que otros investigadores podrían replicar estos genomas de consenso con bastante rapidez, él y sus colegas han desarrollado un software para que puedan construir su propio consenso y realizar la secuenciación del ARN. Los programas son gratuitos, de código abierto y están disponibles en GitHub.