Biblia

El genoma de referencia humano no captura la diversidad genética completa

El genoma de referencia humano no captura la diversidad genética completa

ARRIBA: ISTOCK.COM, FOTONEN

Es difícil encontrar una palabra en el diccionario si faltan algunas páginas. Del mismo modo, es difícil estudiar las secuencias genéticas si no están presentes en el genoma humano de referencia, el producto del Proyecto del Genoma Humano de 2700 millones de dólares, que suele utilizarse como guía para los estudios genómicos.

Un nuevo estudio ha identificado más de 61 000 secuencias genéticas novedosas en 1000 genomas suecos que están ausentes en el genoma humano de referencia. Muchas de estas secuencias también se encontraron en genomas africanos e islandeses, e incluso en el genoma del chimpancé, lo que sugiere que son antiguos. Los hallazgos, publicados la semana pasada (24 de septiembre) en Molecular Biology and Evolution, destacan la diversidad del ADN humano y subrayan la necesidad de un genoma de referencia mejorado que sea más representativo de la variación genética humana. p>

Es parte de una familia de documentos que plantean puntos relativamente similares, comenta Jesse Gillis, biólogo computacional del Laboratorio Cold Spring Harbor que no participó en la investigación. Se trata de que el [genoma] de referencia no refleja lo que es muy común en la población humana.

Estas son secuencias que no interrogamos hoy porque no están en el genoma de referencia humano, así que si lo están relacionado de alguna manera con la enfermedad, no lo sabríamos.

Anna Lindstrand, Instituto Karolinska

Anna Lindstrand, genetista clínica del Instituto Karolinska y autora principal de la nueva investigación, está bien familiarizada con los genomas de referencia pobre representación de los suecos. Su laboratorio de diagnóstico en el Hospital Universitario Karolinska a menudo realiza exámenes genéticos en pacientes para encontrar mutaciones que causan enfermedades. Para hacer eso, secuencian el ADN de los pacientes y lo alinean con el genoma de referencia humano considerado como un genoma normal, dice, y comparan los cambios relativos a él.

Sin embargo, la mayor parte del genoma de referencia proviene de un solo individuo . Además, el genoma puede tener lagunas porque los métodos utilizados para ensamblarlo podrían haber pasado por alto algunos segmentos de ADN difíciles de capturar. Si un paciente tiene una mutación genética particular que no se puede encontrar en el genoma de referencia, eso sugeriría que la mutación es inusual pero, de hecho, puede ser bastante común en muchas personas, explica Lindstrand.

Para tener una mejor idea de cuánta variación genética en la población sueca es capturada por el genoma de referencia, Lindstrand y sus colegas secuenciaron los genomas de 1000 personas de toda Suecia. Luego utilizaron una tubería computacional construida por el estudiante graduado de Lindstrands, Jesper Eisfeldt, para ensamblar estos genomas desde cero, en lugar de alinearlos con el genoma humano de referencia.

Al comparar cada genoma recién ensamblado con el genoma de referencia que encontraron los suecos contenían 1,8 megabases de material genético que no se pudo asignar a la versión GRCh37a 2009 del genoma humano de referencia que los médicos suelen utilizar. Casi el 40 por ciento de ese material genético tampoco pudo coincidir con GRCh38, una versión más nueva del genoma de referencia humano.

En total, de los 1000 genomas recién ensamblados, los investigadores contaron 61 044 secuencias de ADN suficiente para llenar el cromosoma. 21 que estaban ausentes en cualquiera de los genomas de referencia, lo que los convierte en secuencias novedosas. Algunas de las secuencias novedosas eran comunes, pero la mayoría de ellas eran relativamente raras en la población del estudio, un aspecto fascinante del estudio para Lindstrand. A pesar de que los humanos somos tan similares, también hay mucha diversidad, comenta.

Las nuevas secuencias estaban dispersas en los genomas de los individuos suecos, tanto en los genes como en las regiones no codificantes. En particular, el equipo encontró un puñado de ellos dentro de los genes que causan enfermedades humanas, dice ella. Estas son secuencias que no cuestionamos hoy porque no están en el genoma de referencia humano, por lo que si están relacionadas de alguna manera con la enfermedad, no lo sabríamos.

Los hallazgos no sorprendieron a Lindstrand: estudios previos de africanos e islandeses las poblaciones también han descubierto nuevas secuencias que no están presentes en el genoma de referencia. Para comprender el origen de las nuevas secuencias encontradas en el ADN sueco, el equipo de Lindstrands las comparó con las de los genomas africanos e islandeses y descubrió que muchas eran compartidas entre el ADN sueco, africano e islandés.

Todavía había algunas secuencias novedosas que no se alineaban con las otras poblaciones humanas, por lo que el equipo las buscó en el genoma del chimpancé. Descubrieron que el 31 por ciento de las secuencias de la novela sueca solo estaban presentes en el genoma del chimpancé y no en ningún otro genoma humano, lo que sugiere que son antiguas.

Quizás esas secuencias se perdieron en el genoma de referencia humano debido a un artefacto técnico, sugiere Peter Audano, un bioinformático de la Universidad de Washington que no participó en el estudio. O, quizás más probablemente, el genoma de referencia y otras poblaciones humanas eliminaron esas secuencias ancestrales durante la evolución humana, dice.

Hacia un genoma de referencia mejorado

Ni Gillis ni Audano están sorprendidos por los resultados. El genoma de referencia humano se une a partir de múltiples individuos, pero el 70 por ciento se deriva de una sola persona, dice Audano. Que una sola persona no puede representar toda la diversidad que hay. Hay bastante diversidad que simplemente no vas a encontrar en un individuo determinado, dice.

Audano señala que el equipo usó la secuenciación de Illumina para su estudio, que no es el mejor método para obtener una buena resolución. de un genoma dado. Solo secuencia fragmentos muy cortos de ADN a la vez y se sabe que pierde secuencias repetitivas y duplicaciones. Las tecnologías de lectura larga, que secuencian hebras más largas de ADN a la vez, son necesarias para unir esas regiones (razón por la cual los Institutos Nacionales de Salud están financiando una modernización del genoma humano de referencia utilizando la secuenciación de lectura larga de 350 individuos). Sin embargo, los estudios como Lindstrands, que se basan en tecnologías de lectura corta, son útiles para estudiar la diversidad genética en muchos individuos de forma rápida y rentable, señala.

Lindstrand considera que la construcción de un nuevo tipo de genoma de referencia, un genoma de referencia gráfico, es una buena solución potencial . Esto usaría un genoma de referencia normal como columna vertebral de un gráfico al que se agregan variantes genéticas comunes, para abarcar la mayor cantidad de variación posible.

Gillis favorece la mejora incremental del genoma de referencia en lugar de cambios drásticos. Me pone nervioso cambiar la referencia de manera demasiado drástica porque requerirá muchos cambios en los métodos y técnicas utilizados por las comunidades de investigación aguas abajo que usan la referencia, dice. Los métodos de graficar el genoma podrían ser perfectos si funcionaran a la perfección, pero eso podría ser difícil de lograr.

Independientemente de cómo los investigadores decidan alterar el genoma de referencia, las mejoras tendrán muchos beneficios para la ciencia, enfatiza Lindstrand. Mejorando la referencia, diagnosticaremos a más pacientes y eso será muy beneficioso para la comunidad médica cuando avancemos hacia la medicina personalizada, agrega.

J. Eisfeldt et al., Descubrimiento de nuevas secuencias en 1000 genomas suecos, Biología molecular y evolución, doi:10.1093/molbev/msz176, 2019. 

Katarina Zimmer es una periodista independiente residente en Nueva York. Encuéntrala en Twitter @katarinazimmer.