La primera secuencia completa y sin espacios de un genoma humano revela regiones ocultas
Karen Miga, profesora asistente de ingeniería biomolecular en UC Santa Cruz, cofundó el consorcio Telómero a telómero (T2T) para buscar un ensamblaje completo y sin espacios de un secuencia del genoma humano. Crédito: Carolyn Lagattuta/UCSC
La primera secuencia verdaderamente completa de un genoma humano, que cubre cada cromosoma de extremo a extremo sin espacios y con una precisión sin precedentes, ahora es accesible a través del navegador del genoma de UCSC y se describe en seis artículos publicados el 31 de marzo. en la ciencia.
Desde que se elaboró el primer borrador de trabajo de una secuencia del genoma humano en la UC Santa Cruz en el año 2000, la investigación genómica ha llevado a enormes avances en nuestra comprensión de la biología y las enfermedades humanas. Sin embargo, regiones cruciales que representan alrededor del 8 % del genoma humano han permanecido ocultas para los científicos durante más de 20 años debido a las limitaciones de las tecnologías de secuenciación del ADN.
Karen Miga, profesora asistente de ingeniería biomolecular en UC Santa Cruz , y Adam Phillippy del Instituto Nacional de Investigación del Genoma Humano (NHGRI) organizaron un equipo internacional de científicos en el Consorcio Telómero a Telómero (T2T) para completar las piezas faltantes. Sus esfuerzos ahora han valido la pena.
El nuevo genoma de referencia, llamado T2T-CHM13, agrega casi 200 millones de pares de bases de nuevas secuencias de ADN, incluidos 99 genes que probablemente codifiquen proteínas y casi 2000 genes candidatos que necesitan estudio adicional. También corrige miles de errores estructurales en la secuencia de referencia actual.
Los vacíos que ahora llena la nueva secuencia incluyen los brazos cortos completos de cinco cromosomas humanos y cubren algunas de las regiones más complejas del genoma. Estos incluyen secuencias de ADN altamente repetitivas que se encuentran dentro y alrededor de estructuras cromosómicas importantes, como los telómeros en los extremos de los cromosomas y los centrómeros que coordinan la separación de los cromosomas replicados durante la división celular. La nueva secuencia también revela duplicaciones segmentarias no detectadas previamente, tramos largos de ADN que se duplican en el genoma y se sabe que juegan un papel importante en la evolución y la enfermedad.
«Estas partes del genoma humano que hemos No hemos podido estudiar durante más de 20 años son importantes para nuestra comprensión de cómo funciona el genoma, las enfermedades genéticas y la diversidad y evolución humana», dijo Miga.
Muchas de las regiones recientemente reveladas tienen funciones importantes en el genoma, incluso si no incluyen genes activos.
«Hay una gran ventaja en ver el genoma completo como un sistema completo. Nos coloca en una posición para desentrañar cómo funciona ese sistema», dijo David Haussler, director del Instituto de Genómica de la UC Santa Cruz. «Hemos obtenido una enorme comprensión de la biología y las enfermedades humanas al tener aproximadamente el 90 por ciento del genoma humano, pero había muchos aspectos importantes que permanecían ocultos, fuera de la vista de la ciencia, porque no teníamos la tecnología para leer esas porciones. del genoma. Ahora podemos pararnos en la cima de la montaña y ver todo el paisaje debajo y obtener una imagen completa de nuestra herencia genética humana».
La secuencia del genoma T2T, que representa el genoma CHM13 terminado además, el cromosoma T2T Y recientemente terminado (CHM13 incluye un cromosoma X pero no un cromosoma Y), ahora es un nuevo genoma de referencia en el navegador de genomas de UCSC. La secuencia T2T está completamente anotada en el navegador, lo que proporciona una manera eficiente para que los científicos accedan y visualicen una gran cantidad de información asociada con los genes y otros elementos del genoma.
«Queríamos publicar la información en una forma que sea accesible y familiar para los investigadores para que puedan comenzar a desarrollarla y utilizar todas las herramientas y recursos que proporciona el navegador», explicó Miga.
El nuevo genoma de referencia T2T complementará la referencia humana estándar genoma, conocido como Genome Reference Consortium build 38 (GRCh38), que tuvo su origen en el Proyecto Genoma Humano financiado con fondos públicos y se ha actualizado continuamente desde el primer borrador en 2000.
«Estamos agregando un segundo genoma completo, y luego habrá más», explicó Haussler. «La siguiente fase es pensar en la referencia para el genoma de la humanidad como si no fuera una sola secuencia del genoma. Esta es una transición profunda, el presagio de una nueva era en la que eventualmente capturaremos la diversidad humana de una manera imparcial».
Llevó casi el doble de tiempo terminar el último 8% del genoma humano que secuenciar el primer 92%. Las nuevas tecnologías computacionales y de laboratorio finalmente permitieron a los investigadores genómicos superar obstáculos tales como secuencias de ADN altamente repetitivas y llenar los vacíos restantes. Crédito: NHGRI
El Consorcio T2T ahora se ha unido al Consorcio de Referencia del Pangenoma Humano, cuyo objetivo es crear una nueva «referencia del pangenoma humano» basada en las secuencias del genoma completo de 350 individuos.
«La pangenómica es sobre capturar la diversidad de la población humana, y también se trata de asegurar que hemos capturado todo el genoma correctamente», dijo Benedict Paten, profesor asociado de ingeniería biomolecular en UCSC, coautor de los artículos de T2T y líder del esfuerzo de pangenomics . «Sin tener un mapa de estas regiones del genoma difíciles de secuenciar en varios individuos, nos estamos perdiendo una gran cantidad de la variación presente en nuestra población. T2T nos prepara para observar cientos de genomas de telómero a telómero. . ¡Va a ser genial!»
El genoma de referencia estándar (GRCh38) no representa a ningún individuo, sino que fue ensamblado a partir de múltiples donantes. Fusionarlos en una secuencia lineal creó estructuras artificiales en la secuencia. El Proyecto Pangenoma Humano permitirá comparar genomas recién secuenciados con múltiples genomas completos que representan una variedad de ancestros humanos.
Un resultado importante de la nueva secuencia T2T es permitir evaluaciones más precisas de las variantes genéticas. Cuando los genomas humanos se secuencian para estudios clínicos para comprender el papel de las variantes genéticas en la enfermedad o para estudiar la diversidad genética dentro y entre poblaciones humanas, casi siempre se analizan alineando los resultados de la secuenciación con el genoma de referencia para compararlos. El equipo de variantes T2T documentó mejoras importantes en la identificación e interpretación de variantes genéticas utilizando la nueva secuencia T2T en comparación con el genoma de referencia humano estándar.
«El nuevo genoma humano es increíblemente preciso en el nivel básico, lo que nos permite marcar cientos de miles de variantes que habían sido malinterpretadas al asignarlas a la referencia estándar. Muchas de estas nuevas variantes están en genes que se sabe que contribuyen a la enfermedad. Ahora podemos detectarlos porque tenemos un genoma de referencia más completo y preciso», dijo Miga. .
La investigación de Miga se ha centrado en el ADN satélite, los largos tramos de secuencias repetitivas de ADN que se encuentran principalmente en y alrededor de los telómeros y centrómeros. Los centrómeros separan cada cromosoma en un brazo corto y un brazo largo y mantienen unidos los cromosomas duplicados antes de la división celular.
«Los centrómeros desempeñan un papel fundamental en la forma en que los cromosomas se segregan adecuadamente durante la división celular, y hemos sabemos desde hace algún tiempo que están mal regulados en todo tipo de enfermedades humanas. Pero nunca hemos podido estudiarlos a nivel de secuencia», dijo Miga. «Con mucho, la mayor parte de las nuevas secuencias agregadas a la referencia son ADN satélite centrómero. Por primera vez, podemos estudiar ‘base por base’ las secuencias que definen el centrómero y podemos comenzar a comprender cómo funciona». /p>
Las tecnologías de secuenciación de ADN de «lectura larga», como la secuenciación de nanoporos iniciada en UC Santa Cruz, fueron herramientas esenciales para el Consorcio T2T. Dos conjuntos de datos de secuenciación de lectura larga, lecturas de alta fidelidad (datos HiFi de sistemas PacBio) y lecturas extremadamente largas que normalmente alcanzan longitudes superiores a 100 000 pares de bases (datos ultralargos de dispositivos Oxford Nanopore) permitieron a los investigadores de T2T abarcar regiones repetitivas y desarrollar estrategias para garantizar que el montaje fue muy preciso. Miten Jain y otros investigadores del Instituto de Genómica de la UCSC ayudaron a establecer el protocolo de lectura ultralarga.
UC Santa Cruz tiene una larga historia de liderazgo en genómica, comenzando con una reunión fundamental en 1985 para discutir la secuenciación de los humanos genoma organizado en la UCSC por el entonces canciller Robert Sinsheimer. Haussler fue invitado a unirse al Proyecto Genoma Humano público en 1999, y su equipo desempeñó un papel crucial en su finalización. En ese momento, James Kent, ahora científico investigador en el Instituto de Genómica y director del proyecto Navegador del Genoma de la UCSC, era un estudiante graduado de la UCSC. Escribió el código que reunió el primer borrador de trabajo del genoma humano a partir de los datos obtenidos por el Consorcio Internacional de Secuenciación del Genoma Humano, y la UCSC publicó el borrador en línea para que todo el mundo pueda acceder. Luego, Kent creó el UCSC Genome Browser, que sigue siendo la plataforma más utilizada para acceder al genoma humano.
El Instituto de Genómica de UC Santa Cruz ha seguido estando a la vanguardia de la investigación genómica y desempeña un papel de liderazgo en la Esfuerzos de T2T y pangenomics.
«El trabajo de T2T refleja los esfuerzos sostenidos y dedicados de muchas personas en UC Santa Cruz y en otros lugares. Karen Miga ha estado trabajando arduamente para obtener secuencias de centrómeros reales en los ensamblajes del genoma humano durante un década, ¡y esto finalmente se ha hecho realidad!» dijo Kent. «Estoy muy emocionado de ver este trabajo combinado con los esfuerzos para obtener secuencias de telómero a telómero de otros ancestros humanos. Estamos avanzando rápidamente hacia una representación verdaderamente completa del genoma humano».
Miga es coautor correspondiente del artículo principal de Science, «La secuencia completa de un genoma humano», junto con Adam Phillippy en NHGRI y Evan Eichler en la Universidad de Washington. También es coautora correspondiente de los artículos sobre «Mapas genómicos y epigenéticos completos de centrómeros humanos» y «Patrones epigenéticos en un genoma humano completo», y coautora de los artículos sobre «Duplicaciones segmentarias y su variación en un genoma humano completo». genoma», «Un genoma de referencia completo mejora el análisis de la variación genética humana» y «De telómero a telómero: el estado transcripcional y epigenético de los elementos humanos repetidos».
Otros investigadores del Instituto de Genómica de la UC Santa Cruz los coautores de los artículos incluyen a Benedict Paten, Mark Diekhans, Erik Garrison (ahora en el Centro de Ciencias de la Salud de la Universidad de Tennessee), Marina Haukness, Miten Jain y Kishwar Shafin.
Explore más
El nuevo genoma humano de referencia abre regiones inexploradas Más información: Sergey Nurk et al, The complete secuencia of a human genoma, Science (2022). DOI: 10.1126/ciencia.abj6987. www.science.org/doi/10.1126/science.abj6987 Información de la revista: Science
Proporcionado por la Universidad de California – Santa Cruz Cita: Primera secuencia completa, sin espacios de un genoma humano revela regiones ocultas (31 de marzo de 2022) recuperado el 29 de agosto de 2022 de https://medicalxpress.com/news/2022-03-gapless-sequence-human-genome-reveals.html Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.