Abundantes errores de secuencia en bases de datos públicas
FLICKR, SAURI NASHAlgunas variantes de secuencia encontradas en muestras de ADN en realidad pueden ser causadas por daños durante el procesamiento de la muestra, según un artículo en Science hoy (16 de febrero). Un equipo de investigadores de New England Biolabs (NEB) ha ideado un algoritmo para evaluar el grado de dicho daño y sugiere que el uso de enzimas reparadoras de ADN durante la preparación de muestras podría corregir el problema.
“El trabajo demuestra cómo distinguir las variantes somáticas de aquellas debidas a preparación del ADN daño” Stephen Montgomery de la Universidad de Stanford, que no participó en el trabajo, escribió en un correo electrónico a The Scientist. “Los beneficios de esto [incluyen] la reducción de falsos positivos. . . en proyectos del genoma del cáncer basados en descubrimientos” agregó.
Es bien sabido que las muestras de ADN extraídas de especímenes antiguos o de tejidos fijados en formalina e incluidos en parafina son propensas a la fragmentación y modificación química, lo que puede producir mutaciones que no existían en los seres vivos. organismo. Pero la evidencia reciente…
Tales mutaciones ocurren rara vez dentro de una muestra y, por lo tanto, en muchos casos, no son problemáticas. Pero en la biología del cáncer, explicó el oncólogo molecular Marc Ladanyi del Centro de Cáncer Memorial Sloan Kettering en Nueva York que no participó en el trabajo, hay un énfasis creciente en [identificar] mutaciones subclonales [así como] detectar mutaciones en tumores libres ADN en el plasma, los cuales pueden estar presentes solo en una proporción muy pequeña de células en la muestra.
[Cuando se trata de variantes en] frecuencias alélicas tan bajas, este artefacto es una preocupación genuina, Ladanyi dijo, y el artículo es un buen recordatorio de que es necesario protegerse contra el artefacto.
Laurence Ettwiller y sus compañeros investigadores en NEB en Ipswich, Massachusetts, ahora han ideado un algoritmo que calcula la extensión de dicho daño en una muestra de ADN secuenciada. El algoritmo aprovecha el hecho de que el daño oxidativo del ADN durante la sonicación convierte la guanina en 8-oxoguanina, que aparece y actúa como una timina durante las lecturas de secuenciación. Al comparar las lecturas de secuenciación de las dos hebras complementarias, estas guaninas convertidas pueden detectarse como desajustes: una hebra lee timina, pero la hebra complementaria revela una citosina asociada (que se empareja con guanina). Las variantes naturales de guanina a timina, por otro lado, tendrían adenina como pareja natural de las timinas. Por lo tanto, el algoritmo compara la primera y la segunda lectura de secuenciación para revelar el grado de timinas que no coinciden (o están desequilibradas) para determinar la cantidad de daño.
Cuando se aplica a secuencias en las bases de datos 1000 Genomes y The Cancer Genome Atlas, el algoritmo llamado Valor de Desequilibrio Global (GIV) determinó que el 41 por ciento de los conjuntos de datos de 1000 Genomas tenían un puntaje de desequilibrio indicativo de daño, mientras que el 73 por ciento de los del Atlas del Genoma del Cáncer mostraron un daño extenso.
El daño es más frecuente de lo que hubiéramos esperado, dijo el NEB Thomas Evans, coautor del estudio. Es probable que tales errores confundan la identificación de variantes somáticas verdaderas de baja frecuencia, dijo.
En una nota positiva, dijo Ettwiller, una cosa que las personas pueden hacer es observar las muestras que tienen y marque los que están demasiado dañados, use el algoritmo GIV, que está disponible gratuitamente en GitHub, como un paso de control de calidad. La puntuación GIV de una muestra también podría usarse como guía para establecer umbrales estrictos para identificar variantes de baja frecuencia potencialmente genuinas.
Además, los autores sugieren una forma de rectificar el daño antes de que se lleve a cabo la secuenciación. Cuando se agregó una mezcla de enzimas de reparación de ADN a la muestra de ADN durante la preparación, se solucionó el daño por oxidación, informaron.
[El documento] proporciona una solución técnica, que consiste en reparar el ADN con este cóctel de enzimas. , dijo Ladanyi. Pero, señaló, los autores son de NEB y la solución al problema es usar el kit de reparación de NEB, por lo que existe un conflicto de intereses intrínseco.
En ese momento, Ettwiller dijo que si bien el equipo no usan enzimas NEB para reparar sus propias muestras de ADN dañadas, no afirman que funcione para todas las preparaciones de ADN.
Vendemos esa mezcla para reparar el ADN antes de la secuenciación, pero no queremos hacer nada grandioso reclamación (es; así no es como funciona NEB, dijo Evans. Continuamos evaluándolo.
L. Chen et al., El daño en el ADN es una causa generalizada de errores de secuenciación, lo que confunde directamente la identificación de variantes, Science, 355: 752-56, 2017 .
¿Interesado en leer más?
The Scientist ARCHIVES
Hacerse miembro de
Recibir acceso completo a más de 35 años de archivos, así como a TS Digest, ediciones digitales de The Scientist, artículos destacados, ¡y mucho más!Únase gratis hoy ¿Ya es miembro?Inicie sesión aquí