Identidades erróneas
FLICKR, KEVIN MACKENZIE, UNIVERSIDAD DE ABERDEENInvestigadores del King’s College de Londres estaban trabajando en algunos experimentos de expresión génica humana en 2008 cuando obtuvieron una fuerte coincidencia con una de las secuencias de la sonda en un microarreglo Affymetrix. La única información disponible sobre el gen del chip era que se trataba de una secuencia humana, recordó William Langdon, quien ayudó en el proyecto. Así que el equipo hizo una búsqueda BLAST para buscar más información. «Y lo primero que obtienes es, por supuesto, la secuencia humana en sí misma». dijo Langdon, quien ahora está en el University College London. Pero cuando revisó la lista de las otras secuencias relacionadas que aparecieron en la búsqueda, era evidente que algo andaba mal. «Todas [eran] especies diferentes de Mycoplasma«.
Parecía un caso de identidad equivocada; el remitente original de la secuencia a GenBank debe haber tenido contaminación por Mycoplasma en…
Hasta el día de hoy, la secuencia todavía está etiquetada como Homo sapiens desconocido en la base de datos Genbank del Centro Nacional de Información Biotecnológica (NCBI). Este nombre inapropiado representa uno de los cientos, quizás miles, de secuencias depositadas en GenBank y en otros lugares que han sido asignadas al taxón equivocado.
Que existan errores en GenBank y otras bases de datos es una perogrullada. Pero corregir secuencias mal etiquetadas es una tarea difícil, que los administradores de bases de datos y los informáticos ahora están tratando de automatizar. Aquí tengo una visión de que en los próximos años tendremos una variedad de enfoques computacionales. . . para crear subconjuntos seleccionados en todo GenBank, dijo David Lipman, director del NCBI.
Identificación de problemas
Hay varias razones por las que un investigador podría asignar una secuencia al organismo equivocado, incluida la contaminación microbiana en las muestras, el quimerismo (cuando los genomas de dos organismos se combinan durante el proceso de amplificación del ADN), una identificación taxonómica deficiente o incluso simples confusiones humanas durante la preparación de la muestra.
El alcance del problema de la secuencia mal etiquetada sigue siendo un tema de especulación, pero algunos estudios han arrojado alguna luz. A principios de este año, por ejemplo, Langdon buscó una posible contaminación en un subconjunto de datos del Proyecto 1000 Genomas. Alrededor del 7 por ciento de las muestras tienen contaminación por Mycoplasma, dijo.
Otro estudio de este año encontró Bradyrhizobium como un contaminante de secuencia común en secuencias eucariotas. Por ejemplo, las secuencias asignadas a taxones tan diversos como un antílope tibetano, un hongo, un protozoo y Homo sapiens son todos Bradyrhizobium. El problema es mucho más extenso, le dijo a The Scientist en un correo electrónico Martin Laurence, el fundador de los laboratorios ShipShaw que dirigió el estudio. Tengo una lista larga e inédita de secuencias contaminadas, ya que los kits de extracción de ADN que uso también están contaminados, así que termino viendo un zoológico de animales en mi especie clínica humana (las secuencias de loros son particularmente populares), continuó. Obviamente, no había loros ni antílopes tibetanos en ninguna parte cerca de mis muestras.
El biólogo evolutivo Stephen Smith de la Universidad de Michigan construye grandes árboles filogenéticos de plantas. En un proyecto, en un grupo de plantas que incluía cactus y especies carnívoras, Smith analizó alrededor de 4000 organismos que tenían suficientes secuencias superpuestas en GenBank para hacer un árbol. Algo del orden del 1 al 2 por ciento de lo que usé para construir este árbol está mal etiquetado, dijo. No es un gran número, pero si le importa dónde se ubican las especies dentro de la filogenia, lo convierte en un gran problema.
Si bien puede parecer evidente que una secuencia está mal etiquetada en GenBank, solo la persona que envió la entrada errante puede corregirlo. Si bien existen procedimientos para alertar a los administradores de la base de datos sobre los problemas, es una tarea laboriosa para ellos contactar a los remitentes e investigar cada caso. Los envíos mal etiquetados a veces se corrigen, pero a menudo permanecen en la base de datos.
La limpieza
Alexis Stamatakis, bioinformático del Heidelberg Institute for Theoretical Estudios en Alemania, está acostumbrado a las quejas de sus colegas biólogos sobre secuencias mal etiquetadas. Hace unos años, decidió hacer algo al respecto. Él y los miembros de su grupo han desarrollado un algoritmo para erradicar secuencias mal etiquetadas. En este momento, el método no es completamente automático, dijo. Tenemos un método semiautomático para facilitar el proceso de curación que luego proporcionará una lista de supuestas secuencias mal etiquetadas al curador. Es trabajo de los usuarios decidir si la secuencia pertenece de hecho a un organismo diferente.
Los desarrolladores aún no han publicado su algoritmo, pero Pelin Yilmaz, un postdoctorado en el Instituto Max Planck de Microbiología Marina en Bremen, Alemania, lo ha tomado para una prueba de manejo. Es miembro de la base de datos SILVA, una colección seleccionada de datos de secuencias de ARN ribosomal. Todos los meses recibe un puñado de preguntas de los usuarios sobre secuencias potencialmente mal etiquetadas. Aplicó el software Stamatakiss a un grupo de organismos que constaba únicamente de cianobacterias. Usando la taxonomía de GenBank, de 1,000 [secuencias] encontré 150 mal etiquetadas, lo cual no es tan malo, dijo. Otros dos conjuntos de datos, Greengenes y Ribosomal Database Project, mostraron cada uno 90 secuencias potencialmente mal etiquetadas, mientras que la taxonomía SILVA tenía 30.
Habría sido muy difícil encontrar etiquetas erróneas como esta, dijo Yilmaz. Si tuviera que hacerlo manualmente, supongo que tendría que construir árboles filogenéticos una y otra vez. Esto es mucho mejor.
El éxito del algoritmo comienza a desmoronarse a nivel de especie, pero a nivel de género es bastante preciso, identificando secuencias mal etiquetadas con hasta un 98 por ciento de precisión, dijo Alexey Kozlov, estudiante de posgrado. en el laboratorio de Stamatakiss. En la actualidad, el programa puede manejar unas 10.000 secuencias, por lo que es mejor aplicarlo a conjuntos de datos más pequeños. Kozlov dijo que aumentar la cantidad de secuencias es un objetivo futuro.
Mientras tanto, NCBI está haciendo algunos esfuerzos para limpiar las secuencias mal identificadas en GenBank. La agencia ha estado trabajando internamente y con grupos externos para desarrollar un conjunto seleccionado de secuencias 16S vinculadas a cepas tipo y de secuencias espaciadoras transcritas internas (ITS), otro marcador ampliamente utilizado en hongos. Esas son secuencias particularmente importantes para curar y limpiar conjuntos porque muchos los usan para clasificar sus organismos, dijo Lipman.
Lipman dijo que le complace saber de desarrolladores como Stamatakis que están trabajando para automatizar el proceso de depuración de bases de datos genéticas. Le gustaría ver estas herramientas aplicadas en GenBank, particularmente en el punto de envío. En gran medida, significa que, en lugar de que la base de datos observe cada registro a medida que ingresa en el back-end, luego tenga que volver al remitente, si obtenemos estos modelos de consenso con anticipación. . . en última instancia, puede ver cómo esto nos ahorraría mucho tiempo.
Es especialmente importante que GenBank priorice tales esfuerzos dada la forma en que los investigadores ahora usan la base de datos, agregó. Tiene que ver con esta transición que la secuenciación ahora se realiza con fines comparativos, por lo tanto, deberíamos estar haciendo un buen trabajo para limpiarlo y así poder dar rápidamente una respuesta mucho más informativa a un usuario.
¿Le interesa leer más?
The Scientist ARCHIVES
Conviértase en miembro de
Reciba acceso completo a más de 35 años de archivos, así como TS Digest, ediciones digitales de The Scientist, historias destacadas, ¡y mucho más!Únase gratis hoy ¿Ya es miembro?Inicie sesión aquí