Los científicos continúan usando métodos obsoletos
ISTOCK, EGALCuando Lior Pachter se encontró con una de las últimas publicaciones del proyecto Genotype-Tissue Expression (GTEx), financiado con fondos federales, no pudo reprimir su decepción.
En el artículo, publicado en octubre pasado, los investigadores del consorcio GTEx analizaron datos de secuenciación de ARN (RNA-seq) de más de 40 tipos de tejidos en el cuerpo humano. Los hallazgos en sí fueron emocionantes, dice Pachter, biólogo computacional de Caltech. Pero una sola línea, escondida en la sección de métodos, lo dejó exasperado. La línea decía: «Las lecturas de ARN-seq se alinearon con el genoma humano». . . usando TopHat (v1.4).”
En respuesta, Pachter recurrió a Twitter. “Por favor, deja de usar Tophat” escribió a principios de diciembre. «Ya no hay razón para usarlo».
La versión 1.4 de TopHat fue una actualización de 2012 de un programa de código abierto concebido por Pachter y sus colegas en 2008 que alinea las lecturas de los experimentos de RNA-seq para un genoma de referencia. No solo…
El programa TopHat original está muy desfasado, no solo en el tiempo, sino también en el rendimiento: ha sido superado, dice Pachter a The Scientist. A estas alturas, en 2017, sin duda un consorcio de alto perfil con datos interesantes no debería estar usando esta herramienta.
Kristin Ardlie, directora del Centro de Coordinación y Análisis de Datos de Laboratorio GTEx en el Instituto Broad, señala que el grupo presta mucha atención a la elección de la herramienta, pero que hay retrasos inevitables dada la escala de los proyectos.
Escribir los documentos del consorcio y llegar a un punto final de publicación puede llevar mucho tiempo, escribe en un correo electrónico a El científico. Los datos de las publicaciones de octubre se finalizaron en 2014 y se hicieron públicos en 2015. Los análisis originales de eso se habrían realizado meses antes de esa fecha, agrega. (TopHat2, el predecesor inmediato de TopHat, estuvo disponible en 2012). Consideramos que [TopHat v1.4] está desactualizado (o que hay mejores versiones disponibles) y, de hecho, hemos actualizado nuestras herramientas muchas veces desde entonces. Los proyectos más recientes de GTEx usan STAR.
Pero Pachter señala que GTEx no es el único grupo que publica documentos que citan versiones obsoletas del software. Desde su publicación en 2009, el artículo original de TopHat, en coautoría con Pachter, su estudiante de posgrado Cole Trapnell y el coasesor de Trapnell, Steven Salzberg, ha acumulado más de 6500 citas, de las cuales más de 1000 se registraron el año pasado.
Envía el mensaje de que realmente no importa qué programa uses, que todos son similares y ese no es realmente el caso.
Lior Pachter, Caltech
Y TopHat es solo uno de muchas herramientas computacionales obsoletas se han incorporado como malos hábitos científicos. De hecho, la evidencia anecdótica, así como la investigación reciente sobre el tema, sugieren que el uso de software obsoleto está muy extendido en la comunidad de ciencias biológicas y rara vez se reconoce como un problema.
Muy a menudo, nos hemos encontrado con estudiantes o profesores que han estado usando inconscientemente estas herramientas de software obsoletas, dice Jri Reimand, biólogo de cáncer computacional de la Universidad de Toronto. Cuando se les pregunta por qué no han considerado actualizar sus flujos de trabajo, generalmente responden porque primero se familiarizaron con esas herramientas y realmente no prestaron atención a si se actualizaban con frecuencia.
Ahora hay un impulso creciente para contrarrestar esta actitud, ya que se vuelve cada vez más obvio que la elección del software computacional puede tener una influencia sustancial en el progreso de la ciencia. Los usuarios de métodos más antiguos no solo no aprovechan los algoritmos más rápidos y precisos, los conjuntos de datos mejorados y los ajustes y correcciones que evitan errores en versiones anteriores, sino que también contribuyen a una crisis de reproducibilidad debido a las diferencias en los resultados nuevos y antiguos. producen los métodos.
Desde esa perspectiva, cuando los usuarios usan herramientas muy antiguas que realmente sabemos que no son las correctas para usar, en cierto sentido se devalúan las contribuciones de todos nosotros al desarrollar una nueva metodología, dice Pachter. . Envía el mensaje de que en realidad no importa qué programa utilice, que todos son similares y que ese no es realmente el caso.
El efecto del software obsoleto en los resultados y la reproducibilidad
Los últimos años han visto un puñado de esfuerzos para cuantificar el efecto del uso de herramientas computacionales obsoletas en la investigación biológica. En 2016, Reimand y sus colegas exploraron 25 programas de herramientas de enriquecimiento de vías basados en la web que ayudan a los investigadores a acceder a bases de datos en línea para dar sentido a los datos genéticos experimentales. estaban abriéndose camino en la literatura, y si esos cambios tuvieron un efecto en los resultados científicos.
No es el efecto de que las personas se tomen mucho tiempo para publicar los resultados.
Jri Reimand, Universidad de Toronto
Sus hallazgos fueron condenatorios. En una carta al editor publicada en Nature Methods, los investigadores escribieron que el uso de recursos obsoletos ha afectado fuertemente el análisis genómico práctico y la literatura reciente: el 67 % de las 3900 publicaciones que encuestamos en 2015 hacían referencia a software obsoleto que capturó solo el 26 % de los procesos y vías biológicos identificados con los recursos actuales.
El principal culpable de esa estadística fue un popular software de anotación de genes llamado DAVID, que, en 2015, no había sido revisado desde 2010 (aunque ha sido actualizado desde entonces). A pesar de que no pudo descubrir casi las tres cuartas partes de la información revelada usando alternativas más recientes, DAVID la había incluido en más de 2500 publicaciones, muchas de las cuales deben haber usado la herramienta cuando ya estaba sustancialmente desactualizada y reemplazada por otras herramientas disponibles. Notas de Remand. No es el efecto de que las personas se tomen mucho tiempo para publicar los resultados.
Incluso cuando una sola herramienta se actualiza regularmente, la comunidad de investigación puede quedarse atrás, como lo destaca un estudio de 2017 de la Universidad de Pensilvania. el farmacólogo y biólogo computacional Casey Greene y su exalumno de posgrado, Brett Beaulieu-Jones, en Biotecnología natural.
El dúo se centró en una sola herramienta: BrainArray Custom CDF, un recurso en línea desarrollado en 2005 que consta de varios archivos que ayudan a los experimentos de expresión génica al hacer coincidir las sondas de ADN con los genes. Al revisar las 100 publicaciones más recientes que emplearon la herramienta, ahora en su versión 22, Greene y Beaulieu-Jones encontraron que más de la mitad omitió qué versión usaron los autores en conjunto, lo que hace que los hallazgos de estos estudios sean esencialmente irreproducibles. Los artículos restantes, que se publicaron entre 2014 y 2016, citaron nueve versiones diferentes, que van de la 6 a la 19.
Cuando los investigadores aplicaron varias versiones recientes de BrainArray Custom CDF a un conjunto de datos de expresión génica obtenidos de células humanas líneas diseñadas para carecer de proteínas de células T particulares, encontraron múltiples discrepancias en los resultados. Por ejemplo, mientras que las versiones 18 y 19 identificaron un total de alrededor de 220 genes que mostraban una expresión significativamente alterada en comparación con los controles, la versión 19 omitió 10 genes que se identificaron con la versión 18, y otros 15 genes que se identificaron con la versión 19 se omitieron. perdido por la versión 18.
Está marcando la diferencia en los márgenes, dice Greene. Si uno de esos es su gen favorito, podría cambiar su interpretación.
Crear conciencia sobre la necesidad de mantenerse actualizado
Estudios como Greenes y Reimands son un recordatorio de que hay una diferencia entre el software y el protocolo experimental, dice Pachter. Los cambios en las ciencias de la computación son muy rápidos, el ritmo del cambio y la naturaleza del cambio son muy diferentes a los del protocolo experimental.
Pero transmitir ese mensaje a los investigadores no es tan simple, agrega. Si bien algunos de los que respondieron al tweet de diciembre de Pachters sugirieron simplemente eliminar las herramientas antiguas o las versiones antiguas de un software en línea para, al menos, evitar nuevas descargas de herramientas obsoletas, hay buenas razones para mantener un registro de los dinosaurios computacionales en línea. Hay un argumento, y es importante, de que las personas pueden querer reproducir resultados antiguos o tener la capacidad de ejecutar el software como estaba en ese momento, dice Pachter.
Los editores de literatura científica también pueden ayudar aumentar la conciencia.
Reimand está de acuerdo en que la reproducibilidad es una razón clave para mantener buenos registros de las herramientas más antiguas. Debería haber una versión disponible del mismo software que le permita volver, digamos, dentro de seis meses y decir: Así es como obtuve los resultados entonces, señala. Muchos sitios ahora hacen esto: el sitio web de BrainArray, por ejemplo, actualmente aloja sus 22 versiones para descargar, aunque en el momento del estudio de Greenes 2017, al menos cinco versiones no estaban disponibles.
Algunos desarrolladores, en cambio, optan por la advertencia avisos en los sitios web donde el software está disponible para descargar. En la página de inicio de TopHats, un aviso debajo del panel de descripción dice: Tenga en cuenta que TopHat ha entrado en una etapa de bajo mantenimiento y soporte, ya que ahora es reemplazado en gran medida por HISAT2, que proporciona la misma funcionalidad principal. . . de una manera más precisa y mucho más eficiente. (Énfasis en TopHats.)
Pachter sugiere que los desarrolladores también podrían modificar las versiones antiguas de software para incluir sus propias advertencias, de modo que cuando descargue la herramienta, vaya y la ejecute, entonces el programa emite un mensaje y dice: Puede usar esto, pero hay herramientas más nuevas y mejores.
Por otro lado, los editores de literatura científica también pueden ayudar a aumentar la conciencia sobre el papel de las herramientas computacionales al requerir mayor transparencia sobre la información del software. Varias editoriales de peso como Elsevier, Spring Nature y AAAS han adoptado pautas de publicación destinadas a mejorar la reproducibilidad, muchas de las cuales tienen en cuenta el problema del software.
Incluyendo toda la información, dependencias, variables de configuración , datos de prueba y otros elementos necesarios para repetir un análisis es realmente solo una parte de la imagen de reproducibilidad más amplia, que Elsevier apoya firmemente, escribe William Gunn, director de comunicaciones académicas de Elsevier, en un correo electrónico a The Scientist. Por ejemplo, un conjunto de pautas conocido como métodos STAR, introducido por Cell Press en 2016 y que ahora se está expandiendo en las revistas de Elsevier, requiere una descripción del software, que incluye información de la versión y un enlace para obtenerlo, a menos que se proporcione como un archivo complementario, agrega Gunn.
Terminar con la descarga de software
Si bien iniciativas como estas pueden crear conciencia sobre los riesgos de usar software obsoleto, también hay movimientos en la comunidad de ciencias biológicas para hacer que todo La cuestión de actualizar las herramientas informáticas, así como cambiar entre herramientas y varias versiones, es mucho más fácil.
Una posible solución, señala Greene, es que los investigadores adopten la práctica de cargar todo su entorno informático con sus publicaciones, de modo que los análisis se pueden ejecutar con todas y cada una de las versiones de una herramienta a medida que estén disponibles. A medida que cambia una versión, puede ejecutar el análisis con ambas versiones a través de ese software y ver rápidamente la diferencia en los resultados, dice Greene, cuyo artículo sobre Nature Biotechnology describió cómo podría funcionar un sistema de este tipo en detalle.
Este tipo de enfoque dinámico del software se usa ampliamente en informática, pero sigue siendo un concepto relativamente novedoso entre los biólogos. Sin embargo, como informó Nature a principios de este año, algunos investigadores ven la transición a una era en la que los científicos ya no tendrán que preocuparse por descargar y configurar software en solo unos años.
Hasta entonces, Pachter tiene consejos para otros desarrolladores de herramientas. Haz lo que he hecho, en Twitter y en otros lugares, en charlas y declaraciones públicas, dice. Asegúrese de tomarse el tiempo para decirle a la gente, tengo esta herramienta, es muy popular. No lo use más.
¿Interesado en leer más?
The Scientist ARCHIVES
Conviértase en miembro de
Reciba acceso completo a más de 35 años de archivos, así como a TS Digest, ediciones digitales de The Scientist, artículos destacados, ¡y mucho más!Únase gratis hoy ¿Ya es miembro?Inicie sesión aquí