Retrocediendo los pasos
FLICKR, MCKAYSAVAGEUn creciente cuerpo de investigación ha destacado a los científicos’ incapacidad de reproducir los resultados de los demás, incluido un estudio de 2012 que encontró que solo el 11 por ciento de los «puntos de referencia»; los estudios de cáncer investigados podrían confirmarse de forma independiente. Se estima que esta cifra de reproducibilidad terriblemente baja es aún más baja para los estudios ómicos a gran escala porque los revisores externos a menudo se ven obstaculizados por la falta de protocolos detallados y acceso a los recursos necesarios para realizar los análisis.
“Algunas comunidades tienen estándares que exigen que los datos sin procesar se depositen en el momento de la publicación o antes, pero el código de computadora generalmente no está disponible, generalmente debido al tiempo que lleva prepararlo para su publicación” explicó Victoria Stodden, profesora asistente de estadística en la Universidad de Columbia.
La incapacidad de validar es particularmente preocupante porque se entiende que los estudios ómicos son propensos a errores. Dado el gran tamaño de la mayoría de los conjuntos de datos, no es raro que incluso eventos muy inusuales…
Mientras que algunas revistas han tratado de hacer que el proceso de investigación sea más transparenteNature y Science, por ejemplo, requiere que los autores pongan sus datos a disposición siempre que sea posible, y la última publicación ha ampliado este requisito para incluir el código y la adopción de software ha sido irregular. En un estudio PLOS ONE de junio, Stodden y sus colegas demostraron que solo el 38 % y el 22 % de los autores que envían informes se adhieren a las políticas de datos y códigos de las revistas, respectivamente.
Mientras tanto, sin embargo, algunos científicos están archivando abiertamente sus datos y códigos por su cuenta, ya sea a través de sitios web personales o institucionales, o en sitios como Reproducibility Projects Open Science Framework y RunMyCode.org. Algunos también están utilizando plataformas de flujo de trabajo como GenePattern, MyExperiment, Galaxy y Taverna, por nombrar algunas, para ayudar a otros investigadores a replicar sus resultados.
Sage Bionetworks, con sede en Seattle, está adoptando un enfoque diferente, que convierte la reproducibilidad en un subproducto. del proceso de investigación en sí, en lugar de simplemente una carga en el momento de la publicación, dijo Stephen Friend, cofundador, director y presidente de la organización.
¿Solución sabia? Una plataforma computacional de código abierto, llamada Synapse, que permite una colaboración fluida entre equipos científicos dispersos geográficamente, brindándoles las herramientas para compartir datos, código fuente y métodos de análisis en proyectos de investigación específicos o en cualquiera de los 10,000 conjuntos de datos en el corpus de datos masivo de las organizaciones. . La clave de estas colaboraciones son las herramientas integradas en Synapse que permiten todo, desde congelación de datos y controles de versiones hasta registros gráficos de procedencia que delimitan quién hizo qué a qué conjunto de datos, por ejemplo.
Al incorporar estas herramientas a lo largo del ciclo de investigación, en lugar que como descripciones post-hoc añadidas en el momento de la publicación, añadió Friend, los datos y los recursos de análisis creados por las colaboraciones pueden publicarse en la comunidad de investigación general para su verificación.
Synapse se está poniendo a prueba este año , que sirve como marco para ocho desafíos computacionales de big data organizados por Sage y DREAM (Diálogo para evaluaciones y métodos de ingeniería inversa), un grupo de biología de sistemas distribuidos. Los desafíos, que requieren que los participantes compartan código y análisis abiertamente a través de Synapse, catalizan diversos equipos de investigadores en torno a un objetivo central, como el desarrollo de un modelo predictivo de enfermedades. Los participantes reutilizan y construyen sobre el trabajo de los demás para generar modelos ganadores. Los resultados de uno de esos desafíos, el Desafío del pronóstico del cáncer de mama, se publicaron en Science Translational Medicine en abril.
Además del texto narrativo que resume el estudio, el documento se vincula con el espectro completo de los detalles de los estudios, tal como se capturan en Synapse. Esto permite que otros no solo lean los artículos, sino que proporciona todo lo necesario para reproducir simultáneamente los mismos análisis informados en el documento.
Synapse también está impulsando The Cancer Genome Atlass (TCGA) Pan-Cancer proyecto, un esfuerzo masivo para trazar el panorama molecular de los primeros 12 tipos de tumores perfilados por sus participantes. El esfuerzo incluye a 250 investigadores distribuidos en 30 instituciones que ejecutan 60 proyectos de investigación diferentes basados en el análisis integrador de 1930 archivos de datos de entrada. Debido a que muchos de estos proyectos son interdependientes, los investigadores usaron Synapse para administrar análisis de varias etapas y compartir sus resultados.
De hecho, fue el marco de conexión de datos lo que mantuvo unido todo el proyecto, dijo Josh Stuart, profesor de biomolecular ingeniería en la Universidad de California, Santa Cruz, que forma parte del proyecto dirigido por TCGA.
Al igual que la publicación Breast Cancer Prognosis Challenge, los artículos derivados de Pan-Cancer incluyen enlaces integrados a conjuntos de datos listos para el análisis, código y registros detallados de procedencia que Friend señaló que permiten a otros volver a ejecutar los análisis desde cero y verificar los resultados.
Proporciona un marco para que la ciencia se extienda, en lugar de publicar como un punto final finito para la investigación, añadió. A medida que el proyecto Pan-Cancer se expande, los conjuntos de datos generados por el proyecto se seguirán manteniendo y la nueva información estará disponible de inmediato para la comunidad para permitir que cualquier persona contribuya al esfuerzo.
Friend dijo que el enfoque posible a través de Synapse no solo aumentó el valor de los recursos del trabajo del proyecto, sino que también aceleró el ritmo del progreso científico. Además, al exponer todo el proceso de investigación, cualquier etapa de análisis puede servir como punto de partida para proyectos científicos adicionales. Un nivel de transparencia y reproducibilidad, dijo Friend, transformará los datos en conocimiento y el conocimiento en descubrimiento.
¿Interesado en leer más?
The Scientist ARCHIVES
Conviértase en miembro de
Reciba acceso completo a más de 35 años de archivos, así como TS Digest, ediciones digitales de The Scientist, artículos destacados, ¡y mucho más!Únase gratis hoy ¿Ya es miembro?Inicie sesión aquí