Making Public Data Public
WIKIMEDIA, artículo de MIGUEL ANDRADEA en PLOS Biology hoy (8 de junio) describe Wide-Open: un sistema automatizado que escanea artículos publicados en busca de referencias a conjuntos de datos disponibles públicamente y determina si esos datos están realmente disponibles. El sistema, que identificó cientos de conjuntos de datos atrasados para su publicación pública en un repositorio de datos de genómica funcional en particular, obtuvo un apoyo rotundo de investigadores, defensores de la ciencia abierta y administradores de bases de datos por igual.
“[El sistema] es notablemente simple, muy directo y . . . muy impactante” dice el analista de datos biológicos y defensor de la ciencia abierta Titus Brown de la Universidad de California, Davis, que no participó en el estudio. «Es un gran ejemplo de una idea simple que es fácil de implementar y que nadie más pensó».
Los avances en técnicas biológicas y tecnologías computacionales significan que nunca ha sido tan fácil para los científicos acumular , almacenar y, en aras del conocimiento colectivo, compartir sus datos. De hecho, para muchos biólogos,…
Pero, como descubrieron Maxim Grechkin y Bill Howe de la Universidad de Washington en Seattle, a veces el paso de publicación de datos no sucede. Estos científicos informáticos habían estado intentando estudiar la forma en que los investigadores comparten y reutilizan los datos, pero durante el proceso, dice Grechkin, quien es estudiante de doctorado en el laboratorio de Howes, descubrimos que algunas personas afirman que han publicado sus conjuntos de datos, pero [no lo han hecho]. ].
Grechkin y Howe, junto con el investigador de Microsoft Hoifung Poon crearon un código informático que les permitía descargar todos los artículos científicos de acceso público desde PubMed Central, escanear el texto en busca de identificadores de bases de datos públicas o números de acceso y ejecutar esos identificadores contra los repositorios públicos para determinar si los datos eran realmente públicos o no.
Usando este sistema, llamado Wide-Open, los investigadores realizaron un escaneo inicial para los números de acceso de los conjuntos de datos almacenados en Gene Expression Omnibus (GEO), parte del Centro Nacional de Información Biotecnológica (NCBI). Descubrieron que de aproximadamente 25 000 documentos que contenían aproximadamente 29 000 números de acceso GEO, 473 conjuntos de datos estaban potencialmente atrasados. Entonces, en febrero de 2017, alertaron a GEO.
De los 473 conjuntos de datos, 429 estaban vencidos y se publicaron de inmediato al público, dice la curadora principal de GEO, Tanya Barrett, mientras que otros 27 ya habían sido publicados por la hora en que GEO recibió la alerta. Publicamos datos todos los días, explica Barrett.
Sabíamos que había algunos conjuntos de datos atrasados, por lo que no fue una gran sorpresa, dice Barrett, pero lo que mostró claramente el proyecto Wide-Open fue que la acumulación estaba creciendo. Esa fue la parte realmente útil para nosotros.
También se habían publicado otros 14 de los conjuntos de datos, pero los números de acceso citados en los documentos, y por lo tanto elegidos por Wide-Open, contenían errores tipográficos. Los tres conjuntos de datos restantes no se pudieron publicar debido a un envío incompleto o a problemas de privacidad, explicaron los autores.
El equipo también utilizó Wide-Open para buscar artículos publicados con números de acceso dentro del archivo de lectura de secuencias (SRA) de NCBI. ) y encontró 84 conjuntos de datos potencialmente atrasados.
Antes del sistema Wide-Open automatizado, GEO dependía de los usuarios de la base de datos para alertarlos sobre conjuntos de datos atrasados, por ejemplo, quejas de personas que no pueden acceder a una entrada publicada numberand en búsquedas de texto de artículos recién publicados para números de acceso. Pero estos no están automatizados, son procesos manuales, dice Barrett. GEO y SRA ahora planean agregar Wide-Open a las herramientas que usamos, dice ella.
Wide-Open continúa actualizándose regularmente con posibles conjuntos de datos GEO y SRA vencidos, y el equipo planea agregar búsqueda capacidades para más repositorios públicos en el futuro, dice Grechkin.
Esta es una iniciativa excelente y el éxito inicial con GEO es bastante sorprendente, dice Brian Nosek, cofundador y director ejecutivo del Center for Open Science , que no participó en el proyecto.
Pero existe una gran limitación con Wide-Open. El programa depende de tener documentos de acceso público para buscar, explica Grechkin. Por lo tanto, las revistas que están detrás de un muro de pago no se pueden buscar sin pagar una suscripción o recibir el permiso de los editores. Este es otro argumento más para las [publicaciones] de acceso abierto, dice Brown.
Aunque Wide-Open actualmente es muy limitado, es un primer paso muy bienvenido hacia la automatización de las comprobaciones para el cumplimiento [del intercambio de datos], dice el ex editor gerente de la revista Molecular Ecology y de Axios Review Tim Vines, quien tampoco participó en el estudio.
Entonces, ¿por qué, si los científicos están dispuestos a enviar sus datos a repositorios públicos, ¿ocurre el incumplimiento?
Las fallas en el cumplimiento de las intenciones de compartir datos a menudo se deben a una razón humana e inocente: el olvido, dice Nosek. Los investigadores están ocupados y . . . un compromiso de meses atrás para compartir datos [puede fácilmente] pasarse por alto u olvidarse.
De hecho, tratamos de hacer un seguimiento, pero a veces son seis meses o incluso dos años que un artículo va dando vueltas de una revista a otra. , dice el investigador de medicina genética Ronald Crystal de Weill Cornell Medicine en Nueva York, quien en el momento de la entrevista tenía uno de los 200 o más conjuntos de datos atrasados que figuran en el sitio web Wide-Open. Algunas cosas se pasan por alto.
Este sentimiento fue repetido por el toxicólogo computacional Patrick McMullen de ScitoVation y el investigador de traducción Jamie Cate de la Universidad de California, Berkeley, quienes también tenían conjuntos de datos atrasados. Crystal, Cate, McMullen y otros investigadores que respondieron a The Scientist apoyaron Wide-Open y planean publicar ahora sus datos.
Creo que [Wide-Open ] es un gran sistema, dice McMullen. Es útil para los autores, para los curadores del repositorio, así como para las personas que quieren usar los datos, dice. En resumen, es un ganar-ganar, o incluso un ganar-ganar-ganar.
M. Grechkin et al., Wide-Open: Aceleración de la publicación de datos públicos mediante la automatización de la detección de conjuntos de datos vencidos, PLOS Biology, 15: e2002477, 2017.
Interesado en leer más?
El científico ARCHIVOS
Conviértase en miembro de
Reciba acceso completo a más de 35 años de archivos, así como TS Digest, ediciones digitales de The Scientist, artículos destacados, ¡y mucho más!Únase gratis hoy ¿Ya es miembro?Inicie sesión aquí