Biblia

Opinión: valor latente en la literatura

Opinión: valor latente en la literatura

FLICKR, JOHN MARTINEZ PAVLIGAEn los Estados Unidos, como en tantos otros países del mundo, los científicos están aprendiendo a sobrevivir con presupuestos reducidos. La reducción de los fondos federales tiene a la comunidad biomédica buscando formas de sacar más provecho de cada subvención. En una era de austeridad, el éxito depende de cuán inteligentes seamos con cada dólar invertido en la empresa de investigación del país.

Una forma de obtener más valor de esos dólares de investigación y desarrollo es extraer más conocimiento de los datos y hallazgos científicos que ya hemos generado. Décadas de inversión han producido una gran cantidad de información de proyectos de investigación básica, estudios traslacionales y ensayos clínicos. Pero nosotros, como comunidad, a menudo no sabemos lo que está disponible, y carecemos de un recurso coherente que reúna toda esta información: un depósito masivo que se pueda consultar o una herramienta poderosa que pueda recopilar inteligencia de una serie de…

Los esfuerzos recientes dentro de la comunidad de acceso abierto están avanzando hacia la mejora del acceso a datos y publicaciones, pero sigue existiendo una falta general de conciencia sobre la existencia de datos relevantes, así como los desafíos de elegir los más altos. datos de calidad y reutilizarlos para nuevos usos. Los conjuntos de datos primarios están enterrados en una cantidad cada vez mayor de silos de datos que no son prácticos para el científico promedio de rastrear, y los datos generalmente se formatean de una manera conveniente para el productor, no para el consumidor. Esto dificulta la búsqueda, extracción y reutilización de descubrimientos y conocimientos clave. Como resultado, a menudo es más fácil para los investigadores obtener fondos para regenerar datos que para reutilizarlos.

Las herramientas diseñadas para recopilar, consultar y extraer datos existentes podrían generar información útil. Considere Google Maps, que a través de poderosos algoritmos crea direcciones de conducción personalizadas, predice los tiempos de viaje y sugiere alternativas de viaje. Estos algoritmos se basan en la base de datos central de información geográfica actualizada, bien estructurada y de alta calidad de Google. Los coches de Google Street View mantienen el mapa actualizado para que los usuarios no tengamos que preocuparnos por ello. Los científicos necesitan una solución similar: un Google Maps de conocimiento biomédico global y accesible a través de Internet, de modo que las nuevas técnicas y herramientas bioinformáticas puedan empoderar a los investigadores y médicos de todo el mundo que buscan comprender, diagnosticar y tratar mejor las enfermedades humanas.

Si esto suena como la visión color de rosa de una persona del campo científico, no lo es. Mi empresa, QIAGEN Silicon Valley, trabaja en el campo de la minería de datos basada en el conocimiento en medicina y biología. Un proyecto de prueba de principio que hicimos para el Departamento de Defensa de los EE. UU. mostró que el conocimiento latente en la literatura científica se puede organizar y reutilizar para predecir de manera efectiva nuevos conocimientos fundamentales.

Nuestro estudio utilizó potentes algoritmos para predecir dianas farmacológicas contra la infección por agentes virales y bacterianos de alto riesgo. Entrenamos nuestra base de datos alimentándola con toda la evidencia experimental que pudimos encontrar en la literatura de investigación que describía las interacciones huésped-patógeno y la biología molecular y de vía asociada de estos organismos. Nuestro enfoque abarcó décadas de conocimiento en virología, bacteriología, inmunología y biología básica, mucho más de lo que cualquier investigador individual podría leer y asimilar, y mucho menos mantenerse actualizado. Nuestras técnicas especializadas de construcción de conocimiento incluyeron la exploración de cada fuente de datos, la integración de la información en modelos de datos semánticos estandarizados de biología de enfermedades y la alimentación en un solo modelo de datos basado en gráficos, que procesaron nuestras computadoras de alto rendimiento.

luego libere nuestros algoritmos en la base de datos, pidiéndoles que identifiquen posibles objetivos farmacológicos. Los algoritmos arrojaron una gran cantidad de ellos, priorizados según el nivel y la calidad de la evidencia. Los que parecían más convincentes para nuestro equipo de investigación se sometieron a pruebas experimentales, que mostraron que un tercio de los objetivos predichos tenían un impacto significativo en la supervivencia de los ratones infectados por estas bioamenazas.

Muchos de los objetivos eran nuevos. y asociado a mecanismos biológicos inusuales, en algunos casos no ampliamente establecidos en inmunología. El enfoque que utilizamos vinculó resultados experimentales de diversos campos de investigación que caracterizaron genes o vías críticas para la patogénesis de estos virus y bacterias. La base de datos pudo reutilizar hallazgos experimentales de, por ejemplo, estudios de cáncer o cardiovasculares cuando eran relevantes para la inmunología y las enfermedades infecciosas.

Este proyecto demostró que un enfoque in silico a gran escala puede detectar e identificar con éxito nuevos dianas farmacológicas, incluso para problemas complejos como el descubrimiento terapéutico de amplio espectro. El conocimiento de esos objetivos ya estaba disponible, en algunos casos en publicaciones que han estado disponibles durante años. Solo era cuestión de reunir las fuentes correctas y desarrollar una herramienta que pudiera dar sentido a la información.

Cuando se combina este tipo de enfoque con la enorme cantidad de datos nuevos que se generan todos los días en la ciencia , las posibilidades parecen infinitas.

La enfermedad y la fisiología humanas son maravillosamente complejas, y todavía estamos en las primeras etapas del desarrollo de modelos matemáticos y computacionales útiles de los sistemas vivos. Tenemos un largo camino por delante hasta que las computadoras puedan simular biología compleja o predecir curas para cada enfermedad humana. De hecho, construir y mantener un atlas de conocimiento de investigación biomédica de este tipo sería un desafío. Pero estamos progresando.

Hay una enorme cantidad de valor no materializado en la literatura científica y las bases de datos en constante crecimiento. De hecho, como comunidad, nuestra capacidad para generar datos está superando nuestra capacidad para convertir de manera efectiva estos datos en información procesable que impulse mejores decisiones en la investigación clínica y el descubrimiento de fármacos. Eso significa que todos se beneficiarán no solo de exigir más fondos para la investigación, sino también de capturar la inteligencia que ya está allí y que está esperando emerger. Juntos, con un poco de creatividad y esfuerzo, podemos aprovechar el conocimiento colectivo de la comunidad científica para permitir que los médicos e investigadores descubran los misterios de las enfermedades humanas y, en última instancia, ofrecer mejores diagnósticos y terapias a pacientes de todo el mundo.

Ramon Felciano cofundó Ingenuity Systems (ahora QIAGEN Silicon Valley), donde es vicepresidente de investigación.

¿Interesado en leer más?

El científico ARCHIVOS

Conviértase en miembro de

Reciba acceso completo a más de 35 años de archivos, así como como TS Digest, ediciones digitales de The Scientist, artículos destacados y mucho más más!Únase gratis hoy ¿Ya es miembro?Inicie sesión aquí