Encontrar agujas de COVID-19 en un pajar de coronavirus
La primera búsqueda de COVID-19 desarrollada en Sandia National Laboratories identifica, organiza y codifica documentos relevantes. Crédito: Laboratorios Nacionales Sandia
Los investigadores de COVID-19 de todo el mundo se enfrentan a la abrumadora tarea de analizar decenas de miles de estudios existentes sobre el coronavirus, en busca de puntos en común o datos que puedan ayudar en sus investigaciones biomédicas urgentes.
Para acelerar el filtrado de información relevante, Sandia National Laboratories ha reunido una combinación de minería de datos, algoritmos de aprendizaje automático y análisis basados en compresión para resaltar los datos más útiles en una computadora de oficina. En su esfuerzo inicial, los investigadores pudieron reducir más de 29 000 estudios publicados sobre el coronavirus a 87 artículos mediante la identificación de similitudes de lenguaje y caracteres en cuestión de 10 minutos. Eso es ciencia de datos de respuesta rápida.
«Los expertos médicos y epidemiológicos pueden tener acceso casi inmediato a la investigación pertinente existente sin ser científicos de datos», dijo el científico informático de Sandia, Travis Bauer. «Con cierto refinamiento, este nuevo proceso puede aclarar las preguntas que nuestros expertos en salud pública necesitan responder para acelerar la investigación de COVID-19, particularmente a medida que surgen rápidamente nuevos estudios».
La naturaleza de la ciencia de respuesta rápida es generar rápidamente resultados fiables. En un esfuerzo de siete días, los científicos de Sandia concibieron, configuraron, analizaron, probaron y volvieron a analizar un experimento que ayudó a los expertos en bioseguridad y salud pública a aislar documentos clave sobre el coronavirus para acceder rápidamente a la información más relevante para derrotar al virus COVID-19.
Bauer y un equipo de científicos de datos, ingenieros, un experto en factores humanos y expertos en virología, genética, salud pública, bioseguridad y biodefensa desarrollaron y realizaron dos estudios de búsqueda diferentes, uno con dos expertos y otro con tres. Los expertos estudiaron la «Estabilidad del SARS-CoV-2 en gotitas de aerosol y otras matrices», extraída de la lista de preguntas maestras del Departamento de Seguridad Nacional de los EE. en todo el gobierno federal.
Aplicación de algoritmos y técnicas de compresión de datos
Los datos utilizados en el proyecto se proporcionaron como parte de un llamado federal a la acción para la comunidad tecnológica en una «Nueva Máquina- Conjunto de datos legibles de COVID-19 que, en ese momento, contenía 29,315 documentos de investigación llenos de temas relevantes para el coronavirus. En un intento por acelerar la capacidad de los expertos para estudiar una pregunta específica, la investigación de Sandia, financiada inicialmente a través de los ingresos por regalías de los laboratorios y luego a través del programa de Investigación y Desarrollo Dirigido por el Laboratorio de Sandia, se llevó a cabo en varias etapas.
En la etapa inicial , los expertos en virología, genética, salud pública, bioseguridad y biodefensa del estudio indexaron los trabajos de investigación y trazaron esa información en un gráfico bidimensional utilizando técnicas de procesamiento de lenguaje natural basadas en el contenido del documento. Los documentos se convirtieron en una matriz de lenguaje natural con capacidad de búsqueda y se indexaron o calificaron según la capacidad de búsqueda y la relevancia.
Se probaron tres algoritmos de visualización de uso común en el conjunto de 29,000 documentos para ver cuál organizaría mejor los documentos en útiles agrupaciones, dijo Bauer.
- El algoritmo de Descomposición de Valor Singular descubre información latente en las relaciones entre los términos del documento. Bauer dijo que, para los propósitos de este estudio, este algoritmo no proporcionó suficiente diferenciación para que un usuario explorara, por lo que no fue elegido.
- El algoritmo de proyección y aproximación de variedad uniforme es un método popular que se usa para organizar ampliamente los datos en dos dimensiones para su visualización. Sin embargo, para este estudio, UMAP, tal como se probó, no proporcionó suficiente diferenciación en los documentos para que los expertos pudieran profundizar en un tema específico de COVID-19. El equipo creía que un ajuste adicional de este algoritmo podría hacerlo más útil para este conjunto de datos.
- El algoritmo de incrustación de vecino estocástico distribuido en T es una herramienta de aprendizaje automático que puede procesar lotes de datos similares o relevantes. El algoritmo produjo colecciones claramente definidas de información relacionada que permitieron a los expertos explorar temas específicos de COVID-19. El equipo de Bauer determinó que este algoritmo podría ajustarse para producir resultados aún mejores y más utilizables.
La segunda búsqueda de COVID-19 desarrollada en Sandia National Laboratories permite a los usuarios concentrarse rápidamente en documentos específicos que coinciden estrechamente con los fragmentos. previsto. Crédito: Laboratorios Nacionales Sandia
También en la fase inicial, se pidió a los mismos expertos que buscaran artículos relevantes para «Estabilidad del SARS-CoV-2 en gotas de aerosol y otras matrices» utilizando el sistema de búsqueda o el motor de su elección.
Los expertos del estudio capturaron lo que consideraron información relevante o interesante útil para responder a su pregunta sobre el COVID-19 y la pegaron en un documento de Microsoft Word. El documento que contenía la información se convirtió en los fragmentos que se usaron para crear puntajes para los artículos en función de qué tan bien respondieron las preguntas de los expertos.
Los fragmentos identificados incluyeron COVID-19 y estabilidad del coronavirus, estudios de casos, matrices de prueba y otros temas. Los resultados se trazaron como puntos en un gráfico bidimensional que indica grupos de artículos relevantes e irrelevantes.
Un algoritmo de análisis en la técnica de compresión de datos Predicción por coincidencia parcial luego calificó todos los documentos COVID-19 por fragmentos. Se usaron puntajes para colorear los documentos en el gráfico bidimensional, proporcionando grupos de colores que muestran al experto dónde se puede encontrar la información relevante. Alrededor de 87 documentos agrupados se consideraron muy relevantes en el gráfico; más de 23,000 de los documentos se consideraron irrelevantes.
Los expertos en el estudio dicen que las herramientas categorizaron los resultados de manera efectiva y tienen potencial
Después de una sesión de 30 minutos, se les pidió a los expertos que explicaran su búsqueda términos, cómo decidieron qué artículos ver y qué contenido estaban buscando en cada artículo.
Los expertos exploraron interactivamente los grupos de colores contrastantes que se destacaron como documentos relacionados con COVID-19 por lotes. Podrían estudiar cualquiera de los documentos para determinar si se agruparon correctamente según su relevancia o cambiar a fragmentos nuevos.
Los mismos expertos que examinaron los resultados dijeron que los documentos se agruparon con precisión según su relevancia y ofrecieron sugerencias sobre perfeccionando aún más la interfaz al mostrar información sobre el título, los autores, el año, la revista y el resumen. Los expertos dijeron que vieron mucho potencial en esta herramienta.
«Incluso en la computadora portátil de mi oficina podemos clasificar millones de documentos y ponerlos a disposición del usuario», dijo Bauer. Reconoció que algunos algoritmos utilizados proporcionaron más diferenciación y agrupación visual, pero que ajustar los algoritmos mejorará el rendimiento.
«Tecnológicamente, es posible investigar y adaptarse rápidamente a las necesidades de los expertos mientras trabajan con un conjunto de datos ”, dijo Bauer. «La agilidad y la velocidad con la que se puede desarrollar la interfaz de usuario con el equipo adecuado en los sistemas informáticos de escritorio puede brindar la capacidad de responder a consultas específicas rápidamente y adaptarse a las necesidades cambiantes del usuario».
Explore más
La nueva herramienta de inteligencia artificial es un potencial ahorro de tiempo para los investigadores de COVID-19 Proporcionado por Sandia National Laboratories Cita: Encontrar agujas de COVID-19 en un pajar de coronavirus (2020, 14 de julio) recuperado el 31 de agosto de 2022 de https://medicalxpress.com/news/2020-07-covid-needles-coronavirus-haystack.html Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.