Biblia

Investigadores desarrollan método novedoso para identificar relaciones médicas complejas

Investigadores desarrollan método novedoso para identificar relaciones médicas complejas

Los investigadores de ORNL, VA y Harvard desarrollaron una matriz dispersa llena de información anónima sobre lo que se cree que es la cohorte más grande de datos de atención médica utilizados para este tipo de investigación en los EE. UU. La matriz puede probarse con diferentes métodos, como KESER, para obtener nuevos conocimientos sobre la salud humana. Crédito: Nathan Armistead/ORNL, Departamento de Energía de EE. UU.

Un equipo de investigadores del Departamento de Asuntos de Veteranos, el Laboratorio Nacional de Oak Ridge, la Escuela de Salud Pública TH Chan de Harvard, la Escuela de Medicina de Harvard y el Hospital Brigham and Women’s ha desarrollado un Técnica novedosa basada en aprendizaje automático para explorar e identificar relaciones entre conceptos médicos utilizando datos de registros de salud electrónicos en múltiples proveedores de atención médica.

El método, llamado Knowledge Extraction via Sparse Embedding Regression, o KESER, se publicó recientemente en npj Digital Medicine. El proceso integra datos de registros médicos electrónicos de dos grandes instituciones, VA y Partners Health Care, con sede en Boston, y proporciona una selección de características automatizada que conduce a algoritmos de identificación de fenotipos y descubrimiento de conocimientos.

«KESER proporciona una vista de alto nivel del relaciones entre el conocimiento clínico que no siempre podemos ver cuando atendemos a pacientes a nivel individual o grupal», dijo la Dra. Katherine Liao, investigadora principal de KESER en VA Boston y profesora asociada de medicina en la Escuela de Medicina de Harvard. «Esperamos traducir los métodos y resultados del estudio de las aplicaciones en la investigación clínica a los avances en la atención clínica».

El proyecto es parte del trabajo principal de fenómica dirigido por los Dres. Kelly Cho y Mike Gaziano de VA Boston y Harvard bajo el programa Million Veteran Program, o MVP, de VA, un «programa de investigación nacional para aprender cómo los genes, el estilo de vida y las exposiciones militares afectan la salud y la enfermedad», según la Oficina de Investigación y Desarrollo de VA. Sitio web de MVP.

En 2016, ORNL comenzó a colaborar con VA en MVP-CHAMPION, una iniciativa de big data en el marco del programa MVP, para crear una gran plataforma de medicina de precisión para albergar el vasto historial médico de VA conjunto de datos, que consta de registros de unos 24 millones de veteranos. En un esfuerzo por fortalecer la innovación transversal en apoyo de numerosos proyectos de investigación bajo este programa conjunto VA-DOE, ORNL trabajó en estrecha colaboración con MVP Data Core de VA Boston y Harvard para identificar áreas de investigación específicas a seguir. Entre ellos se encontraba un esfuerzo por responder a la pregunta: ¿Qué elementos necesitamos encontrar dentro de los registros de salud electrónicos para identificar correctamente un fenotipo determinado?

Trabajar con lo que creen que es la cohorte más grande de datos de atención médica utilizados para este tipo de investigación en los EE. UU., el equipo se dispuso a automatizar la identificación de relaciones fenotípicas y, al mismo tiempo, brindar visibilidad a los supuestos subyacentes del aprendizaje automático y los procesos de decisión.

Para hacerlo, diseñaron y construyeron los cuatro paso Metodología KESER: conversión de datos a un formato estructurado, construcción de una representación vectorial de baja dimensión de cada código médico, selección de características para atribuir importancia y mapeo de relaciones atribuidas como una red.

Procesamiento de datos y aprendizaje de representación

ORNL desempeñó un papel clave en el tedioso pero esencial trabajo de procesamiento y estructuración de una variedad de datos médicos, procedimientos, diagnósticos y mediciones de pacientes, así como notas médicas, recetas i información y más de millones de pacientes en todo el VA y el cuidado de la salud de Partners.

«Hay una gran cantidad de procesamiento de datos no estructurados que se lleva a cabo antes de que termine con una pieza de información estructurada que se puede poner en métodos estadísticos ”, dijo Edmon Begoli, jefe de la sección de sistemas de IA de ORNL e investigador principal del proyecto MVP-CHAMPION. «El equipo pasó años trabajando con los datos para llevarlos a un estado en el que pudiéramos comenzar a usarlos para la investigación».

Con los datos procesados, el equipo construyó una matriz de co-ocurrencia, que consta de más de 100.000 tipos de eventos, o códigos de atención médica, básicamente una tabla de datos masiva, pero escasa, con una fila y una columna para cada código de atención médica posible. Cada co-ocurrencia en el tiempo entre dos eventos ayuda a crear una imagen más clara y detallada de un fenotipo dado.

Aprovechando la infraestructura de big data de ORNL y la experiencia en computación científica, esencial cuando se trabaja en esta escala de datos, el equipo trabajó para automatizar el preprocesamiento de datos y poner el proceso a disposición del público.

«Un investigador o la institución puede descargar el código, almacenar sus datos en el formato correcto y nuestro proceso realizará todos los pasos necesarios para integrar sus datos con los de todos los demás», dijo Everett Rush, científico investigador de ORNL e ingeniero de datos líder en el proyecto.

El equipo de investigación se ha esforzado mucho en proteger la privacidad de los pacientes durante todo el proyecto. El equipo procesó todos los datos de VA dentro de la infraestructura segura de datos de salud protegidos de ORNL. Después de convertirlo en un nivel de resumen anónimo, lo compartieron con Harvard y otros colaboradores. La matriz KESER resultante no conserva vínculos con pacientes individuales.

«No hay forma de rastrear desde los resultados finales hasta un paciente individual porque estos son agregados», dijo Dallas Sacca, ingeniero senior de soluciones de ORNL. Sacca administra el enclave de datos de salud protegidos en ORNL y revisa cada dato para garantizar que cumpla con las pautas de HIPAA para la desidentificación antes de permitir que abandone el enclave.

Extracción de conocimiento

La matriz está llena de información anónima sobre esta inmensa cohorte de pacientes que se pueden probar con diferentes métodos, como KESER, para obtener nuevos conocimientos sobre la salud humana. Utilizando una serie de métodos estadísticos modernos, el equipo transformó datos resumidos en vectores, ajustó un modelo que codifica la relación de cada vector y extrajo las características más importantes y los pesos de características para cada fenotipo.

«Estos métodos estadísticos , que incluyen modelos gráficos gaussianos para el modelado disperso de estructuras de covarianza, son particularmente capaces de atribuir importancia que expone posibles relaciones causales, un concepto con el que la tecnología de IA clásica, como el aprendizaje profundo, tiende a tener problemas», dijo George Ostrouchov, director senior de ORNL científico investigador y estadístico líder en el proyecto MVP-CHAMPION.

Después de ejecutar el método KESER, el equipo seleccionó ocho fenotipos que incluyen depresión, artritis reumatoide y colitis ulcerosa para explorar. Usando las características seleccionadas por KESER, entrenaron modelos para identificar los fenotipos de interés.

Futura investigación

Las posibilidades habilitadas por la novedosa capacidad de KESER para anonimizar, integrar y analizar datos de múltiples las instituciones de atención parecen ilimitadas.

Tianxi Cai, profesor de Informática Biomédica en la Escuela de Medicina de Harvard e investigador principal de KESER, dijo: «Estamos entusiasmados de tener un enfoque altamente escalable que puede manejar matrices de un orden de magnitud más grande que lo que estamos trabajando ahora».

El equipo ya está incorporando más descriptores clínicos en los gráficos de conocimiento. Además, el equipo ha comenzado a explorar los gráficos de conocimiento para comprender mejor las enfermedades emergentes.

«En una situación como la del COVID, por ejemplo, donde todos necesitan compartir datos y debemos comenzar a investigar todas las cosas diferentes que están relacionados con esta enfermedad específica, potencialmente podría hacerlo con este sistema», dijo Chuan Hong, profesor asistente en la Universidad de Duke, quien dirigió la investigación sobre el proyecto KESER como instructor en Harvard el año pasado. «Básicamente es plug-and-play; usted va al almacén de datos, sigue el proceso de cuatro pasos e integra directamente sus resultados».

El potencial para futuras colaboraciones y descubrimientos puede ser el mayor éxito del proyecto. «Esta innovación facilitará las colaboraciones multicéntricas», escribió el equipo en Nature, «y acercará el campo a la promesa de crear redes distribuidas para el aprendizaje entre instituciones mientras se mantiene la privacidad del paciente».

Explore más

La nueva herramienta de IA ORNL revoluciona el proceso para emparejar pacientes con cáncer con ensayos clínicos Más información: Chuan Hong et al, Clinical Knowledge Extraction via Sparse Embedding Regression (KESER) con centro de datos de registros de salud electrónicos a gran escala, npj Digital Medicine (2021). DOI: 10.1038/s41746-021-00519-z Información de la revista: Nature

Proporcionado por el Laboratorio Nacional de Oak Ridge Cita: Los investigadores desarrollan un método novedoso para identificar relaciones médicas complejas (2022, 28 de abril) recuperado el 29 de agosto de 2022 de https://medicalxpress.com/news/2022-04-method-complex-medical-relationships.html Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.