Los datos sintéticos imitan los datos de pacientes reales, modelan con precisión la pandemia de COVID-19
Crédito: Pixabay/CC0 Dominio público
Mientras atienden a pacientes con COVID-19, los profesionales de la salud de todo el país han acumulado un tesoro de información sobre el SARS. CoV-2, sus variantes en evolución como Delta y Omicron, y sus efectos en el cuerpo humano y la salud pública. Dichos datos, recopilados en los registros médicos electrónicos de los pacientes, son vitales para comprender el virus y desarrollar tratamientos. Pero los datos nacionales de los registros médicos han sido difíciles de obtener para los investigadores porque los procesos importantes que garantizan la privacidad del paciente también ralentizan el acceso a los datos.
Una iniciativa financiada por el Centro Nacional para el Avance de las Ciencias Traslacionales de los Institutos Nacionales de Salud (NIH) y codirigida por la Facultad de Medicina de la Universidad de Washington en St. Louis ha aprovechado las herramientas de big data y computación avanzada para proporcionar a los investigadores con cantidades masivas de datos sintéticos modelados a partir de datos de pacientes reales, lo cual es esencial para comprender el COVID-19 y al mismo tiempo garantizar la protección de la privacidad y confidencialidad del paciente.
Escuela de Medicina de la Universidad de Washington, también parte del Centro de Datos para la Salud y National COVID Cohort Collaborative (N3C), ha sido un líder nacional en la implementación y evaluación de tecnología para la producción de datos sintéticos, que es clave para las colaboraciones de intercambio de datos en todo el país.
La creación de Los datos son la especialidad de MDClone, una compañía de informática para el cuidado de la salud que ha trabajado con la Universidad de Washington y otros centros médicos académicos para ayudar a que los datos sintéticos sean más amplios. y accesible a los investigadores. Los datos sintéticos se generan artificialmente, basados en datos de pacientes reales, pero no se derivan directamente de registros individuales, lo que reduce sustancialmente el riesgo de que dichos datos se puedan utilizar para identificar a esas personas. En lugar de los métodos tradicionales para ocultar las identidades de los pacientes en conjuntos de datos, como eliminar nombres, fechas de nacimiento y otra información de identificación, la generación de datos sintéticos implica la producción de un nuevo conjunto de pacientes simulados que, en conjunto, recrean las características estadísticas de los pacientes reales. como medidas de presión arterial, índice de masa corporal y función renal. Las identidades y la privacidad de los pacientes reales están protegidas porque los pacientes simulados no tienen equivalentes directos en los datos reales.
La investigación publicada en dos estudios dirigidos por la Facultad de Medicina de la Universidad de Washington ha demostrado que analizar datos sintéticos generados a partir de datos reales Los pacientes con COVID-19 replican con precisión los resultados de los mismos análisis realizados en los datos de pacientes reales. Además, los datos sintéticos no solo reflejan con precisión las características de los pacientes a gran escala, sino que los conjuntos de datos sintéticos recrean con precisión la propagación y el impacto de la pandemia a lo largo del tiempo y en áreas geográficas densamente analizadas, lo que permite investigar la propagación y el impacto del virus a nivel de población. .
Un estudio se publica en el Journal of the American Medical Informatics Association. El segundo estudio está disponible en línea en el Journal of Medical Internet Research.
«Hemos demostrado que podemos elaborar predicciones sofisticadas de lo que sucederá en una población con una enfermedad como la COVID-19». dijo el coautor e investigador principal Philip Payne, profesor de Janet y Bernard Becker, científico jefe de datos y director del Instituto de Informática de la Universidad de Washington. «Es fundamental que protejamos los derechos de los pacientes a la privacidad y la confidencialidad al mismo tiempo que respondemos a la amenaza que representa el COVID-19 de manera oportuna. Ninguna institución puede abordar estas necesidades por sí sola. A través de las capacidades únicas que ofrece el uso de datos sintéticos , estamos acelerando nuestros esfuerzos para diagnosticar, tratar y, quizás lo más importante, prevenir esta enfermedad al mismo tiempo que demostramos cómo podemos responder de manera más efectiva a futuras emergencias de salud pública».
El uso de datos sintéticos reduce la regulación Barreras que generalmente impiden el intercambio generalizado y la integración de datos de pacientes en múltiples organizaciones. Poder compartir datos sintéticos de pacientes permite a los investigadores analizar grandes cantidades de datos de todo el país en lugar de limitarse a los datos de sus instituciones individuales. Investigadores de todo el mundo podrían solicitar acceso a los datos sintéticos de una institución para realizar sus propios estudios. Esta capacidad aumenta la escala y la eficiencia de dicha investigación al mismo tiempo que reduce los posibles sesgos en los resultados resultantes.
Hasta la fecha, el conjunto de datos sintéticos de N3C incluye datos de 72 instituciones de todo el país y contiene registros que representan a 13 millones de pacientes. De esos, alrededor de 5 millones de pacientes dieron positivo en la prueba de COVID-19. Con los conjuntos de datos sintéticos masivos generados a partir de este recurso, los investigadores pueden buscar patrones en los datos que no surgirían con tamaños de muestra más pequeños. Utilizando herramientas informáticas y de ciencia de datos de última generación, como el reconocimiento de patrones y técnicas de aprendizaje automático, los datos podrían identificar criterios que predicen qué pacientes corren el mayor riesgo de necesitar cuidados intensivos o ventiladores. También podría ayudar a identificar patrones en las estrategias de tratamiento para ver si los medicamentos que un paciente con COVID-19 ya está tomando para una afección diferente, por ejemplo, un anticoagulante para una enfermedad cardíaca, podrían ser protectores o dañinos en comparación con los pacientes que no toman ese medicamento.
El primer artículo demostró que los datos sintéticos reproducían con precisión la demografía y las características clínicas de los pacientes en el conjunto de datos inicial de N3C. Los datos sintéticos también podrían usarse para predecir con precisión el riesgo de ingreso o reingreso hospitalario para pacientes diagnosticados con COVID-19. Además, los datos sintéticos también reprodujeron con precisión las curvas epidémicas a nivel de población, como la cantidad de casos por día, la cantidad de hospitalizaciones y muertes por día y los promedios móviles de siete días de casos positivos durante períodos de tiempo específicos. El segundo artículo incluyó un análisis más profundo de las curvas epidémicas en subconjuntos de poblaciones que viven en códigos postales específicos. En este caso, también, el conjunto de datos sintéticos imitó con precisión la propagación de la pandemia en diferentes regiones geográficas, siempre que esas regiones se sometieran a pruebas densas de COVID-19. Los análisis en el segundo documento que utilizaron muestras o poblaciones pequeñas fueron menos capaces de reproducir resultados en el conjunto de datos real.
«Poder ver códigos postales específicos es extremadamente importante para analizar una pandemia, ya que los determinantes sociales de la salud varían según el lugar donde vive el paciente», dijo Adam Wilcox, profesor de medicina y autor principal de ambos estudios. «Sabemos que los determinantes sociales de la salud, como el acceso a la atención médica, la educación y la estabilidad económica, están relacionados con la transmisión y los resultados de la COVID-19. Este análisis muestra que podemos usar datos sintéticos para estudiar diferentes dinámicas de una pandemia, incluido cómo cambia la pandemia a lo largo de tiempo y a través del área geográfica. Estos documentos representan una investigación realmente exhaustiva de las capacidades de los datos sintéticos para el modelado de pandemias».
Según los investigadores, los datos sintéticos son los mejores para representar lo que está sucediendo en un amplio nivel de población pero no es tan bueno analizando valores atípicos. Los valores atípicos que involucran un pequeño número de pacientes con combinaciones de características raras o situaciones en las que una región geográfica contiene muy pocas personas, como en los códigos postales rurales, se excluyen intencionalmente de los conjuntos de datos sintéticos para proteger aún más la privacidad de las personas que pueden caer en esas categorías. Sin embargo, en general, es difícil que los análisis de datos sean representativos cuando se analizan números pequeños, por lo que este desafío no es exclusivo de los datos sintéticos.
«Seguimos probando los límites de lo que podemos hacer con datos sintéticos, por lo que entendemos los mejores usos de este tipo de datos y también las situaciones en las que necesitamos volver a los datos originales», dijo Randi Foraker, profesor de medicina y primer autor del segundo estudio y co -autor del primer estudio. «Hay situaciones en las que los datos sintéticos pueden no ser tan precisos como los datos originales, y necesitamos saber cuáles son para poder seleccionar los mejores métodos posibles para analizar un conjunto de datos en particular».
En una A gran escala, los investigadores dijeron que los datos permiten la predicción de futuros puntos críticos de COVID-19, por lo que esas áreas pueden prepararse y potencialmente evitar el peor de los casos. Los sistemas de datos sintéticos ahora implementados también ayudarán a los investigadores a responder más rápido a una futura pandemia. Payne lo compara con el pronóstico del tiempo.
«Estamos tratando de construir el equivalente de la trayectoria de un huracán para las pandemias, usando grandes cantidades de datos», dijo Payne. «Cuando el pronóstico del tiempo funciona, es porque tienen muchos datos previos de los que aprender y pueden aplicarlos a lo que están observando ahora. Luego crean una variedad de modelos diferentes que predicen escenarios futuros, en este caso, posibles trayectorias del huracán y las probabilidades de cada uno. Estamos creando herramientas para hacer exactamente lo mismo, pero para las pandemias de enfermedades infecciosas».
Explore más
Los datos sintéticos imitan los datos reales de atención médica sin preocupaciones sobre la privacidad del paciente Más información: Jason A Thomas et al, Demostración de un enfoque para evaluar la utilidad de datos epidemiológicos temporales y geoespaciales sintéticos : Resultados del análisis de más de 1,8 millones de pruebas de SARS-CoV-2 en la Colaboración nacional de cohortes de COVID de los Estados Unidos (N3C), Journal of the American Medical Informatics Association (2022). DOI: 10.1093/jamia/ocac045
Randi Foraker et al, The National COVID Cohort Collaborative: análisis de datos de registros de salud electrónicos originales y derivados computacionalmente, Journal of Medical Internet Research (2021). DOI: 10.2196/30697 Información de la revista: Revista de la Asociación Estadounidense de Informática Médica , Revista de Investigación Médica en Internet