Info-métricas para modelado e inferencia con información pandémica compleja e incierta
Figura. La probabilidad de morir condicionada a las políticas de vacunación con BCG (izquierda). La probabilidad de morir condicionada a la Contaminación (derecha) muestra la tasa de mortalidad en el percentil 10 (puntos) frente a los del percentil 90 (continuo). El eje x es la edad de los pacientes. Crédito: Instituto Santa Fe
A medida que el mundo enfrenta la posibilidad de oleadas recurrentes de la actual pandemia del nuevo coronavirus, es fundamental identificar patrones y dinámicas que podrían aprovecharse para disminuir las tasas futuras de transmisión, infección y mortalidad. En esta etapa de la pandemia, los datos sobre los patrones y la dinámica de la enfermedad están surgiendo de casi todos los países del mundo. Las variaciones entre países con respecto a las tasas de infección por coronavirus, las políticas de salud pública, la estructura social, las normas, las condiciones de salud, la política ambiental, el clima y otros factores nos brindan los datos para investigar el impacto de diferentes factores subyacentes y políticas gubernamentales en COVID-19 tasas de transmisión, infección y mortalidad.
A pesar de que millones se han infectado y cientos de miles han muerto por COVID-19, la información disponible aún es insuficiente para llegar a inferencias y predicciones precisas. Esto se debe a que los datos disponibles sobre cada paciente son muy limitados, las variables de interés están altamente correlacionadas y existe una gran incertidumbre en torno al proceso subyacente. Además, aunque la tasa de mortalidad por COVID-19 es alta en relación con otras enfermedades infecciosas, desde un punto de vista inferencial, sigue siendo muy pequeña, ya que el número de muertes en relación con los que no fallecieron es extremadamente pequeño. Como resultado, las observaciones se encuentran en la cola de la distribución de probabilidad de supervivencia. En resumen, los datos disponibles para el análisis de COVID-19 son complejos, en constante evolución y mal comportamiento. Inferir y modelar con tales datos da como resultado un continuo de explicaciones y predicciones. Necesitamos utilizar un enfoque de modelado e inferencia que produzca la inferencia y la predicción menos sesgadas. Desafortunadamente, los enfoques tradicionales imponen suposiciones y estructuras sólidas, la mayoría de las cuales son incorrectas o no se pueden verificar, lo que lleva a inferencias y predicciones sesgadas, inestables y equivocadas. La teoría de la información ofrece una solución. Proporciona un marco de inferencia racional para tratar con problemas matemáticamente subdeterminados, permitiéndonos lograr las inferencias menos sesgadas.
Un enfoque teórico de la información, específicamente, la infométrica se sitúa en la intersección de la teoría de la información, la inferencia estadística, la decisión -realización bajo incertidumbre, y modelado. En este marco, toda la información entra como restricciones más incertidumbre añadida dentro de una configuración de optimización restringida, y la función de decisión es teórica de la información. Esa función de decisión se define simultáneamente como las entidades de interés, por ejemplo, las probabilidades de supervivencia de los pacientes y la incertidumbre que rodea a las limitaciones. Ese marco amplía el principio de máxima entropía de Jaynes, que utiliza la entropía de Shannon como función de decisión para problemas que están rodeados de mucha incertidumbre. Info-metrics tiene claros paralelismos con enfoques más tradicionales, donde la elección conjunta de la información utilizada (dentro de la configuración de optimización) y una función de decisión particular determinará una función de probabilidad. El papel global de la optimización restringida garantiza que el marco de infométricas sea adecuado para construir y validar nuevas teorías y modelos, utilizando todo tipo de información. También nos permite probar hipótesis sobre teorías en competencia o mecanismos causales. Para ciertos problemas, la máxima verosimilitud tradicional es un caso especial de info-métricas.
El enfoque de info-métricas es muy adecuado para manejar los datos complejos e inciertos de la pandemia de COVID-19 entre países, específicamente el tamaño de muestra relativamente pequeño de datos detallados, altas correlaciones en los datos y las observaciones en la cola de la distribución. Para este análisis, desarrollamos un modelo binario (recuperado/muerto) de elección discreta para inferir la asociación entre los factores subyacentes a nivel de país y la muerte. El modelo controla por edad, sexo y si el país tenía vacunación universal contra el sarampión y la hepatitis B. Este enfoque teórico de la información también nos permite complementar los datos existentes con antecedentes construidos a partir de la frecuencia de muerte (por edad y sexo) de las personas que fueron infectados con el Síndrome Respiratorio Agudo Severo (SARS).
Usando datos de veinte países publicados en el servidor público el 24 de abril de 2020, nuestro estudio encontró una serie de factores a nivel de país con un impacto significativo en la supervivencia tasa de COVID-19. Uno de ellos es la vacunación universal contra la tuberculosis (BCG) anterior o actual de un país. Otro es la tasa de mortalidad por contaminación del aire en el país. Algunos resultados cuantificados (por edad, eje x y sexo) se presentan en la siguiente figura. El panel izquierdo muestra la probabilidad de muerte predicha condicionada a una vacunación universal con BCG. Hay tres posibilidades de vacunación universal: países que nunca la tuvieron (por ejemplo, Estados Unidos), que la tienen actualmente (por ejemplo, Filipinas) o que la tuvieron en el pasado (por ejemplo, Australia). El enorme impacto en las tasas de supervivencia, a través de las edades, de una vacunación universal con BCG es claro. El panel de la derecha demuestra la probabilidad de morir condicionada a la muerte por contaminación del aire: el número de muertes atribuibles a los efectos conjuntos de la contaminación del aire doméstico y ambiental en un año por cada 100 000 habitantes. La línea continua refleja el percentil 90 de la contaminación. La línea punteada refleja el percentil 10 de la contaminación.
El mismo marco se puede usar para modelar todos los demás problemas relacionados con la pandemia, incluso con mucha incertidumbre y datos complejos en evolución. Los ejemplos incluyen procesos condicionales de Markov, sistemas dinámicos y sistemas que evolucionan simultáneamente. El marco de info-métricas nos permite construir teorías y modelos y realizar inferencias y predicciones consistentes con todo tipo de información e incertidumbre. Naturalmente, cada problema es diferente y exige su propia información y estructura, pero el marco de info-métricas nos proporciona los fundamentos lógicos generales y las herramientas para abordar todos los problemas inferenciales. También nos permite incorporar antecedentes y nos guía hacia una correcta especificación de las restricciones de la información que tenemos y usamos, lo cual es un problema no trivial.
Entonces, ¿debemos usar siempre infométricas? Para responder a esto, es necesario comparar las infométricas con otros métodos utilizados para el análisis de políticas y la inferencia causal. Todos los métodos inferenciales fuerzan elecciones, imponen estructuras y requieren suposiciones. Con datos pandémicos complejos y de mal comportamiento, se necesitan más suposiciones. Junto con los datos utilizados, estos supuestos impuestos determinan las soluciones inferidas. Los supuestos y estructuras incluyen la función de probabilidad, la función de decisión y otros supuestos paramétricos (o incluso no paramétricos) sobre la forma funcional o las restricciones utilizadas. La razón de esto es que, sin esta información adicional, todos los problemas están subdeterminados. Una forma lógica de comparar diferentes enfoques inferenciales (clásico y bayesiano), especialmente en relación con datos pandémicos complejos y de mal comportamiento, es dentro de una configuración de optimización restringida. De esa manera, la comparación es justa, ya que podemos dar cuenta de la información utilizada en cada enfoque.3 Pero una comparación tan detallada, que incluye otros enfoques como los modelos basados en agentes (ABM), merece su propio artículo y está fuera del alcance. de este ensayo. Aquí, señalo dos elecciones básicas que debemos hacer cuando usamos el enfoque de métricas de información. Primero, la elección de las restricciones; las restricciones se eligen en función de las condiciones de simetría o la teoría que conocemos (o hipotetizamos) sobre el problema. Capturan las reglas que gobiernan el sistema que estudiamos. Matemáticamente, deben satisfacerse dentro de la optimización. Estadísticamente, si se especifican correctamente, son estadísticas suficientes. En los enfoques más clásicos y bayesianos, las restricciones están directamente relacionadas con la forma funcional paramétrica utilizada (digamos, lineal, no lineal, etc.). Pero especificar las restricciones dentro de las infométricas, o las formas funcionales en otros enfoques, está lejos de ser trivial y afecta la solución inferida. Info-metrics nos proporciona una forma de falsificar las restricciones y nos indica la dirección de mejorarlas. Esa elección, junto con la función de decisión utilizada, determina la forma funcional exacta de la solución o la inferencia.
La segunda elección que hacemos en el marco de info-métricas es construir las restricciones como estocásticas. Esto es diferente al enfoque clásico de máxima entropía donde las restricciones deben cumplirse perfectamente. Esto también es diferente a los enfoques clásicos donde la probabilidad y las formas funcionales deben especificarse perfectamente. Pero no hay almuerzo gratis. Para lograr este marco más generalizado, que nos permite modelar e inferir una clase más grande de problemas, debemos asumir el costo de especificar los límites de la incertidumbre. Estos límites se derivan teórica o empíricamente. Pero, independientemente de esa derivación, implica que a lo que renunciamos es a la seguridad de que nuestra solución es la mejor; más bien, puede ser una solución secundaria, una solución que describa una teoría aproximada o la evolución de una teoría compleja derivada de una combinación de diferentes elementos y distribuciones subyacentes. El beneficio es que cada vez que tratamos con información insuficiente e incierta, nos permite dar cuenta de todo tipo de incertidumbres y manejar datos de mal comportamiento. Nos proporciona una manera de hacer inferencias incluso bajo mucha incertidumbre y datos de mal comportamiento. De todos los métodos posibles, es el que utiliza la menor cantidad de información y por lo tanto tiende a producir la inferencia menos sesgada.
Si es más conveniente o apropiado elegir una función de verosimilitud o determinar la estructura de las restricciones de las condiciones de simetría y otra información es una decisión que enfrenta cada investigador. Al abordar esta decisión, debemos tener en cuenta que las restricciones son solo una parte de la decisión. Sin embargo, la elección de qué método usar depende del problema que tratamos de resolver, la información que tenemos y la preferencia del investigador.
Explore más
Un estudio sugiere que más personas han tenido coronavirus de lo que se había estimado anteriormente Más información: ET Jaynes. Teoría de la Información y Mecánica Estadística, Revisión Física (2002). DOI: 10.1103/PhysRev.106.620
CE Shannon. Una teoría matemática de la comunicación, Bell System Technical Journal (2013). DOI: 10.1002/j.1538-7305.1948.tb01338.x
Golan, A. (2018). Fundamentos de Info-Metrics: Modelado, Inferencia e Información Imperfecta. Prensa de la Universidad de Oxford. info-metrics.org
Golan, A. et al (2020). «Efecto de la vacunación universal contra la TB y otros factores relevantes para las políticas sobre la probabilidad de muerte del paciente por COVID-19», documento de trabajo 2020-041, ideas.repec.org/p/hka/wpaper/2020-041.html