El modelado computacional ofrece nuevas vistas de COVID y un vistazo al futuro de la investigación
Modelo multiescala SARS-CoV-2 que presenta 305 millones de átomos (izquierda), lo que lo convierte en uno de los sistemas biológicos más grandes jamás simulados con tanta precisión. Crédito: The International Journal of High Performance Computing Applications (2021). DOI: 10.1177/10943420211006452
Cuando comenzó el esfuerzo por combatir el virus SARS-CoV-2, entre las preguntas más apremiantes estaba cómo medir su infectividad y obtener una mejor imagen de esas dinámicas de adentro hacia afuera. Responderlas inicialmente reuniría a casi 30 investigadores, que representan a una docena de instituciones y casi tantas disciplinas, incluidos científicos de Computational Science Initiative (CSI) en el Laboratorio Nacional Brookhaven del Departamento de Energía de EE. UU. (DOE).
Matteo Turilli y Shantenu Jha, del departamento de Computación y Descubrimiento basado en datos (C3D) de CSI, proporcionarían nuevas mejoras computacionales que incorporaron métodos basados en inteligencia artificial (IA) como parte de un flujo de trabajo integrado que se usa para generar vistas simuladas del SARS. CoV-2 que de otro modo nunca podría lograrse únicamente mediante experimentos. Su trabajo con el colectivo multidisciplinario ha generado premios, elogios y, lo que es más importante, progreso tanto en la mitigación del daño causado por una partícula de aproximadamente 0,1 micras como en el cambio de la forma en que los científicos abordan el descubrimiento.
Año 1: en una misión
Si bien es pequeño en estatura, el SARS-CoV-2 definitivamente ha tenido un gran impacto. Esto se extendió a su simulación. En 2020, el grupo, que incluía a Turilli y Jha, buscaba generar simulaciones que permitieran una comprensión más compleja de la estructura y la dinámica del virus para ver cómo se mueve, responde e infecta a un huésped. El trabajo se centró en modelar la proteína espiga, su principal mecanismo de infección, utilizando simulaciones de dinámica molecular (MD) de todos los átomos que pueden mostrar sistemas biológicos a nivel atómico y conjuntos de datos experimentales disponibles (pero diversos).
Debido a que el equipo, una combinación de científicos informáticos, biólogos, físicos, químicos y matemáticos, estaba trabajando con diferentes modelos y grandes conjuntos de datos sin conectividad natural, incluso un poderoso sistema de computación de alto rendimiento (HPC, por sus siglas en inglés) eventualmente llegaría al tope y comenzaría a experimentar varios grados de el procesamiento se retrasó mucho antes de que se lograra una resolución útil.
«Nuestra pregunta era comprender y explicar cómo construir estos modelos multiescala que carecían de prescripciones para el acoplamiento», explicó Jha, quien dirige C3D en Brookhaven Lab CSI y es profesor de ingeniería informática en la Universidad de Rutgers. «Cada método se complementó con aprendizaje automático avanzado y ayudamos a construir los sistemas de software para ejecutarlos a escala».
Otro problema de las simulaciones multiescala es que tienden a especificarse, por ejemplo, solo para Modelos MD, cuánticos o de grano grueso. Una versión puede no comprender la física o proporcionar precisión en escalas de tiempo específicas. Así, Turilli y Jha tuvieron que crear el «pegamento computacional» para replicar y simular un entorno «real» de SARS-CoV-2.
«El verdadero desafío lo plantearon las diferentes tareas desde el punto de vista computacional de vista», dijo Turilli, científico del grupo C3D de CSI. «Para algunas tareas, el problema era la escala. Para otras, era la heterogeneidad de usar diferentes máquinas. Simplemente coordinar todas estas cosas planteó un gran desafío, uno que va más allá de la investigación de COVID-19. Avanzar en estas canalizaciones, estos ecosistemas de flujo de trabajo, es un tipo de aplicación con múltiples impactos en múltiples dominios».
Con ese fin, se centraron en mejorar el software que integraría, trasladaría y escalaría los modelos y datos dispares para proporcionar el flujo de trabajo sofisticado necesario para simular la dinámica de la proteína de punta del SARS-CoV-2 de una manera útil y oportuna. Su esfuerzo implicó aumentar el software desarrollado en Brookhaven Lab, incluido DeepDriveMD, un marco que coordina la ejecución paralela de simulaciones de conjuntos y las impulsa con modelos de IA. Según Jha, DeepDriveMD se basa en simulaciones de HPC tradicionales mejoradas con aprendizaje automático. Para este esfuerzo, DeepDriveMD participó en simulaciones de plegamiento de proteínas, lo que proporcionó una eficiencia de muestreo de un orden de magnitud. Más directamente, aceleró las cosas.
El complicado esfuerzo valió la pena, ya que el equipo pudo completar una simulación del SARS-CoV-2 que contenía 305 millones de átomos, uno de los sistemas biológicos más grandes jamás simulados. . Sus simulaciones proporcionaron vistas precisas nunca antes disponibles del escudo de glicano completo de la proteína de pico, revelando cómo los glicanos (polímeros a base de carbohidratos que desempeñan funciones biológicas clave) regulan su infectividad. Las simulaciones también mostraron interacciones entre el pico y el receptor ACE2, la enzima que proporciona la puerta de entrada para el SARS-CoV-2 en el cuerpo humano.
Si bien los conocimientos de esta simulación sustancial del SARS-CoV-2 podrían ayudar a agregar eficiencia para el descubrimiento de fármacos y la investigación terapéutica, el flujo de trabajo impulsado por IA en sí mismo fue un paso adelante en informar cómo acoplar cálculos a gran escala obtenidos utilizando computación clásica y menos costosa en una institución con otros completados a través de métodos cuánticos más exigentes computacionalmente en otra. También planteó desafíos novedosos para los sistemas informáticos más potentes del país. Incluso utilizando métodos de IA para integrar los modelos y los datos y luego impulsar el conocimiento adquirido de una escala a otra, el equipo no podría haber realizado tales simulaciones sin las capacidades informáticas proporcionadas por Summit, un sistema construido por IBM en el Laboratorio Nacional Oak Ridge del DOE (ORNL ) y actualmente la segunda supercomputadora más poderosa del mundo.
«Si bien la mayor parte del trabajo estaba en Summit, había una variedad de máquinas, desde grupos universitarios hasta la NSF [National Science Foundation]’s Frontera en TACC [Texas Advanced Computing Center], que se utilizaron en el camino para los distintos modelos». añadió Jha. «Solo las grandes máquinas del DOE podrían admitir el grado completo de acoplamiento del aprendizaje automático y las simulaciones de HPC».
Notablemente, el equipo recopiló los detalles de su trabajo en Summit, incluida la forma en que el código MD optimizado y escalado exhibió una sólida escalando en todas las GPU del sistema (27 648 NVIDIA Volta V100), lo que se convirtió en una razón integral por la que recibieron el primer premio especial Gordon Bell COVID-19 en SC20.
Esta imagen del delta SARS-CoV-2 La proteína espiga es un resultado directo del enfoque de investigación multiescala y de múltiples sustitutos utilizado para modelar la dinámica del virus. Requirió acoplar computación clásica y cuántica mejorada y conectada por inteligencia artificial, que fue posible gracias a las mejoras computacionales realizadas en Brookhaven Lab. Crédito: #COVIDisAirborne.
Año 2: una nueva variante
Para 2021, la colaboración galardonada se comprometió en un nuevo frente, buscando una mirada aún más cercana a la estructura transmisiva aumentada de todo el delta SARS-CoV-2 variante, es decir, que ofrece vistas a nivel atómico de su construcción y dinámica una vez que el virus está dentro de las partículas de aerosol respiratorio.
«¿Recuerdas en los primeros días de la pandemia, estabas trayendo comestibles y desinfectándolos?» dijo Jha. «No sabíamos lo suficiente sobre su [vida] superficial. Ahora sí lo sabemos. También sabemos que el COVID se transmite por el aire y le permite volverse más potente. Por lo tanto, duplicamos las mascarillas y el distanciamiento social».
Al igual que con sus simulaciones anteriores, el equipo buscaba responder las preguntas de los primeros principios y validar los datos experimentales. Sus simulaciones de aerosol utilizarían enfoques basados en la física para investigar áreas que no se podrían lograr mediante experimentos y aumentarían la comprensión de la transmisión viral en el aire.
A diferencia de sus esfuerzos iniciales en 2020, se demostró que las partes computacionales funcionan juntas correctamente más complicado. Una vez más, emplearon IA acoplada a HPC en varios niveles, incluido el software WESTPA (kit de herramientas de simulación de conjunto ponderado con paralelización y análisis) acoplado a DeepDriveMD, que se ejecutó en Summit y proporcionó una mejora de 100 veces en la exploración del espacio de fase. Además, el equipo empleó la computación en la nube, que resultó útil para reducir tanto el tiempo de solución como los costos computacionales.
Como registró el equipo en su artículo sobre el trabajo, su éxito en la construcción de un marco multiescala basado en IA para permitir la simulación de la dinámica de partículas de aerosol se moderó en el sentido de que también expuso «debilidades en el ecosistema HPC», lo que planteará desafíos para desarrollar y utilizar tales tecnologías a largo plazo. Aún así, el trabajo del equipo fue reconocido por su innovación al ser nombrado finalista del Premio especial Gordon Bell COVID-19 en 2021.
Aún no ha terminado
Mientras COVID-19 continúa proyecta una larga sombra sobre el mundo, uno de los puntos brillantes es cómo la comunidad científica se unió rápidamente, acumulando técnicas y herramientas que inmediatamente se pusieron a trabajar y, a menudo, se compartieron abiertamente para mejorar el descubrimiento científico.
DeepDriveMD es un ejemplo de software que se puede adaptar para resolver problemas similares a los planteados por COVID-19, especialmente a medida que se actualizan sus necesidades de funcionamiento y rendimiento. Jha señaló que tanto ORNL como la Universidad de Indiana están investigando la aplicabilidad de DeepDriveMD a la investigación de materiales.
«Poner el software en uso lo hace mejor», dijo. «La implementación es mejorarlo junto con el aprendizaje automático y la simulación en general».
Turilli elogió el «esfuerzo heroico» que se necesitó para reunir a todos los dominios científicos e investigadores dispares para enfrentar estas causas desafiantes, y señaló que este estilo de investigación debe ser apoyado por defecto.
«Deberíamos hacer que estos esfuerzos sean consistentes, grandes y rutinarios como una herramienta de investigación diaria para beneficiar a la sociedad», dijo.
Jha solo pudo estar de acuerdo : «El próximo paradigma de la informática está aquí. COVID es solo un problema en el que trabajar, pero ¿puede construir la infraestructura para un análisis amplio? ¿Le permitirá hacer algo o avanzar métodos a nuevas escalas? El esfuerzo #COVIDisAirborne ofreció un anticipo de la nueva investigación en ciencias computacionales. No está investigando si no lo está haciendo colectivamente.
«Necesita equipos multidisciplinarios para abordar estos problemas y escalas y proporcionar resultados rápidos y procesables «, concluyó. «La ciencia de un solo genio es Detrás de nosotros. Necesitamos numerosas personas involucradas para abordar estos problemas que son demasiado grandes para abordarlos solos».
Explore más
El esfuerzo colaborativo de IA para desentrañar los misterios del SARS-CoV-2 gana el Premio Especial Gordon Bell Más información: Lorenzo Casalino et al, Las simulaciones multiescala impulsadas por IA iluminan los mecanismos de la dinámica de picos del SARS-CoV-2, The International Journal of High Performance Computing Applications (2021).DOI: 10.1177/10943420211006452
Abigail Dommer et al. al, #COVIDisAirborne: Microscopía computacional multiescala habilitada por IA de Delta SARS-CoV-2 en un aerosol respiratorio, (2021).DOI: 10.1101/2021.11.12.468428