La nueva plataforma basada en la nube abre los datos genómicos a todos
Crédito: CC0 Public Domain
Aprovechar el poder de la genómica para encontrar factores de riesgo de enfermedades importantes o buscar parientes depende de la capacidad costosa y lenta de analizar grandes cantidades de genomas. Un equipo codirigido por un científico informático de la Universidad Johns Hopkins ha nivelado el campo de juego al crear una plataforma basada en la nube que otorga a los investigadores de genómica un fácil acceso a una de las bases de datos de genómica más grandes del mundo.
Conocida como AnVIL (espacio de laboratorio de informática, visualización y análisis de ciencia de datos genómicos), la nueva plataforma brinda a cualquier investigador con conexión a Internet acceso a miles de herramientas de análisis, registros de pacientes y más de 300 000 genomas. El trabajo, un proyecto del Instituto Nacional del Genoma Humano (NHGRI), aparece hoy en Cell Genomics.
«AnVIL está invirtiendo el modelo de intercambio de datos genómicos, ofreciendo nuevas oportunidades sin precedentes para la ciencia al conectar investigadores y conjuntos de datos en nuevas formas y prometedor para permitir nuevos y emocionantes descubrimientos», dijo el codirector del proyecto Michael Schatz, Profesor Distinguido de Ciencias de la Computación y Biología de Bloomberg en Johns Hopkins.
Por lo general, el análisis genómico comienza cuando los investigadores descargan cantidades masivas de datos desde almacenes centralizados hasta sus propios centros de datos, un proceso que no solo consume mucho tiempo, es ineficiente y costoso, sino que también dificulta la colaboración con investigadores de otras instituciones.
«AnVIL será transformador para las instituciones de todos los tamaños, especialmente las instituciones más pequeñas que no tienen los recursos para construir sus propios centros de datos. Esperamos que AnVIL nivele el campo de juego, para que todos tengan el mismo acceso para hacer dis coberturas», dijo Schatz.
Los factores de riesgo genéticos para enfermedades como el cáncer o las enfermedades cardiovasculares a menudo son muy sutiles, lo que requiere que los investigadores analicen miles de genomas de pacientes para descubrir nuevas asociaciones. Los datos sin procesar para un solo genoma humano comprenden alrededor de 40 GB, por lo que la descarga de miles de genomas puede llevar de varios días a varias semanas: un solo genoma requiere aproximadamente 10 DVD de datos, por lo que transferir miles significa mover «decenas de miles de DVD». datos», dijo Schatz.
Además, muchos estudios requieren la integración de datos recopilados en varias instituciones, lo que significa que cada institución debe descargar su propia copia y garantizar que se mantenga la seguridad de los datos de los pacientes. Se espera que este desafío sea aún mayor en el futuro, ya que los investigadores se embarcan en estudios cada vez más grandes que requieren el análisis de cientos de miles a millones de genomas a la vez.
«Conectarse a AnVIL de forma remota elimina la necesidad de estas descargas masivas y ahorra gastos generales», dice Schatz. «En lugar de transferir datos dolorosamente a los investigadores, permitimos que los investigadores se trasladen sin esfuerzo a los datos en la nube. También hace que compartir conjuntos de datos sea mucho más fácil para que los datos se puedan conectar de nuevas maneras para encontrar nuevas asociaciones, y simplifica mucho la informática. problemas, como proporcionar cifrado sólido y privacidad para conjuntos de datos de pacientes».
AnVIL también proporciona a los investigadores varias herramientas de análisis importantes, incluido Galaxy, desarrollado en parte en Johns Hopkins, junto con otras herramientas populares como R/Bioconductor , portátiles Jupyter, WDL, Gen3 y Dockstore para admitir análisis interactivos y computación por lotes a gran escala. En conjunto, estas herramientas permiten a los investigadores abordar incluso los estudios más grandes sin tener que crear sus propios entornos informáticos.
Investigadores de todo el mundo utilizan actualmente la plataforma para estudiar una variedad de enfermedades genéticas, incluido el espectro autista. enfermedades cardiovasculares y epilepsia. El equipo de Schatz, parte del Consorcio Telomere-to-Telomere, lo usó para volver a analizar miles de genomas humanos con el nuevo genoma de referencia para descubrir más de 1 millón de nuevas variantes.
El equipo de AnVIL ya ha recolectado petabytes de datos de varios de los proyectos más grandes del NHGRI, incluidos cientos de miles de genomas de los proyectos Genotype-Tissue Expression (GTEx), Centers for Mendelian Genetics (CMG) y Centers for Common Disease Genomics (CCDG), con planes para albergar muchos más proyectos en un futuro próximo.
El equipo de AnVIL incluye investigadores de la Universidad Johns Hopkins, el Instituto Broad del MIT y Harvard, la Universidad de Harvard, la Universidad de Vanderbilt, la Universidad de Chicago, la Universidad de Ciencias y Salud de Oregón, Yale Escuela Universitaria de Medicina, la Universidad de California, Santa Cruz, Roswell Park Comprehensive Cancer Institute, la Universidad Estatal de Pensilvania, la Universidad de la Ciudad de Nueva York, el Instituto Carnegie y la Universidad de Washington en St. Luis
Explore más
Conectando los puntos para datos de salud Más información: Michael C. Schatz, Invirtiendo el modelo de intercambio de datos genómicos con el Laboratorio de análisis, visualización e informática de ciencia de datos genómicos del NHGRI -space (AnVIL), Cell Genomics (2022). DOI: 10.1016/j.xgen.2021.100085. www.cell.com/cell-genomics/ful … 2666-979X(21)00106-3 Proporcionado por la Universidad Johns Hopkins Cita: Nueva plataforma basada en la nube abre datos genómicos para todos (2022, 12 de enero) recuperado el 29 de agosto de 2022 de https://medicalxpress. com/news/2022-01-cloud-based-platform-genomics.html Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.