Biblia

Equipos de investigación obtienen diferentes resultados a partir de los mismos datos de escáner cerebral

Equipos de investigación obtienen diferentes resultados a partir de los mismos datos de escáner cerebral

ARRIBA: ISTOCK.COM, FRANKRAMSPOTT

En una prueba de reproducibilidad científica, se pidió a varios equipos de expertos en neuroimagen de todo el mundo que analizar e interpretar de forma independiente el mismo conjunto de datos de resonancia magnética funcional. Los resultados de la prueba, publicados en Nature hoy (20 de mayo), muestran que cada equipo realizó el análisis de una manera sutilmente diferente y que sus conclusiones variaron como resultado. Si bien destaca la causa de la irreproducibilidad de las decisiones metodológicas humanas, el documento también revela formas de salvaguardar futuros estudios contra ella.

Este es un estudio histórico que demuestra claramente lo que muchos científicos sospechaban: las conclusiones alcanzadas en los análisis de neuroimagen son altamente susceptibles a las decisiones que toman los investigadores sobre cómo analizar los datos, escribe John Ioannidis, epidemiólogo de la Universidad de Stanford, en un correo electrónico a The Scientist. Ioannidis, un destacado defensor de mejorar el rigor científico y la reproducibilidad, no participó en el estudio (su propio trabajo ha sido acusado recientemente de metodología deficiente en un estudio sobre la seroprevalencia de anticuerpos contra el SARS-CoV-2 en el condado de Santa Clara, California).

Los problemas de reproducibilidad plagan todas las áreas de la ciencia, y se han destacado especialmente en los campos de la psicología y el cáncer a través de proyectos dirigidos en parte por el Center for Open Science. Ahora, las neuroimágenes se han convertido en el centro de atención gracias a un proyecto colaborativo de expertos en neuroimágenes de todo el mundo llamado Neuroimaging Analysis Analysis Replication and Prediction Study (NARPS).

Vea las posibles causas de irreproducibilidad reveladas

La neuroimagen, específicamente la imagen por resonancia magnética funcional (IRMf), que produce imágenes de patrones de flujo sanguíneo en el cerebro que se cree que se relacionan con la actividad neuronal, ha sido criticada en el pasado por problemas tales como un diseño de estudio y métodos estadísticos deficientes, y por especificar se conocen las hipótesis después de los resultados (SHARKing), dice el neurólogo Alain Dagher de la Universidad McGill, que no participó en el estudio. Una crítica particularmente memorable de la técnica fue un artículo que demostraba que, sin las correcciones estadísticas necesarias, podía identificar la actividad cerebral aparente en un pez muerto.

Quizás debido a tales críticas, hoy en día la resonancia magnética funcional es un campo conocido tener mucha cautela con las estadísticas y . . . sobre los tamaños de muestra, dice el neurocientífico Tom Schonberg de la Universidad de Tel Aviv, autor del artículo y co-coordinador de NARPS. Además, a diferencia de muchas áreas de la biología, agrega, el análisis de imágenes es computacional, no manual, por lo que se puede esperar que se introduzcan menos sesgos.

Por lo tanto, Schonberg se sorprendió un poco al ver los resultados de NARPS, Admito que no fue fácil ver esta variabilidad, pero era lo que era.

El estudio, dirigido por Schonberg junto con el psicólogo Russell Poldrack de la Universidad de Stanford y el estadístico de neuroimagen Thomas Nichols de la Universidad de Oxford, reclutó equipos de investigadores de todo el mundo para analizar e interpretar los mismos escaneos cerebrales de datos de neuroimagen sin procesar de 108 adultos sanos tomados mientras los sujetos estaban en reposo y mientras realizaban una tarea simple de toma de decisiones sobre si apostar una suma de dinero.

Los investigadores reclutaron a los equipos a través de las redes sociales y anuncios en conferencias, dice Schonberg, y agrega que la respuesta fue asombrosa. Cuando tuvimos 70 equipos, pensamos, guau, esta es una comunidad fuerte que quiere saber qué está pasando y cómo podemos mejorar.

Hay demasiadas decisiones que deben tomarse sobre cómo analizar estos datos.

John Ioannidis, Universidad de Stanford

Los investigadores independientes tuvieron acceso no solo a los datos de imágenes sin procesar, sino también a los detalles completos del diseño experimental y los protocolos. Se les pidió que probaran nueve hipótesis específicas, cada una con respecto a si las ganancias o pérdidas de actividad en una región cerebral particular se correlacionaban con una determinada decisión.

Cada uno de los 70 equipos de investigación que participaron usó uno de los tres paquetes de software de análisis de imágenes diferentes . Pero las variaciones en los resultados finales no dependieron de estas opciones de software, dice Nichols. En cambio, se redujeron a numerosos pasos en el análisis que requieren una decisión humana, como por ejemplo, cómo corregir el movimiento de las cabezas de los sujetos, cómo se mejoran las relaciones señal-ruido, cuánto suavizado de imagen aplicar, es decir, qué tan estrictamente las regiones anatómicas del cerebro están definidas y qué enfoques estadísticos y umbrales usar.

Hay demasiadas decisiones que deben tomarse sobre cómo analizar estos datos y no es sorprendente que todos estos 70 equipos hicieran algo diferente y a menudo llegaron a conclusiones muy diferentes, escribe Ioannidis.

El estudio es realmente importante, dice Roeland Hancock, investigador de neurolingüística de la Universidad de Connecticut que dirigió uno de los 70 equipos que analizaron los datos. Habla de los problemas de reproducibilidad y de dónde proviene esa variabilidad: los grados de libertad no intencionales que tenemos en nuestro análisis.

Algunos resultados fueron en gran medida consistentes. Por ejemplo, el 84 por ciento de los equipos estuvo de acuerdo en que los datos que respaldan la predicción de la hipótesis 5a que relacionaba la pérdida de actividad en la corteza prefrontal ventromedial con la pérdida de dinero eran significativos. Y más del 90 por ciento de los equipos encontraron que otras tres hipótesis eran insignificantes. Pero para las cinco hipótesis restantes, las conclusiones de los equipos variaron. la Universidad de Virginia y director ejecutivo del Center for Open Science. Para minimizar la irreproducibilidad, dice, los detalles de las decisiones de análisis y los datos subyacentes deben estar disponibles de forma transparente para evaluar la credibilidad de las afirmaciones de la investigación. Los investigadores también deberían registrar previamente sus planes e hipótesis de investigación, agrega, lo que podría evitar el SHARKing. La preinscripción se puede hacer aquí o aquí. Y deben analizar sus datos con múltiples métodos, como usar diferentes software y configuraciones. Tal enfoque multiverso ayudaría a identificar resultados significativos sólidos de aquellos en los que la importancia dependía de cómo se realizó el análisis. Schönberg. La necesidad de tomar tales medidas para aumentar la confiabilidad de los resultados se aplica a todos los campos de la ciencia. . . . Cada vez que tenga humanos y una tubería compleja, un conjunto de decisiones con bifurcaciones, esto es con lo que terminará.

R. Botvinik-Nezer et al., Variability in the analysis of a single neuroimaging dataset by many teams, Nature, https://doi.org/10.1038/s41586-020-2314-9, 2020.