Biblia

¿Se evalúan adecuadamente los dispositivos médicos de IA?

¿Se evalúan adecuadamente los dispositivos médicos de IA?

Crédito: CC0 Public Domain

En los últimos dos años, la inteligencia artificial se ha integrado en decenas de dispositivos médicos que ofrecen asesoramiento a los médicos de urgencias, cardiólogos, oncólogos e innumerables otros profesionales de la salud. proveedores de atención

La Administración de Alimentos y Medicamentos ha aprobado al menos 130 dispositivos médicos impulsados por IA, la mitad de ellos solo en el último año, y es seguro que las cifras aumentarán mucho más en los próximos años.

Varios dispositivos de IA tienen como objetivo detectar y alertar a los médicos sobre sospechas de coágulos de sangre en los pulmones. Algunos analizan mamogramas e imágenes de ultrasonido en busca de signos de cáncer de mama, mientras que otros examinan escáneres cerebrales en busca de signos de hemorragia. Los dispositivos de inteligencia artificial cardíaca ahora pueden señalar una amplia gama de problemas cardíacos ocultos.

Pero, ¿cuánto saben realmente los reguladores o los médicos sobre la precisión de estas herramientas?

Un nuevo estudio dirigido por Los investigadores de Stanford, algunos de los cuales están desarrollando dispositivos, sugieren que la evidencia no es tan completa como debería ser y puede pasar por alto algunos de los desafíos peculiares que plantea la inteligencia artificial.

Muchos dispositivos se probaron únicamente en datos históricos y potencialmente desactualizados de pacientes. Pocos se probaron en entornos clínicos reales, en los que los médicos comparaban sus propias evaluaciones con las recomendaciones generadas por IA. Y muchos dispositivos se probaron solo en uno o dos sitios, lo que puede limitar la diversidad racial y demográfica de los pacientes y crear sesgos no deseados.

«Sorprendentemente, muchos de los algoritmos de IA no se evaluaron a fondo. ,»‘ dice James Zou, coautor del estudio, profesor asistente de ciencia de datos biomédicos en la Universidad de Stanford, así como miembro de la facultad del Instituto Stanford para la Inteligencia Artificial Centrada en el Ser Humano (HAI).

En el estudio, recién publicado en Nature Medicine, los investigadores de Stanford analizaron la evidencia presentada para cada dispositivo médico de IA que la FDA aprobó desde 2015 hasta 2020.

Además de Zou, el estudio fue realizado por Eric Wu y Kevin Wu, Ph.D. candidatos en Stanford; Roxana Daneshjou, académica clínica en dermatología y becaria postdoctoral en ciencia de datos biomédicos; David Ouyang, cardiólogo del Hospital Cedars-Sinai de Los Ángeles; y Daniel E. Ho, profesor de derecho en Stanford y director asociado de Stanford HAI.

Desafíos de las pruebas, datos sesgados

En marcado contraste con los extensos ensayos clínicos necesarios para nuevos productos farmacéuticos, los investigadores encontraron que la mayoría de los dispositivos médicos basados en IA se probaron con datos «retrospectivos», lo que significa que sus predicciones y recomendaciones no se probaron sobre qué tan bien evaluaron a los pacientes vivos en situaciones reales, sino más bien sobre cómo podrían haber actuado. si se hubieran usado en casos históricos.

Un gran problema con ese enfoque, dice Zou, es que no captura cómo los proveedores de atención médica usan la información de IA en la práctica clínica real. Los algoritmos predictivos están destinados principalmente a ser una herramienta para ayudar a los médicos y no para sustituir su juicio. Pero su eficacia depende en gran medida de la forma en que los médicos realmente los usan.

Los investigadores también descubrieron que muchos de los nuevos dispositivos de IA se probaron solo en una o dos ubicaciones geográficas, lo que puede limitar severamente qué tan bien funcionan. trabajar en diferentes grupos demográficos.

«Es un desafío bien conocido para la inteligencia artificial que un algoritmo pueda funcionar bien para un grupo de población y no para otro», dice Zou.

Revelador Discrepancias significativas

Los investigadores ofrecieron evidencia concreta de ese riesgo al realizar un estudio de caso de un modelo de aprendizaje profundo que analiza las radiografías de tórax en busca de signos de colapso pulmonar.

El sistema fue entrenado y se probó con datos de pacientes del Stanford Health Center, pero Zou y sus colegas lo probaron con datos de pacientes de otros dos sitios: el Instituto Nacional de Salud en Bethesda, Maryland, y el Centro Médico Beth Israel Deaconess en Boston. Efectivamente, los algoritmos fueron casi un 10 por ciento menos precisos en los otros sitios. En Boston, además, descubrieron que su precisión era mayor para los pacientes blancos que para los pacientes negros.

Los sistemas de IA han sido notoriamente vulnerables a los sesgos raciales y de género incorporados, señala Zou. Se ha descubierto que los sistemas de reconocimiento facial y de voz, por ejemplo, son mucho más precisos para las personas blancas que para las personas de color. Esos sesgos en realidad pueden empeorar si no se identifican y corrigen.

Zou dice que la IA plantea otros desafíos novedosos que no surgen con los dispositivos médicos convencionales. Por un lado, los conjuntos de datos en los que se entrenan los algoritmos de IA pueden quedar obsoletos fácilmente. Las características de salud de los estadounidenses pueden ser bastante diferentes después de la pandemia de COVID-19, por ejemplo.

Quizás lo que es más sorprendente, los sistemas de IA a menudo evolucionan solos a medida que incorporan experiencia adicional en sus algoritmos.

«La mayor diferencia entre la IA y los dispositivos médicos tradicionales es que estos son algoritmos de aprendizaje y siguen aprendiendo», dice Zou. «También son propensos a los sesgos. Si no supervisamos rigurosamente estos dispositivos, los sesgos podrían empeorar. La población de pacientes también podría evolucionar».

«Estamos muy entusiasmados con la promesa general de la IA en la medicina», añade Zou. De hecho, su grupo de investigación está desarrollando sus propios algoritmos médicos de IA. «No queremos que las cosas se regulen en exceso. Al mismo tiempo, queremos asegurarnos de que haya una evaluación rigurosa, especialmente para las aplicaciones médicas de alto riesgo. Quiere asegurarse de que los medicamentos que está tomando estén minuciosamente examinados. Es lo mismo cosa aquí».

Explore más

El sesgo geográfico en las herramientas médicas de IA Más información: Eric Wu et al. Cómo se evalúan los dispositivos médicos de IA: limitaciones y recomendaciones de un análisis de las aprobaciones de la FDA, Nature Medicine (2021). DOI: 10.1038/s41591-021-01312-x Información de la revista: Nature Medicine

Proporcionado por la Universidad de Stanford Cita: ¿Se evalúan adecuadamente los dispositivos médicos de IA? (20 de abril de 2021) consultado el 30 de agosto de 2022 en https://medicalxpress.com/news/2021-04-medical-ai-devices-proply.html Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.