Biblia

Aprendizaje automático “Muy fácil de abusar”

Aprendizaje automático “Muy fácil de abusar”

En la reunión anual de la Sociedad Estadounidense de Microbiología el fin de semana pasado, el microbiólogo Nick Loman de la Universidad de Birmingham habló sobre la promesa y los peligros de la inteligencia artificial en biología. Aunque los genetistas microbianos como Loman están comenzando a aprovechar el poder computacional del aprendizaje automático para analizar sus datos, Loman advierte que muchos científicos se han lanzado al uso de la IA antes de comprender realmente sus beneficios y limitaciones.

El científico se sentó con Loman en San Francisco para conversar más.

cortesía de nick loman

El científico: ¿Hay áreas en biología ¿Dónde ha habido mucho entusiasmo por estos enfoques? ¿Y cuáles son algunas de las razones de eso?

Nick Loman: Definitivamente, en este tipo de espacio -ómico, la gente se entusiasma con el aprendizaje automático simplemente porque se trata de conjuntos de datos con millones , miles de millones, incluso billones de puntos de datos y no había una forma alternativa de analizarlos…

Uno de los grandes impulsores de esto son las aplicaciones traslacionales clínicas. Si puede obtener su modelo lo suficientemente confiable, lo suficientemente bueno, entonces tiene la oportunidad potencial de usar esas técnicas en un entorno clínico y usarlo para informar los tratamientos.

TS: Pero el aprendizaje automático no está exento de peligros potenciales, ¿verdad?

NL: En mi charla, hice esto Señale que existen estos métodos increíblemente poderosos que en realidad son bastante accesibles en parte porque han sido muy efectivos en el campo del reconocimiento facial, el análisis de imágenes y el reconocimiento de voz. Y ahora existen estas bibliotecas de códigos muy fáciles de usar que significan que cualquiera puede construir uno de estos modelos bastante complejos. Pero la otra respuesta a la pregunta es un poco como cuáles son los desafíos de usar, ya sabes, estadísticas. Estos son métodos poderosos, pero son muy fáciles de abusar. Tomarán su conjunto de datos y generarán un modelo, pero no necesariamente le dirán que ha hecho algo incorrecto. Entonces, son los mismos problemas que tenemos con las estadísticas, pero es una herramienta mucho más grande para disparar, si lo desea. Puede construir estos modelos a partir de cualquier cosa. Es simplemente la clásica situación de basura que entra, basura que sale.

TS: Una de las cosas que mencionaste en su charla fue el uso del aprendizaje automático en situaciones de brotes y con la vigilancia de la resistencia a los antimicrobianos. ¿Cuáles son las razones por las que estas técnicas son tan prometedoras y potencialmente tan arriesgadas, a falta de una palabra mejor?

NL: Creo que la resistencia a los antimicrobianos es un buen ejemplo porque hay una serie de artículos ahora que están aplicando diferentes técnicas de aprendizaje automático a los datos de expresión génica, vinculándolos con fenotipos clínicos como resistencias, sensibilidad o incluso concentraciones inhibitorias mínimas [MIC] de antibióticos para hacer predicciones. Y eso parece funcionar bastante bien. Pero depende de todos esos fenotipos, cosas como cuál es el MIC, depende de qué laboratorio los esté midiendo. Entonces, un laboratorio puede obtener un resultado ligeramente diferente que otros. Eso es un problema en términos de tomar grandes conjuntos de datos, agregarlos y construir modelos porque es posible que en realidad no estés midiendo lo mismo.

En los brotes, usamos la secuenciación de nanoporos porque es una técnica que se puede implementar en el campo situaciones y situaciones de recursos limitados. Y el nanoporo genera este tipo de datos bastante interesante, que es una señal de corriente eléctrica que se vuelve a traducir en una secuencia de nucleótidos para que podamos averiguar qué estaban mirando los virus y la secuencia de los virus. La secuenciación de nanoporos realmente se ha beneficiado de las mejoras en las técnicas de aprendizaje automático, pasando de estos tipos de modelos de Markov ocultos a redes neuronales de varios tipos de complejidad. [Nota del editor: un modelo oculto de Markov desarrolla distribuciones de probabilidad a lo largo del tiempo, mientras que una red neuronal es un sistema computacional modelado a partir del cerebro humano.]

TS : ¿Qué cree que el campo de la microbiología en particular debe hacer o debe aprender para integrar de manera más efectiva el aprendizaje automático en sus experimentos y análisis?

NL: Es posible que ni siquiera eso. Se trata de comprender realmente cuándo usar estas técnicas es lo correcto. Entonces, ni siquiera es como, intentemos y hagamos que la comunidad use el aprendizaje automático, ¿verdad? Es casi para que digan, no usemos el aprendizaje automático a menos que sepamos que tenemos el tipo correcto de datos y las inferencias que podemos hacer a partir de estas técnicas darán el tipo correcto de información. Como con todas las técnicas y tecnologías, siempre hay una tendencia a tomarlas y ejecutarlas y luego tratar de averiguar si fue una buena idea. Y en retrospectiva, creo que al igual que todos los campos científicos cada vez más basados en datos, eso requiere una educación mucho más rigurosa para incluir computación e incluir estadísticas.

Va a ser importante para este próximo generación de microbiólogos y científicos del genoma para familiarizarse con estas técnicas, trabajar en lo que son buenas, descubrir para qué no son buenas y no permitirnos engañarnos a nosotros mismos acerca de ellas.

La la entrevista fue editada para ser breve.

¿Le interesa leer más?

The Scientist ARCHIVES

Conviértase en miembro de

Reciba acceso completo a más de 35 años de archivos, así como a TS Digest, ediciones digitales de El científico, artículos destacados ¡y mucho más!Únase gratis hoy ¿Ya es miembro?Inicie sesión aquí