Biblia

Perfeccionar la percepción del tono

Perfeccionar la percepción del tono

Fig. 1: descripción general del modelo de tono. un esquema de la estructura del modelo. Se entrenaron DNN para estimar la F0 de los sonidos del habla y la música incrustados en el ruido de fondo del mundo real. Las redes recibieron representaciones simuladas del nervio auditivo de estímulos acústicos como entrada. Los contornos verdes representan la extensión de los núcleos de filtro convolucional de ejemplo en tiempo y frecuencia (dimensiones horizontales y verticales, respectivamente). b Representación del nervio auditivo simulado de un tono armónico con una frecuencia fundamental (F0) de 200Hz. La forma de onda del sonido se muestra arriba y su espectro de potencia se muestra a la izquierda. La forma de onda es periódica en el tiempo, con un período de 5ms. El espectro es armónico (es decir, contiene múltiplos de la frecuencia fundamental). Las entradas de la red eran matrices de tasas de activación nerviosa auditiva instantáneas (representadas en escala de grises, con tonos más claros que indican tasas de activación más altas). Cada fila traza la tasa de disparo de una fibra nerviosa auditiva sintonizada en frecuencia, dispuesta en orden de su lugar a lo largo de la cóclea (con las frecuencias bajas en la parte inferior). Las fibras individuales se sincronizan en fase con armónicos de número bajo en el estímulo (parte inferior de la representación del nervio) o con la combinación de armónicos de número alto (parte superior). Las respuestas promediadas en el tiempo a la derecha muestran el patrón de excitación de la fibra nerviosa a lo largo del eje de frecuencia coclear (el patrón de excitación). Los armónicos de número bajo producen picos distintos en el patrón de excitación. c Esquemas de seis arquitecturas DNN de ejemplo entrenadas para estimar F0. Las arquitecturas de red variaban en el número de capas, el número de unidades por capa, el grado de agrupación entre capas y el tamaño y la forma de los núcleos de filtro convolucional d Resumen de la búsqueda de arquitectura de red. El rendimiento de la clasificación F0 en el conjunto de validación (palabra ruidosa y estímulos de instrumentos que no se ven durante el entrenamiento) se muestra como una función de los pasos de entrenamiento para las 400 redes entrenadas. Las curvas resaltadas corresponden a las arquitecturas representadas en ay c. La precisión general relativamente baja refleja los contenedores F0 de grano fino que utilizamos. e Histograma de precisión, expresado como la mediana del error F0 en el conjunto de validación, para todas las redes entrenadas (el error F0 en porcentaje es más interpretable que la precisión de la clasificación, cuyo valor absoluto depende del ancho de los contenedores F0). f Matriz de confusión para la red de mejor rendimiento (representada en a) probada en el conjunto de validación. Crédito: DOI: 10.1038/s41467-021-27366-6

Una nueva investigación de neurocientíficos del MIT sugiere que los paisajes sonoros naturales han dado forma a nuestro sentido del oído, optimizándolo para los tipos de sonidos que encontramos con más frecuencia.

En un estudio publicado el 14 de diciembre en la revista Nature Communications, los investigadores dirigidos por el investigador asociado del Instituto McGovern para la Investigación del Cerebro, Josh McDermott, utilizaron modelos computacionales para explorar los factores que influyen en cómo los humanos escuchan el tono. La percepción del tono de su modelo se parecía mucho a la de los humanos, pero solo cuando se entrenaba con música, voces u otros sonidos naturales.

La capacidad de los humanos para reconocer los tonos, esencialmente, la velocidad a la que se repite un sonido da melodía a la música y matiza al lenguaje hablado. Aunque podría decirse que este es el aspecto mejor estudiado de la audición humana, los investigadores todavía están debatiendo qué factores determinan las propiedades de la percepción del tono y por qué es más agudo para algunos tipos de sonidos que para otros. McDermott, quien también es profesor asociado en el Departamento de Ciencias Cognitivas y Cerebrales del MIT e investigador del Centro de Cerebros, Mentes y Máquinas (CBMM) del MIT, está particularmente interesado en comprender cómo nuestro sistema nervioso percibe el tono porque los implantes cocleares , que envían señales eléctricas sobre el sonido al cerebro en personas con sordera profunda, no reproducen muy bien este aspecto de la audición humana.

«Los implantes cocleares pueden ayudar bastante bien a las personas a comprender el habla, especialmente si están en un ambiente tranquilo. Pero en realidad no reproducen muy bien la percepción del tono», dice Mark Saddler, estudiante de posgrado e investigador del CBMM que codirigió el proyecto y miembro de posgrado inaugural del K. Centro Integrativo de Neurociencia Computacional Lisa Yang. «Una de las razones por las que es importante comprender la base detallada de la percepción del tono en personas con audición normal es tratar de obtener una mejor comprensión de cómo reproduciríamos eso artificialmente en una prótesis».

Audición artificial

p>

La percepción del tono comienza en la cóclea, la estructura en forma de caracol en el oído interno donde las vibraciones de los sonidos se transforman en señales eléctricas y se transmiten al cerebro a través del nervio auditivo. La estructura y función de la cóclea ayudan a determinar cómo y qué oímos. Y aunque no ha sido posible probar esta idea experimentalmente, el equipo de McDermott sospechaba que nuestra «dieta auditiva» también podría moldear nuestra audición.

Crédito: Instituto Tecnológico de Massachusetts

Para explorar cómo nuestros oídos y nuestro la influencia del entorno en la percepción del tono, McDermott, Saddler y el asistente de investigación Ray Gonzalez construyeron un modelo informático denominado red neuronal profunda. Las redes neuronales son un tipo de modelo de aprendizaje automático ampliamente utilizado en el reconocimiento automático de voz y otras aplicaciones de inteligencia artificial. Aunque la estructura de una red neuronal artificial se parece bastante a la conectividad de las neuronas en el cerebro, los modelos utilizados en las aplicaciones de ingeniería en realidad no escuchan de la misma manera que los humanos, por lo que el equipo desarrolló un nuevo modelo para reproducir la percepción del tono humano. Su enfoque combinó una red neuronal artificial con un modelo existente del oído de los mamíferos, uniendo el poder del aprendizaje automático con conocimientos de la biología. «Estos nuevos modelos de aprendizaje automático son realmente los primeros que se pueden entrenar para realizar tareas auditivas complejas y, de hecho, hacerlas bien, a niveles humanos de rendimiento», explica Saddler.

Los investigadores entrenaron la red neuronal para Estime el tono pidiéndole que identifique la tasa de repetición de los sonidos en un conjunto de entrenamiento. Esto les dio la flexibilidad de cambiar los parámetros bajo los cuales se desarrolló la percepción del tono. Podían manipular los tipos de sonido que presentaban al modelo, así como las propiedades del oído que procesaba esos sonidos antes de pasarlos a la red neuronal.

Cuando el modelo fue entrenado usando sonidos que son importante para los humanos, como el habla y la música, aprendió a estimar el tono tanto como lo hacen los humanos. «Reproducimos muy bien muchas características de la percepción humana, lo que sugiere que usa señales similares de los sonidos y la representación coclear para realizar la tarea», dice Saddler.

Pero cuando el modelo fue entrenado usando más sonidos artificiales o en ausencia de ruido de fondo, su comportamiento era muy diferente. Por ejemplo, Saddler dice: «Si optimiza para este mundo idealizado donde nunca hay fuentes de ruido en competencia, puede aprender una estrategia de tono que parece ser muy diferente a la de los humanos, lo que sugiere que tal vez el sistema de tono humano era realmente optimizado para lidiar con casos en los que a veces el ruido oscurece partes del sonido».

El equipo también descubrió que la sincronización de las señales nerviosas iniciadas en la cóclea es fundamental para la percepción del tono. En una cóclea sana, explica McDermott, las células nerviosas se activan precisamente al mismo tiempo que las vibraciones sonoras que llegan al oído interno. Cuando los investigadores sesgaron esta relación en su modelo, de modo que la sincronización de las señales nerviosas estuviera menos estrechamente relacionada con las vibraciones producidas por los sonidos entrantes, la percepción del tono se desvió de la audición humana normal.

McDermott dice que será importante tener esto en cuenta mientras los investigadores trabajan para desarrollar mejores implantes cocleares. «Sugiere mucho que para que los implantes cocleares produzcan una percepción de tono normal, debe haber una manera de reproducir la información de sincronización detallada en el nervio auditivo», dice. «En este momento, no hacen eso, y existen desafíos técnicos para que eso suceda, pero los resultados del modelo sugieren claramente que eso es lo que tienes que hacer».

Explorar más

¿Tono imperfecto? Cómo el cerebro decodifica el tono puede mejorar los implantes cocleares Más información: Mark R. Saddler et al, Los modelos de redes neuronales profundas revelan la interacción de la codificación periférica y las estadísticas de estímulo en la percepción del tono, Nature Communications (2021). DOI: 10.1038/s41467-021-27366-6 Información de la revista: Nature Communications

Proporcionado por el Instituto de Tecnología de Massachusetts

Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu /newsoffice/), un sitio popular que cubre noticias sobre investigación, innovación y enseñanza del MIT.

Cita: Perfeccionando la percepción del tono (20 de diciembre de 2021) recuperado el 29 de agosto de 2022 de https://medicalxpress.com/news/2021-12-pitch-perception.html Este documento está sujeto a los derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.