fbpx

Cuando la IA sea capaz de Escuchar

¿Qué cambios provocará la forma de escucha de la IA en nuestra propia forma de escucha?

Vivimos uno de los cambios tecnológicos más importantes en la historia de la humanidad. Como cualquier cambio sustancial que se introduce en nuestra vida cotidiana, éste se presenta casi sin darnos cuenta.

Una cafetería, las personas conversan frente  a una pequeña pantalla. Uno de los televisores elige una selección de música tomando en cuenta los gustos de cada cliente. El café que tomo tiene el dulzor justo y programado según mis niveles de fructuosa y glucosa detectados. Mi teléfono se conecta inmediatamente a la red del lugar y ante mi autorización de voz paga el café e inmediatamente ingresa el gasto en mi lista de gastos habituales, mientras, el aire acondicionado del lugar nivela la temperatura justa de la mesa en la que estoy sentada escribiendo estas líneas.

Ideas sueltas que escribo. El café en el que estoy sentada, no es exactamente así, pero no dista mucho de serlo dentro de unos pocos años.

No lo recordamos, pero la Inteligencia Artificial (IA de ahora en adelante), viene desarrollándose hace más de seis décadas y ahora forma parte de nuestras vidas. La mayoría de los dispositivos conectados a internet, en la actualidad, ofrecen algún tipo de algoritmo de IA, brindando nuevas experiencias al usuario final.

El mundo del audio fue uno de los primeros en adoptar el uso de la IA.
La configuración de la automatización de fades (flying fades) en las mesas de mezclas, en los años 70’, los compresores, los reductores de ruido, los analizadores gráficos, tienen sus raíces en la aplicación de análisis de datos para realizar mediciones. Un aprendizaje automático de las máquinas que se viene aplicando a parámetros de audio.

En el año 2018, la compañía iZotope anunció una nueva versión de su programa de reducción de ruido RX7 con algoritmos de aprendizaje automático. Que incluía, entre otras características, un módulo de contorno del diálogo y la capacidad de lidiar con problemas de entonación. El aprendizaje automático también se utilizó para reconocer ejemplos de voces limpias y tipos de ruido que pueden afectar a la voz, como también, para identificar voces e instrumentos específicos para controlar la ganancia de cada elemento.

La compañía de complementos de procesamiento de audio McDSP acaba de lanzar, en 2019, su primer producto basado en aprendizaje automático. El módulo (bundle) SHINE es parte de la colección 6060 de procesadores y fue producido usando un modelo de computadora AI.

El instituto Fraunhofer-Institut für Integrierte Schaltungen IIS de Alemania la misma empresa que desarrolló el códec mp3, desde hace años, viene desarrollando una serie de interfaces de audio, altavoces inteligentes y software de procesamiento de señales digitales basadas en IA.  

Venimos trabajando con componentes relacionados con la IA y el audio desde hace tiempo, casi sin darnos cuenta. Los desarrollos en el campo del sonido son cada vez más fructíferos y complejos en cuanto a IA.

El reconocimiento de voz e imagen ya forma parte fundamental de muchos dispositivos, pero hay un cuarto elemento que es vital para el desarrollo de la IA: El Sentido de la AUDICIÓN.

Es el sentido que permite que los dispositivos entiendan el contexto, que puedan identificar diferentes sonidos del entorno y comprender si una acción debe tomarse o no. La IA de sonido permitirá a los dispositivos comprender de manera inteligente el contexto, la atención, la presencia, la actividad, la seguridad y el entretenimiento, al poder identificar eventos y escenas. El reconocimiento de sonido se convertirá en un componente esencial de los dispositivos conectados y tendrá un impacto significativo en nuestras vidas, ya que permite que los dispositivos respondan de manera inteligente al sonido.

Miro a mi alrededor en esta cafetería en 2019. Un hombre tiene audífonos frente a una computadora, otro habla por el Smartphone con el altavoz encendido, la mayoría de los presentes no parece estar atendiendo a la fuerte música que proviene del televisor, ni a los golpes que vienen del fondo del salón, ni al sonido de la máquina de café, ni al de los autos que pasan en la avenida, mucho menos al del aire acondicionado, de la caja registradora, de las tazas que ordena la mesera, del tipeo en mi computadora o el click del mouse de otro hombre con audífonos y laptop.

Nuestro cerebro es capaz de identificar, analizar y organizar jerárquicamente una compleja cantidad de sonidos que se producen en el entorno al mismo tiempo. Algunos de estos sonidos se hacen conscientes según nuestras necesidades, otros pasan completamente desapercibidos.

Me pregunto si la industria del audio permitirá que el sentido de audición que desarrolle la IA sea tan complejo como el de un ser humano o si la IA sólo será capaz de analizar una serie de datos sonoros limitados por las intenciones del mercado.

Las intenciones del mercado suelen estudiar las necesidades de los consumidores.  Aquí es cuando se abre un campo de exploración interesante para cualquier diseñador de sonido, compositor, docente, ingeniero de audio, etc. Estudiar a fondo cuáles son nuestras verdaderas necesidades de audición como manipuladores del sonido, cuáles son las ventajas de ampliar la perspectiva de escucha de los consumidores, cómo ampliamos la atención hacia los sonidos del entorno en una época de sobre estimulación sensorial.

El estudio de estos factores es una tarea que tendrá una fuerte incidencia en el desarrollo de la IA respecto del sonido y que quizás pueda direccionar mejor las posibilidades de esta tecnología emergente, que se estima, que solo en ingresos por licencias, tendrá un valor de U$s 1.2 mil millones en 2021.


Biografía:


Autor: Sol Rezza
Editor | Corrector: Franco Falistoco
@ 2019

Leave a Reply