Skip links

Módulo 3: Enfoques

Cómo las tecnologías actuales reconfiguran el sonido: canales, objetos, escenas y escucha binaural.

Audio de Próxima Generación (NGA)

Comencemos con el concepto de Audio de Próxima Generación (NGA), que sirve como un marco general para agrupar y dar sentido a diversas ideas relacionadas con las transformaciones recientes en la producción, distribución y experiencia del sonido. Es una categoría amplia a través de la cual se articulan diferentes desarrollos técnicos y estéticos en el audio.

Audio de Próxima Generación (NGA) se refiere a un conjunto de tecnologías y formatos de audio diseñados para ofrecer experiencias de escucha más inmersivas, flexibles y adaptativas.

Estas tecnologías permiten que el contenido sonoro se represente en capas separadas—objetos, canales, metadatos—lo que no solo mejora la espacialidad, sino que también posibilita la personalización dinámica de la experiencia de escucha según el entorno, el dispositivo de reproducción o las preferencias del usuario.

Contexto histórico del Audio de Próxima Generación (NGA)

To understand the concept of Audio de Próxima Generación (NGA), es necesario situarlo dentro del contexto de transformación tecnológica que le dio origen. Los sistemas tradicionales de mezcla de audio se basan en una estructura por canales, donde cada sonido se asigna a un canal específico. Por ejemplo, la voz se dirige al canal central; los efectos de sonido principales a los canales izquierdo y derecho.

Este modelo comenzó a mostrar sus limitaciones a mediados de la década de 2000, junto con la expansión de los televisores de pantalla plana. Entre 2000 y 2008, eventos de gran repercusión como la Copa Mundial de la FIFA en Alemania y el Super Bowl impulsaron la venta masiva de estos dispositivos. Sin embargo, el diseño delgado de las nuevas pantallas redujo el espacio disponible para los altavoces, lo que degradó la calidad del sonido en el entorno doméstico.

Ante esta limitación, surgieron las barras de sonido como una solución compacta. Su diseño permitió una experiencia sonora más precisa e inmersiva sin necesidad de sistemas voluminosos. La incorporación de tecnologías inalámbricas como Bluetooth facilitó la integración con otros dispositivos y permitió configuraciones de múltiples altavoces en el hogar.

Sin embargo, este avance expuso nuevos desafíos, principalmente relacionados con la interoperabilidad entre distintos dispositivos y software. La fragmentación tecnológica evidenció la necesidad de desarrollar nuevos formatos y códecs capaces de garantizar compatibilidad y continuidad en la experiencia de escucha. En este contexto, los sistemas multicanal—especialmente el modelo 5.1.0—se fueron estandarizando progresivamente. Dolby se consolidó como un actor central, estableciendo sus sistemas como estándar de la industria en aplicaciones cinematográficas y de audio comercial.

El surgimiento de NGA responde a esta secuencia: busca superar las limitaciones del modelo basado en canales mediante la propuesta de nuevos métodos de codificación y espacialización que consideran la variabilidad de los dispositivos y los entornos de escucha. No se trata únicamente de un cambio técnico, sino de una transformación que afecta la manera en que el sonido se produce, distribuye y experimenta.

Enfoques del Audio de Próxima Generación (NGA)

Dentro del alcance de Audio de Próxima Generación (NGA), se reconocen cuatro enfoques principales para representar el sonido: channel-based audio, object-based audio, scene-based audio, y audio binaural.

A continuación, se presenta un resumen de cada uno de estos métodos, que se explorarán en detalle en los módulos siguientes.

Audio Basado en Canales

Audio Basado en Objetos

Ambisonic

Binaural

Audio Basado en Canales

Definición y Explicación Técnica

El audio basado en canales es el método tradicional de reproducción sonora. En este sistema, el audio premezclado se asigna a posiciones fijas en el espacio, utilizando canales discretos que corresponden a altavoces específicos. Cada canal entrega su señal a un altavoz designado sin modificaciones adicionales. Formatos como estéreo, 5.1 y 7.1 son ejemplos de esta técnica, que ha sido un estándar en la industria durante décadas.

En el sonido envolvente se distinguen dos variantes principales: canales discretos y canales matriciales. Los canales discretos transmiten señales independientes, como ocurre en el estéreo con los canales izquierdo y derecho. Los canales matriciales, en cambio, incorporan información adicional dentro de un número limitado de canales y utilizan técnicas de decodificación para recrear la ilusión de una mayor espacialidad. Si bien la tecnología matricial ha evolucionado, los sistemas discretos aún ofrecen una separación de canales más clara y una espacialización más precisa.

En el Modelo de Definición de Audio (ADM), este tipo de audio se denomina audio basado en canales. DirectSpeakers…, para evitar confusiones con otros usos del término “canal” en diferentes contextos técnicos.

Pros y contras

Producción

  • Ventajas: Los flujos de trabajo son sencillos. Las herramientas y prácticas de mezcla están bien establecidas y resultan familiares para los profesionales.
  • Desventaja: La flexibilidad es limitada. El contenido mezclado para una configuración específica (por ejemplo, 5.1) no siempre se adapta bien a sistemas con diferentes números o disposiciones de altavoces. Esto suele requerir mezclas separadas para cada formato.

Distribución

  • Ventajas: La compatibilidad es amplia. Este método funciona con la mayoría de los sistemas de reproducción existentes, desde un simple estéreo hasta configuraciones surround.
  • Desventaja: Es ineficiente para la personalización. Ofrecer opciones como múltiples idiomas o pistas adicionales requiere distribuir mezclas completas por separado, lo que aumenta el consumo de ancho de banda.

Experiencia del oyente

  • Ventajas: Ofrece una experiencia clara y consistente cuando la reproducción se realiza en un sistema que coincide con la configuración prevista durante la mezcla.
  • Desventaja: La inmersión es limitada en comparación con los sistemas basados en objetos o escenas. La calidad de la experiencia depende de que el usuario tenga exactamente la configuración de altavoces para la que se diseñó la mezcla.

Implementación en formatos y tecnologías

El audio basado en canales sustenta formatos como estéreo, 5.1 y 7.1. Incluso las variantes más recientes, como 5.1.4 o 7.1.4, que incorporan altavoces de altura, todavía asignan los canales a posiciones fijas. Códecs como Dolby AC-3, Dolby Digital Plus y DTS-HD Master Audio soportan estas configuraciones y se han utilizado en medios como DVDs, discos Blu-ray y plataformas de streaming.

Flujo de trabajo típico

La creación de contenido basada en canales comienza con la grabación utilizando micrófonos en posiciones fijas o la edición de señales existentes. Estas señales se mezclan y se asignan a canales específicos que corresponden a las ubicaciones de los altavoces. La producción se realiza bajo la premisa de que la reproducción ocurrirá en un sistema con la misma disposición de altavoces utilizada durante la mezcla.

Audio Basado en Objetos

Definición y Explicación Técnica

El audio basado en objetos introduce un modelo diferente de representación sonora. En lugar de asignar los sonidos a canales fijos, cada sonido se trata como un objeto independiente con metadatos que describen su posición, trayectoria, tamaño y otras propiedades en un espacio tridimensional. Durante la producción, estos objetos no están vinculados a altavoces o canales específicos.

El elemento central de este enfoque son los metadatos. Estos datos definen la ubicación y el movimiento de cada objeto en el espacio, así como características como el tamaño aparente o el comportamiento acústico. También permiten funciones adaptativas, como ajustar los niveles de diálogo, seleccionar idiomas o activar pistas adicionales. Durante la reproducción, un sistema compatible —el renderizador— interpreta estos metadatos y posiciona los objetos de audio según la configuración de altavoces disponible.

Pros y contras

Producción

  • Ventajas: El audio basado en objetos permite una mayor flexibilidad creativa al posicionar y mover los sonidos en un espacio tridimensional sin depender de la configuración de altavoces. Esto posibilita la creación de experiencias sonoras más inmersivas y realistas.
  • Desventaja: Los flujos de trabajo y las herramientas necesarias para la producción pueden ser más complejos que los utilizados en el audio basado en canales. Además, gestionar múltiples objetos de audio puede resultar un desafío.

Distribución

  • Ventajas: Un único flujo de audio puede adaptarse a distintos sistemas de reproducción, lo que hace que la distribución de audio personalizado sea más sencilla y eficiente.
  • Desventaja: Requiere que el sistema de reproducción cuente con decodificadores o renderizadores compatibles.

Experiencia del oyente

  • Ventajas: Ofrece una experiencia de escucha inmersiva en tres dimensiones, con localización precisa del sonido y opciones de personalización, como la mejora de diálogos y la selección de idioma.
  • Desventaja: La calidad de la experiencia depende de la sofisticación del renderizador y del sistema de reproducción.

Implementación en formatos y tecnologías

  • Dolby Atmos: Combina bases de audio basadas en canales con objetos de audio dinámicos acompañados de metadatos. Puede manejar hasta 128 elementos de audio entre canales y objetos.

  • DTS:X: Un formato basado en objetos que se adapta de manera flexible a distintas configuraciones de altavoces. No tiene un límite fijo en el número de objetos y utiliza MDA (Multidimensional Audio), una plataforma abierta y libre de regalías.

  • MPEG-H: Un códec flexible que soporta audio basado en canales, objetos y escenas, ofreciendo funciones avanzadas de personalización y accesibilidad.

  • Auro-3D: Otro formato de audio basado en objetos que añade capas de altura al sonido envolvente tradicional, creando una experiencia más inmersiva.

  • Sony 360 Reality Audio: Un formato de audio basado en objetos que coloca fuentes sonoras individuales (voces, instrumentos, efectos) en un campo sonoro esférico de 360°, diseñado principalmente para servicios de streaming y auriculares, pero también adaptable a sistemas de altavoces.

Aplicaciones prácticas

  • Cine: Permite bandas sonoras inmersivas con sonidos posicionados y desplazados de manera precisa dentro de un espacio tridimensional.

  • Música: Facilita la creación de experiencias sonoras inmersivas y personalizables, como ocurre con 360 Reality Audio.

  • Videojuegos: Proporciona audio posicional dinámico que mejora la inmersión y el realismo, adaptándose al movimiento del jugador y al entorno del juego.

  • Realidad Virtual y Aumentada: Ofrece un sonido espacial realista e interactivo, perfectamente sincronizado con los elementos visuales de los entornos de RV y RA.

Flujo de trabajo típico

La producción de audio basado en objetos comienza con la grabación de los distintos elementos sonoros —como diálogos, stems de música y efectos— en archivos separados. Luego, utilizando software especializado (como Pro Tools con Dolby Atmos Production Suite, Nuendo con MPEG-H Authoring Suite, L-ISA, GRIS o Reaper con SPAT Revolution, entre otros), estos sonidos se posicionan en un espacio tridimensional y se les asignan metadatos que determinan su ubicación, movimiento, tamaño y otras características. Durante la mezcla, los objetos de audio y, si se utilizan, las bases basadas en canales se integran dentro del entorno 3D. Finalmente, la mezcla completa se renderiza en un formato que incorpora tanto la esencia del audio como sus metadatos asociados, como el archivo ADM en Dolby Atmos.

Audio basado en escenas (Ambisonics)

Definición y Explicación Técnica

El audio basado en escenas, representado principalmente por Ambisonics y su evolución hacia Ambisonics de Orden Superior (HOA), captura todo el campo sonoro en un solo punto del espacio utilizando armónicos esféricos. A diferencia del audio basado en canales, sus señales no están destinadas a altavoces específicos. En cambio, transportan una representación abstracta e independiente de los altavoces del campo sonoro, conocida como B-format, que luego se decodifica según la disposición de altavoces del oyente.

La señal en B-format incluye un componente omnidireccional (W) y tres componentes direccionales (X, Y y Z) que describen el gradiente de presión sonora en tres dimensiones. El concepto de “orden” en Ambisonics (primer orden, segundo orden, órdenes superiores) indica la resolución espacial: a mayor orden, mayor precisión espacial y mayor número de canales necesarios para codificar la escena sonora. Existen diferentes convenciones para organizar estos canales, siendo AmbiX y FuMa las más utilizadas.

Durante la reproducción, la señal en B-format se decodifica según la configuración de altavoces disponible o se adapta para reproducción binaural, permitiendo una experiencia inmersiva a través de auriculares.

Pros y contras

Producción

  • Ventajas: Permite capturar un campo sonoro completo de 360 grados, lo que lo hace ideal para experiencias inmersivas.
  • Desventaja: Requiere micrófonos específicos y herramientas de postproducción especializadas. Los órdenes superiores aumentan el número de canales necesarios, lo que demanda mayor ancho de banda y capacidad de procesamiento.

Distribución

  • Ventajas: Su representación independiente de los altavoces facilita la adaptación a distintos sistemas de reproducción sin necesidad de crear mezclas separadas.
  • Desventaja: La reproducción en sistemas específicos o en formato binaural requiere un proceso de decodificación.

Experiencia del oyente

  • Ventajas: Ofrece una experiencia de audio tridimensional inmersiva y natural, especialmente efectiva cuando se utiliza seguimiento de cabeza en entornos de RV/RA.
  • Desventaja: En primer orden, la resolución espacial es más limitada en comparación con órdenes superiores o el audio basado en objetos. Además, el “punto óptimo” para una reproducción precisa puede ser reducido, especialmente en órdenes bajos.

Implementación en formatos y tecnologías

  • MPEG-H: Soporta audio basado en escenas mediante el uso de Ambisonics de Orden Superior (HOA), permitiendo una reproducción inmersiva adaptable a distintos sistemas.

  • Ambisonics: Una tecnología que abarca diversos órdenes y formatos, como B-Format, ACN y FuMa, incluyendo HOA para lograr mayor resolución espacial y una representación más precisa del campo sonoro.

  • IAMF (Modelo y Formatos de Audio Inmersivo): Un estándar abierto que soporta audio basado en escenas mediante Ambisonics, con especificaciones detalladas para la configuración y los modos de Ambisonics.

Aplicaciones prácticas

  • Realidad Virtual y Aumentada: Ideal para diseñar entornos sonoros inmersivos de 360°, donde el audio responde con precisión a los movimientos de la cabeza del usuario, aumentando la sensación de realismo.

  • Video 360°: Proporciona sonido espacial que aumenta la inmersión y complementa de manera coherente la experiencia visual de los videos esféricos.

  • Música inmersiva: Permite capturar y reproducir la dimensión espacial de las interpretaciones musicales, envolviendo al oyente dentro de la escena sonora.

Flujo de trabajo típico

La producción de audio basado en escenas comienza con la captura del campo sonoro utilizando micrófonos Ambisonic especializados, como arreglos tetraédricos o micrófonos de órdenes superiores. Las señales grabadas en A-format se convierten posteriormente a B-format, que representa el campo sonoro de manera independiente de la configuración de altavoces. Esta señal B-format se mezcla y procesa dentro de una estación de trabajo de audio digital (DAW), utilizando plugins y herramientas específicas para Ambisonics. Finalmente, el audio resultante se renderiza en el formato de entrega requerido: ya sea binaural para auriculares o multicanal para sistemas de altavoces.

Audio Binaural

Definición y Explicación Técnica

El audio binaural es una técnica de grabación y reproducción que utiliza dos micrófonos posicionados de manera similar a los oídos humanos, con el objetivo de simular una experiencia sonora tridimensional para el oyente con auriculares. A diferencia del audio estéreo convencional, el audio binaural replica las diferencias de tiempo y nivel entre ambos oídos (ITD e ILD), así como las modificaciones espectrales causadas por la cabeza y los oídos (HRTF).

Dentro del ámbito del Next Generation Audio (NGA), el audio binaural se clasifica como una forma de audio espacial que permite una experiencia inmersiva a través de auriculares. Aunque no encaja completamente en las categorías de audio basado en canales, objetos o escenas, a menudo se considera una categoría separada dentro del NGA. El audio binaural puede ser pre-renderizado o generado dinámicamente a partir de representaciones basadas en objetos o escenas mediante HRTFs. Su capacidad para ofrecer una experiencia inmersiva con un sistema de reproducción sencillo —como los auriculares— lo convierte en una opción muy atractiva para aplicaciones como realidad virtual, realidad aumentada, videojuegos y reproducción en dispositivos móviles.

Pros y contras

Producción

  • Ventajas: Permite la creación de experiencias sonoras inmersivas y realistas utilizando únicamente dos canales, lo que simplifica el proceso en comparación con configuraciones multicanal.
  • Desventaja: Crear grabaciones binaurales auténticas requiere micrófonos especializados o técnicas de procesamiento avanzadas para simular la percepción humana. Además, la experiencia puede variar significativamente entre los oyentes debido a las diferencias individuales en la anatomía de la cabeza y los oídos (HRTF).

Distribución

  • Ventajas: El audio binaural es altamente eficiente para la distribución, ya que —al igual que el estéreo convencional— solo requiere dos canales de audio. Esto lo hace compatible con la mayoría de los dispositivos y plataformas existentes, sin necesidad de infraestructura multicanal.
  • Desventaja: La reproducción a través de altavoces estéreo no permite una percepción espacial precisa, ya que el efecto binaural depende de la escucha con auriculares. Esto puede comprometer significativamente la calidad y fidelidad de la experiencia inmersiva.

Experiencia del oyente

  • Ventajas: Ofrece una experiencia sonora tridimensional convincente y altamente inmersiva a través de auriculares, creando la sensación de que el sonido proviene de todas las direcciones. Es especialmente adecuado para aplicaciones en las que los auriculares son el medio principal de escucha, como realidad virtual, realidad aumentada, videojuegos y escucha personal.
  • Desventaja: La calidad de la inmersión depende de la precisión de la HRTF utilizada, la cual puede no ser adecuada para todos los oyentes.

Implementación en formatos y tecnologías

El audio binaural puede adoptarse tanto como formato de entrega final como técnica de renderizado dentro de otros formatos de Next-Generation Audio (NGA).

  • Archivos de audio binaural: Los archivos de audio estéreo pueden contener grabaciones binaurales capturadas con micrófonos especializados o procesadas digitalmente para simular los efectos espaciales típicos de la escucha binaural.

  • Renderizado binaural en formatos NGA: Tecnologías como Dolby Atmos, DTS:X, MPEG-H y Ambisonics incorporan algoritmos de renderizado binaural para permitir la reproducción inmersiva a través de auriculares. Este proceso utiliza HRTF para adaptar el audio a la percepción auditiva humana al usar auriculares.

Aplicaciones prácticas

  • Realidad Virtual y Aumentada (RV/RA): El audio binaural permite experiencias sonoras espaciales que se integran de manera coherente con los elementos visuales en entornos de RV y RA.

  • Videojuegos: Proporciona información posicional precisa a través de auriculares, permitiendo a los usuarios localizar los sonidos dentro de un espacio tridimensional y aumentando la sensación de inmersión.

  • Música: Se utiliza para desarrollar experiencias de escucha espaciales e íntimas a través de auriculares, ofreciendo nuevas formas de percepción sonora.

  • Podcasts y audiolibros: Mejora la experiencia auditiva al introducir una dimensión espacial que genera una sensación de presencia y entorno.

Flujo de trabajo típico

La creación de contenido binaural puede realizarse mediante la grabación con micrófonos especializados —integrados en cabezas artificiales o dispositivos a nivel de los oídos— que capturan el sonido de una manera análoga a la percepción humana, o mediante la aplicación de procesamiento binaural a grabaciones mono o multicanal utilizando software y complementos que emplean Funciones de Transferencia Relacionadas con la Cabeza (HRTF, por sus siglas en inglés). Este procesamiento permite posicionar las fuentes sonoras en un espacio tridimensional y generar un resultado destinado a la reproducción mediante auriculares.

Ejercicios

Ejercicio: Juego de exploración de enfoques de audio espacial

Objetivo:
Desarrolla tus habilidades de escucha crítica mientras exploras de forma lúdica los diferentes enfoques que utilizan las tecnologías de audio inmersivo para construir el sonido espacial. El desafío consiste en identificar no solo la dirección de los sonidos, sino también cómo se mueven, qué profundidad o altura percibes y cómo cada tecnología influye en tu sensación de inmersión.

Duración: 30 minutos

Introducción:

Vivimos rodeados de paisajes sonoros que nos envuelven en películas, videojuegos, música en plataformas como Apple Music o Tidal y experiencias de realidad virtual. Sin embargo, cada tecnología crea esa sensación espacial de una manera diferente: algunas utilizan canales fijos, otras emplean objetos que se mueven libremente, algunas codifican escenas completas y otras adaptan todo a la forma en que nuestros oídos perciben el sonido.

En este juego sonoro entrenarás tu oído para reconocer esas diferencias. Recuerda: no existe un enfoque “mejor” o “peor”; cada uno ofrece su propia forma de experimentar y comprender el espacio. Por ejemplo, el estéreo no es menos válido que el ambisónico, simplemente sigue una lógica diferente. Mientras juegas, pregúntate: ¿Qué sonidos me cautivan? ¿Cuál me hace sentir más inmerso? ¿Cómo puedo imaginar que se crearon estos sonidos?

Instrucciones:

Preparación (5 minutos)

  • Busca un lugar tranquilo, sin ruidos externos.

  • Utiliza auriculares cerrados de alta calidad. No uses altavoces para este ejercicio.

  • Haz clic en el siguiente enlace: https://surl.li/ormqlu

Nota: Ten en cuenta que este ejercicio está diseñado para realizarse con auriculares, por lo que la experiencia será diferente a la que se obtendría en un espacio físico con altavoces distribuidos. Todas las referencias aquí están específicamente pensadas para la escucha con auriculares y no replican exactamente la sensación de un sistema envolvente o de espacialización basada en sala.

Este sitio web utiliza cookies para mejorar tu experiencia en la web.
Spanish