Herramientas de IA para Audio – descripción general de las últimas aplicaciones para postproducción de sonido

Septiembre 11, 2023

Herramientas de IA para Audio - descripción general de las últimas aplicaciones para postproducción de sonido

por Mascha DeikovaSeptiembre 11, 2023

Hablamos mucho sobre increíbles generadores de imágenes, los poderes de ChatGPT y cómo la inteligencia artificial ya influye en la rama del vídeo. Las características invisibles más pequeñas basadas en redes neuronales captan nuestra atención incluso en el software de posproducción. Sin embargo, el ámbito de los impresionantes paisajes sonoros sigue estando un poco fuera de foco. Pero créanme, el avance tecnológico no se ha quedado atrás. Vamos a echarle un vistazo a diferentes herramientas de IA para audio y veamos hasta dónde han llegado.

No es necesario debatir cómo la inteligencia artificial ha permeado cada faceta de nuestras vidas. A veces ocurre de forma tan rápida que parece alarmante. La IA de Google ahora puede identificar la música que escuchas en función de tus señales cerebrales. ¿Crees que es una fake news? Haz click aquí y lee el artículo de investigación oficial. Personalmente, se me pone la piel de gallina después de leer las primeras frases.

Aunque a veces resulta desconcertante, el desarrollo de la tecnología de IA trae consigo herramientas útiles que pueden ayudar a mejorar y acelerar nuestro trabajo. En este artículo, al decir “nosotros” me refiero a los cineastas independientes que hacemos nuestros propios posts sonoros, y también específicamente a los ingenieros de audio.

Texto a voz o generadores de voz AI

¿Con qué frecuencia necesitas una voz en off decente en tus proyectos de vídeo? Imagino que suele pasar frecuentemente. Si bien, en mi opinión, una máquina nunca podrá reemplazar el tono humano y nuestra forma de hablar, en algunos casos el rendimiento de la IA puede ser suficiente para un proyecto (por ejemplo, si solo la necesitas para una vista previa, un primer montaje o una historia en la que una voz artificial es apropiada para los personajes).

Los generadores de voz con IA no son una gran noticia en un mundo donde Siri ha dirigido el programa durante más de una década, pero algunos de los lanzamientos más recientes son realmente impresionantes. Tomemos como ejemplo LOVO, su herramienta de conversión de texto a voz llamada Genny puede expresar hasta más de 25 emociones. Le pedí que leyera un poema con una voz femenina joven y luego repetí la petición pero apliqué la emoción “cansado”. Los resultados fueron impresionantes y extremadamente realistas.

AI tools for audio - LOVO and Genny voice generator — La apariencia visual de Genny. Fuente de la imagen: una captura de pantalla de la interfaz de LOVO

Ahora bien, lo que noté durante esta prueba es que sólo algunos de los parlantes de la biblioteca de Genny ofrecen voces en off “emocionales”. Por lo tanto, debes ceñirte al discurso narrativo estándar o restringir tu elección a los presentadores de voz más emocionales.

Además, LOVO no es gratuito, aunque ofrecen diferentes planes de precios y una prueba gratuita de 2 semanas (te permite generar 20 minutos de discurso). Pero también hay docenas de otros generadores de voz con IA en el mercado, como Speechify (donde puedes escribir tu texto con anticipación para escuchar cómo sonará si lo lee el presentador elegido); Murf.ai, que les ofrece a los nuevos usuarios 10 minutos de locución generada de forma gratuita; o Resemble, que es capaz de convertir la voz a diferentes idiomas sin aportar datos adicionales.

Herramientas de IA para audio que encuentran la mejor música posible

La inteligencia artificial también puede ayudarte a encontrar la música más adecuada para tu proyecto. Si alguna vez has pasado horas en las bibliotecas de sonido buscando el camino correcto, sabrás que este proceso lleva mucho tiempo, y es por eso que varias plataformas introdujeron la búsqueda impulsada por IA.

AI tools for audio - Uppbeat AI playlist generator — Fuente de la imagen: Uppbeat

Por ejemplo, no hace mucho, la plataforma británica de música gratuita Uppbeat lanzó una nueva función: listas de reproducción generadas por IA, basadas en las entradas de texto que proporcionan los usuarios. Ésta funciona de forma muy sencilla, sólo debes describir una escena de tu vídeo o cómo debería sonar la música y en cuestión de segundos la plataforma te ofrecerá varias pistas adecuadas de su biblioteca. Según los desarrolladores, su sistema utiliza el modelo de lenguaje grande ChatGPT, que se incorpora a la búsqueda.

Puedes leer más sobre cómo trabajar con esta función en tus proyectos de video aquí.

Creando pistas de música completas con la ayuda de la IA

Cuando la música de archivo se vuelve insoportable (lo que supongo que nos pasa a todos de vez en cuando), las redes neuronales pueden crear algo diferente para ti. Actualmente hay dos grandes generadores de música con IA (junto con cientos de otros más pequeños) que compiten por los usuarios. El primero es MusicLM de Google y el segundo, MusicGen de Meta.

Ambos describen su software como herramientas experimentales de IA que permiten generar melodías a partir de descripciones de texto, pero aún se encuentran en la fase beta. Si bien Google permite que las personas se unan a su AI Test Kitchen (puedes registrarte y esperar una invitación aquí) para probar el nuevo software generativo, el proyecto de Meta es completamente de código abierto. Hablamos sobre esto en detalle aquí.

AI tools for audio - MusicLM — MusicLM. Image source: Google

AI tools for audio - MusicGen — MusicLM. Image source: Google

Entonces, ¿cómo funcionan los generadores de música? Debes alimentar sus modelos de aprendizaje automático con cualquier descripción de texto (y/o una pista de referencia) y así obtendrás una melodía. De esta manera, puedes pedirle a la IA “una relajante melodía de violín respaldada por un riff de guitarra distorsionado” o “una versión de metal oscuro de la introducción de Friends”. Según Google, MusicLM genera música a 24kHz, que se mantiene constante durante varios minutos. MusicGen, por el contrario, restringe las pistas de salida a 15 segundos. Puedes probar este último en su espacio Hugging Face. Por favor, cuéntanos tu experiencia al utilizarlo. Nuestros resultados fueron bastante fragmentados y no estaban listos para usarse en un proyecto real, pero las redes neuronales aprenden rápido. Posiblemente, en el próximo año, la música generada por IA tenga una oportunidad.

Efectos de sonido con IA para audio

Después del lanzamiento de MusicGen, Meta también anunció un software similar impulsado por IA para efectos de sonido. Se llama AudioGen y funciona en base al mismo principio. Tienes que describir qué sonidos estás buscando y dejar que la red neuronal haga su magia.

Los desarrolladores entrenaron a AudioGen en efectos de sonido públicos, y cuando le das una descripción textual de una escena acústica, genera 5 segundos de audio que coinciden con tu mensaje. Como también es un proyecto de código abierto, puedes probar el modelo en Hugging Face o descargarlo, ajustarlo y entrenarlo aquí.

AI tools for audio - AudioGen by Meta — Espacio de prueba de AudioGen en Hugging Face. Fuente de la imagen: una captura de pantalla de Hugging Face

Mis primeras experiencias con AudioGen han sido problemáticas. Si bien el modelo comprende perfectamente la redacción y hace todo lo posible para encontrar sonidos coincidentes, la composición general de la pista no parece consistente ni realista. Sin embargo, es un avance sorprendente y supongo que no pasará mucho tiempo hasta que la IA ofrezca una alternativa decente a las bibliotecas de sonido.

Como probablemente recuerdes, Adobe también anunció una función generativa SFX similar en su futuro proyecto “Firefly for video”. Estaremos atentos para conocer sus capacidades.

Postproducción de audio y aumento de la calidad del habla

Hablando de Adobe, el año pasado la compañía trabajó arduamente en el desarrollo de diferentes aplicaciones utilizando inteligencia artificial, incluyendo herramientas para audio. A modo de ejemplo, su potenciador de audio AI (parte de Adobe Podcast) puede tomar una grabación de voz de baja calidad y hacerla sonar como si hubiera sido capturada en un estudio profesional. Haz click aquí si quieres probarlo.

AI tools for audio - Adobe's AI speech enhancer — Fuente de la imagen: Adobe

El potenciador de audio elimina todo ruido de fondo molesto, ajusta el sonido para refinar las frecuencias y le da a la grabación una calidad profesional. Es un excelente potenciador del habla, especialmente si grabas una entrevista en un lugar concurrido, si solo tenías un smartphone a mano para una declaración o deseas guardar un archivo de audio mal nivelado. Sin embargo, funciona sólo con voz, por lo que no podrás ayudarlo a mejorar detalles como la calidad de la música.

Si no tienes una suscripción a Adobe, existen otras herramientas de inteligencia artificial similares que pueden realizar esta tarea. AI|Coustics, es de uso gratuito y admite archivos de voz en .mp3, .wav y .m4a, de hasta 30MB, con una duración máxima de 10 minutos.

Separación de pistas de voz y música con herramientas de IA para audio

La última herramienta de audio útil que quiero mencionar en esta descripción general es LALAL.ai. Su IA, llamada Cassiopeia, les permite a los usuarios separar la voz de la banda sonora. Según los desarrolladores, la red neuronal utiliza una tecnología llamada separación de raíces para distinguir las voces de la música. De esa manera, puede incluso dividir la melodía de fondo en diferentes instrumentos, lo que te permite aislar y editar cualquier parte de la grabación.

AI tools for audio - separating tracks with LALAL.ai — LALAL.ai separó con éxito todas las pistas en mi archivo subido. Fuente de la imagen: una captura de pantalla de la interfaz de su navegador.

¿Por qué necesitarías una herramienta así? Por muchas razones. Tal vez tengas material de archivo y solo quieras una parte con voz en off, u otro caso podrían ser los vídeos de parodia en YouTube que necesitan pistas de audio particulares de sus películas o series favoritas. La creación de placas de fondo de karaoke sencillas también es un buen ejemplo de lo que ofrece LALAL.ai.

Puedes probar LALAL.ai sin un plan de suscripción, pero solo tendrás acceso a 10 minutos de grabaciones. Después de eso, la plataforma cobra según la duración del audio que deseas extraer.

Si necesitas una herramienta gratuita, dirígete a Vocal Remover. Esta aplicación es menos potente que su competidora (y sólo puede separar la voz de la música mediante IA), pero cumple su función, así que ¿por qué no probarla?

La lista puede seguir y seguir.

Aunque ya mencionamos al menos 10 herramientas de IA diferentes para audio, aún parece que estamos en la superficie. Hay muchas investigaciones interesantes en esta área y cada día aparecen nuevas aplicaciones. ¿Has oído hablar de Muzify, que crea listas de reproducción de Spotify generadas por IA para tus libros y novelas favoritos? ¿Qué tal Voicify, una IA que les permite a sus usuarios crear covers musicales con sus artistas favoritos como Taylor Swift? Y…

Bien, nos detendremos aquí por ahora. ¿Sueles utilizar herramientas de IA para audio? Si es así, ¿cuáles son tus favoritas y crees que deberían estar en esta lista? ¿Cuál es tu opinión sobre la música y los efectos de sonido generados por IA? ¡Cuéntanos en la sección de comentarios a continuación!

Fuente de la imagen destacada: creada con Midjourney para CineD.