lenguaje universal IA
AlertIA

El lenguaje universal de la IA

5 de octubre de 2023 Por Ana Perez y Carmen Ayala

Comparte

Email Facebook Linkedin Twitter

La inteligencia artificial continúa desarrollándose a pasos agigantados saltando ya la barrera de la voz. La IA ha pasado del reconocimiento de voz y la transcripción de textos, a la generación de voces humanas, realistas y personalizadas.

Algunas herramientas como VALL-E, de Microsoft, imitan las voces humanas tomando como referencia una grabación de la persona de apenas unos segundos. Mientras que otras como Lovo, convierten el texto a voces naturales permitiendo elegir entre un banco de más de 500. En esta línea, Listnr es otra herramienta que permite personalizar el audio seleccionando hasta las pausas y los acentos de la locución.

Las voces virales de la IA

En comunicación y marketing digital, la generación de voz con IA abre un mundo de posibilidades alrededor de la creación de contenidos y sus formatos, ya sea en la producción de tutoriales online, la locución de vídeos corporativos o en la traducción a distintos idiomas. Un gran ejemplo de uso lo encontramos en el nuevo proyecto piloto que está desarrollando Spotify mediante el cual se emplea una tecnología basada en inteligencia artificial para llevar a cabo la traducción de los episodios de podcasts a diferentes idiomas, manteniendo la voz del propio autor.

Este proyecto se vale de innovaciones como la última tecnología de generación de voz de OpenAI que se adapta al estilo de la voz original del autor. Así, esta herramienta desarrollada por la plataforma brinda una puerta a la internacionalización de los contenidos y una experiencia auditiva más auténtica.

Otro ejemplo lo vimos recientemente cuando las redes sociales se inundaron de escenas populares de series españolas dobladas con IA a otros idiomas, principalmente a inglés. Algunas marcas que fueron agudas, como la cuenta de X (Twitter) de Vodafone TV, no dudaron en sumarse, demostrando una vez más la capacidad de la IA y la voz para la generación de contenidos adaptados a su audiencia.

lenguaje IA

El ahorro de tiempo y recursos se presentan como otras de las grandes ventajas de esta funcionalidad de la inteligencia artificial, ya que esta permite crear locuciones en menos tiempo, simplemente con el coste añadido de efectuar el pago de las herramientas de generación de voz.

Sin embargo, la generación de voces por IA también tiene una cara B relacionada con la incertidumbre y las preocupaciones éticas sobre su uso. La usurpación de la identidad y el uso indebido de las voces humanas plantean importantes riesgos legales y vaticinan la necesidad de establecer una regulación, como ya veníamos viendo con otros tipos de inteligencia artificial, como la IA generativa de ChatGPT. Encontramos ejemplos de “Deepvoice” más básicos como las notas de voz vía WhatsApp o Telegram creadas por la app Fake You que imitan la voz de celebridades como el futbolista portugués Cristiano Ronaldo, hasta ejemplos de uso de voz mucho más sofisticados. Por ejemplo, este verano se hacía viral en TikTok y en YouTube la composición creada por el productor y compositor Zaid, quien utilizó una inteligencia artificial, moduladora de voz para crear una colaboración musical entre los famosos cantantes Quevedo y Rosalía. Este productor chileno fue el encargado de escribir y producir la canción, dotándola del estilo y la esencia de los artistas reales. El resultado: ya acumula en YouTube más de 564 K visualizaciones.

Como era de esperar, ante el uso de las herramientas de voz basadas en IA han surgido ciertas inquietudes por parte de dobladores, locutores, traductores e incluso artistas. Estos pueden ver en ella una amenaza si se plantea un escenario en el que esta cada vez sea más precisa, hasta llegar al punto de que sea indistinguible de una persona real.

No obstante, aunque haya creaciones de voz muy complejas que parezcan verídicas, al igual que ocurre con la creatividad, la inteligencia artificial está lejos de sustituir a la voz humana. Más bien debe ser vista como una ayuda para que los procesos sean más eficientes y conseguir una mayor rapidez y agilidad en la creación de contenidos.

Asimismo, es indiscutible que el uso de herramientas de voz con inteligencia artificial también fomenta la accesibilidad. Por ejemplo, hasta el momento, el audio había sido una barrera en redes sociales. El texto en muchas plataformas ya desde hace tiempo incluía funcionalidades de transcripción simultánea, pero la única salida para la voz era su doblaje o subtitulado, algo que en muchas ocasiones por la necesidad de inmediatez del contenido no se podía efectuar.

Otro aspecto que impulsa es la creatividad y la personalización, pues posibilita una experiencia de usuario mucho más personalizada, al permitir a las marcas generar sus propios audios con mensajes más personales y adaptados a sus audiencias. Aunque no podemos dejar atrás que algunas ocasiones estas licencias creativas pueden rozar el límite con el daño a la propiedad intelectual.

Es cierto que cuando se usan voces que son artificialmente creadas o que forman parte de bancos de voces, en principio se está haciendo un uso más laxo y que puede generar menos polémica que con el uso de voces ya reales. Sin embargo, esta segunda opción puede resultar mucho más fresca y creativa que la primera.

De la misma forma, que las marcas venden sus licencias a terceros para que se puedan comercializar artículos con su imagen y derechos, ¿pasará lo mismo con la voz? Sea como sea está claro que, si existe un filón tan atractivo, la solución no va a ser ignorarlo, sino establecer los límites oportunos y explorar las vías que sean justas para todos los frentes.

Por Ana Perez y Carmen Ayala

Associate

Comunicación Digital

Artículos relacionados