Desde los recientes anuncios de ChatGPT de OpenView, Bard de Google y ChatBot de Baidu, la industria se ha vuelto frenética al avanzar productos y soluciones de IA generativa. Brainy Insights estima que el mercado de la IA generativa crecerá de USD $8.65 mil millones en 2022 a USD 4188.62 mil millones para 2032. Esto se traduce en más del 36% de CAGR, lo que convierte a la IA generativa en una de las áreas más candentes para elevar las innovaciones de la IA. El segmento de software representará la mayor participación de ingresos del 65.0% en 2021 y se espera que mantenga su posición durante el período de pronóstico.
¿Qué es la IA Generativa?
La IA generativa es una forma de IA que produce varios tipos de contenido, incluyendo texto, imágenes, audio y datos sintéticos. El reciente zumbido en torno a la IA generativa se ha impulsado por la simplicidad de las nuevas interfaces de usuario para crear texto, gráficos y videos de alta calidad en cuestión de segundos. Aunque no es una tecnología nueva, la introducción de redes adversarias generativas o GANs, que es un tipo de algoritmo de aprendizaje automático, ha avanzado las innovaciones en el uso de esta forma de IA.
COQUI – La IA Generativa Revolucionará la Voz
La emocionante noticia es que los antiguos empleados de Mozilla han recaudado $3.3 millones para Coqui, una síntesis de voz generativa de IA para todos los creativos. Antes de fundar COQUI, el CEO Kelly Davis lideró el Grupo de Aprendizaje Automático de Mozilla, que se centró en la tecnología del habla. Antes de eso, trabajó en el Instituto Max Plank de Física Gravitacional y también realizó su trabajo de doctorado en la Teoría de Supercuerdas.
La compañía fue fundada en 2021 por Eren Gölge, Josh Meyer, Kelly Davis y Reuben Morais, todos ellos trabajaron en el grupo de aprendizaje automático de Mozilla. El financiamiento provino de jugadores importantes: ScaleX Ventures, Mango Capital, DNX Ventures y ángeles. En Mozilla, pasaron años trabajando en tecnología de voz, pero encontraron que los enfoques tradicionales para crear y controlar voces, en el mejor de los casos, eran insuficientes y, en el peor de los casos, no existían.
Los fundadores de Coqui tienen una estrategia audaz para proporcionar voces de IA generativas para desarrolladores de videojuegos, postproducción de audio y todos los creativos. Cuando le pregunté a Kelly cuál era su visión de la empresa, dijo en pocas palabras: Coqui quiere ser Photoshop para la voz.
Una visión audaz, pero lo que ya han germinado es muy poderoso, ya que Coqui permite a los creativos crear, lanzar y dirigir fácil y rápidamente actores de voz de IA sin todo el engorro general. Los usuarios pueden crear fácilmente voces personalizadas a partir de una indicación, por ejemplo, «anciano que fuma dos paquetes al día»; lanzar voces fuera de la caja y personalizadas en sus proyectos; y su software dirige cada matiz de su actuación. Las voces de IA de Coqui no solo ahorrarán tiempo, dinero y dolores de cabeza, sino que también reducirán drásticamente el tiempo dedicado a lanzar en el estudio de grabación y en la postproducción.
«Comenzamos Coqui porque, utilizando enfoques tradicionales, pasábamos meses recopilando datos de voz personalizados, semanas entrenando modelos de voz personalizados y aún así encontramos imposible dirigir cada matiz de la actuación de una voz. ¡Era frustrante! Tenía que haber una mejor manera», dijo el cofundador y CEO Kelly Davis. «Más tarde, ¡nos dimos cuenta de que todos tenían el mismo problema! Así que nos pusimos manos a la obra en una solución».


La voz es una espada de doble filo para los creativos.
Con el más mínimo cambio de tono, puede pintar el cuadro más detallado de nuestras vidas interiores; sin embargo, es una pesadilla para trabajar con ella. El casting, la grabación, la dirección, la programación, la reserva de un estudio y volver a hacerlo todo en la postproducción. Los creativos anhelan una solución simple, y Coqui satisface esa necesidad. Coqui proporciona voces AI de alta calidad, listas para usar; clonación de voz rápida; de la voz a la idea; y la capacidad de dirigir cada matiz del rendimiento de la voz. Es un lugar único para el casting, la grabación, la dirección y la programación. Todo, al alcance de tus dedos y todo en el momento y lugar que elijas.
«Después de hablar con un montón de creativos que trabajan en videojuegos, postproducción de audio, doblaje y muchas otras disciplinas, sabemos que la vieja manta del casting, la grabación, la dirección, la programación… está ralentizando el desarrollo y costando tiempo y dinero. La voz debe ser arrastrada al siglo XXI, y la IA generativa lo está haciendo», dice Kelly Davis, cofundador y CEO de Coqui y anterior jefe del grupo de aprendizaje automático de Mozilla.
La financiación se utilizará para hacer crecer los equipos de ventas y desarrollo y para acelerar el crecimiento en el mercado estadounidense.
La revolución de la industria de la voz está en todas partes, y es una gran oportunidad para reducir los costos de producción, acelerar el desarrollo y simplemente iterar más rápido. Coqui está llevando esta revolución a la voz. Con voces AI de alta calidad, listas para usar; clonación de voz rápida; de la voz a la idea; y la capacidad de dirigir cada matiz del rendimiento de la voz, Coqui es tu entrada a la revolución generativa de la voz.
Resumen
No hay duda de que la revolución de la voz está en marcha y empresas como Coqui, aunque ingresan más tarde que otros jugadores de la industria, como Altered AI, que proporciona tecnología de voz a voz, Replica AI, que proporciona integración de motores de juegos o Spotify, que recientemente adquirió Sonantic y también proporciona voces naturales.
Lo que destaca de Coqui es la profundidad de experiencia de los fundadores en el campo de la voz y la inteligencia artificial/aprendizaje automático. Tener un equipo de fundadores tan unido les da una ventaja pegajosa que les servirá bien a medida que avancen en la industria de la voz que requiere grandes mejoras de productividad (optimización de procesos de flujo de trabajo).
Roger Love, uno de los líderes de voz más icónicos del mundo (es decir, entrenó a Bradley Cooper para cantar en A Star is Born y ayudó a Jeff Bridges a ganar un premio de la academia por su voz cantando en Crazy Heart) es el CEO y cofundador de Emotional Cloud, una empresa que utiliza inteligencia artificial generativa para permitir una conversación más precisa entre el hombre y la máquina y viceversa. Está a la vanguardia de la comprensión del clonaje de voz y entiende que sin la profundidad de precisión emocional, estos métodos de inteligencia artificial no avanzarán realmente en la civilización humana, más bien podríamos estar en riesgo de erosionar lo que es exclusivamente humano.
Las señales positivas son que Coqui presta especial atención a la variabilidad y la valencia emocional en los patrones de voz.
Dicho esto, todavía existen riesgos importantes para estos tipos de innovaciones disruptivas de voz que afectarán a los trabajos de actores de voz y otros creativos. Sí, habrá una mayor eficiencia para reducir costos y la industria de la voz necesita una revisión masiva en varios mundos creativos, desde el texto hasta los gráficos, el video y la voz, pero también habrá un desequilibrio, a menos que nos aseguremos cuidadosamente de una mayor responsabilidad social y una mayor reflexión sobre la transformación de la industria.
Esta no es una nueva realidad de innovaciones disruptivas, pero es un área donde se necesitarán controles regulatorios éticos y responsables de inteligencia artificial cada vez mayores para garantizar que la responsabilidad social se tenga en cuenta continuamente en todas las industrias de inteligencia artificial.
Innovaciones como Coqui están creando ondas sonoras y sus esfuerzos sin duda superarán a otros jugadores de la industria.