Kyutai, una startup francesa respaldada por grandes nombres del mundo tecnológico y financiero, ha lanzado Moshi, un asistente de IA que puede hablar y escuchar en tiempo real, algo similar a lo que prometió OpenAI con GPT-4o pero que ha tenido que atrasar.
Por qué es importante. Moshi representa un salto en la IA conversacional al ofrecer capacidades que OpenAI todavía no ha podido implementar. Junto a Mistral representa el creciente papel europeo en la carrera de la IA.
El contexto. Kyutai fue fundada en noviembre de 2023. Llegó con 300 millones de euros de inversión para entrar en la carrera de la IA con un enfoque claro: código abierto y transparencia.
Lo hizo de la mano de varios cerebros:
- Xavier Niel: multimillonario francés y fundador de Iliad, una teleco.
- Rodolphe Saadé: multimillonario franco-libanés y CEO de CMA CGM, gigante del transporte marítimo.
- Eric Schmidt: expresidente ejecutivo de Google e inversor tecnológico.
- Patrick Pérez: el CEO de Kyutai, exdirector de Valeo, proveedor de fabricantes de coches con más de un siglo de antigüedad.
- Hervé Jégou: director científico de Kyutai, antiguo miembro de Google DeepMind y Meta.
Las claves de Moshi:
- Es capaz de expresar 70 emociones y estilos diferentes.
- Procesa y genera audio y texto de forma simultánea. Esto le permite "pensar mientras habla".
- Funciona en tiempo casi real, su latencia es de 200 milisegundos.
- Usa Helium, un modelo de lenguaje de 7.000 millones de parámetros.
- Puede ejecutarse en un ordenador para el público generalista.
Tras la tecnología. Helium y Moshi han sido entrenados con 100.000 conversaciones sintéticas "de estilo oral", según la empresa, y ha usado veinte horas de audio de una actriz de voz llamada "Alice". No han querido desvelar su nombre completo. Por algo será.
Sus creaciones incorporan una marca de agua que indica que es contenido generado por una IA, una forma de abordar las preocupaciones éticas y de seguridad en torno al contenido sintético.
Los próximos pasos. Kyutai va a tener que buscar ese equilibrio entre innovación y seguridad que tanto está dando que hablar a proyectos anteriores. Su enfoque de código abierto puede ayudarle a acelerar.
- Kyutai planea liberar el código fuente, el modelo de 7.000 millones de parámetros, el códec de audio y el stack completo.
- Las versiones futuras (1.1, 1.2 y 2.0) refinarán el modelo a partir del feedback que den los usuarios.
- La empresa está buscando una licencia lo más permisiva posible para fomentar la adopción y la innovación generalizada.
En perspectiva. Moshi representa un gran avance en IA conversacional, pero también en el equilibrio de poder en el mundo de la tecnología. Tiene el respaldo de figuras influyentes y un enfoque en transparencia y código abierto que puede redefinir el panorama de la IA.
De paso, busca desafiar el dominio de Silicon Valley desde el otro lado del Atlántico para posicionar a Europa como alguien importante en el futuro de la IA.
De momento puedes probarlo online.
Imagen destacada | Xataka con Mockuuups Studio
En Xataka | El cliente de ChatGPT para Mac es el último ejemplo de que necesitamos más seguridad en IA
Ver 6 comentarios