Ha sido uno de esos días grandes. En unas pocas horas, Google y OpenAI mostraron sus últimas innovaciones en inteligencia artificial. Primero fue Google con Gemini 1.5, su modelo de IA con un millón de tokens para aventajar a GPT-4 Turbo. Inmediatamente después OpenAI contraatacó con Sora, su modelo de texto a vídeo para generar clips de hasta 60 segundos.
Y las reacciones de la comunidad no han podido ser más distintas. La nueva versión de Gemini es muy prometedora y apunta altísimo, pero hay una diferencia clara con Sora. Mientras Google nos da cifras de vértigo, OpenAI nos enseña vídeos. Si una imagen vale más que mil palabras, en este caso un vídeo vale más que mil cifras.
Son dos estrategias muy distintas, pero parece claro cuál está generando más atención. Del anuncio de Gemini 1.5 nos quedamos con que mientras GPT-4 Turbo tiene 128.000 tokens, Gemini llega a un millón. Estos tokens son un indicativo de la capacidad de la IA de recibir mucha información a la vez. Es decir, Gemini es capaz de leer una mayor cantidad de libros a la vez o de procesar una mayor cantidad de tiempo de vídeo. En resumen: es más rápida y eficiente. Hasta ahí bien.

Lo que ocurre es que esta promesa de un mayor rendimiento no sirve de mucho si no tenemos presente ejemplos llamativos. Tras probar Gemini en el móvil, nuestra experiencia ha sido más o menos buena pero no revolucionaria.
Cifras versus ejemplos
Si uno mira el comunicado de Gemini 1.5 de Sundar Pichai y Demis Hassabis veremos un texto con muchos ejemplos y muchísimas cifras. Tokens, arquitectura, tiempos de ejecución y líneas de código. ¿En qué se traduce eso en nuestras vidas diarias? Difícil determinarlo en el corto plazo.
Con Sora ha sido muy distinto. En primer lugar, la página de Sora viene con múltiples ejemplos de vídeos. El resultado es impresionante, con un realismo no visto hasta ahora. Pero es que incluso si leemos el texto técnico está plagado de ejemplos gráficos.
Lógicamente la comparativa no es justa. Sora es una herramienta de vídeo y Gemini es un modelo de IA. Son dos proyectos muy distintos, pero precisamente por ello la reacción que generan es diferente. OpenAI sabe que su mayor baza está en lo llamativo que pueden llegar a ser la IA, para Google la IA parece que sea un impulso a optimizar su gran engranaje.
Todavía cuesta encontrar ejemplos en Gemini que no se puedan hacer desde hace tiempo en ChatGPT. Unos y otros consiguen mejores resultados en función del prompt pero de manera general, están bastante a la par. Pero los movimientos de OpenAI dejan claro de un vistazo que están un paso por delante.
.@OpenAI SORA vs @pika_labs vs @runwayml vs @StabilityAI Video.
— Gabor Cselle (@gabor) February 16, 2024
I gave the other models SORA's starting frame. I tried my best prompting and camera motion techniques to get the other models to output something similar to SORA.
SORA's just much better at longer scenes. pic.twitter.com/TK7QR6jaUK
Gabor Cselle, ex directivo de Google, publica una comparativa entre el vídeo generado por Sora y lo que ofrecen alternativas como Pika, RunwayML o Stable Video y su conclusión es que Sora es un paso adelante claro, sobre todo en consistencia y duración. "Revolucionario", describe.
Sora no está disponible al público todavía, pero ya ha enseñado decenas de ejemplos. Vídeos tan sorprendentes que no hace falta mucha más explicación para saber que estamos ante un salto importante. Algo que Google todavía no ha logrado.
En Xataka | Google iba a la zaga de OpenAI, pero acaba de adelantarle en algo muy importante: la IA para móviles
Ver 14 comentarios
14 comentarios
willsk94
El problema con Gemini es que Google quiere sacar su versión de chatGPT y decir que la suya es mejor, pero no está sorprendiendo porque a nadie le importa que ellos hagan lo mismo que otros, no es nuevo y no aporta nada.
dabelo
He visto los videos y es impresionante, existen algunos fallos como gatos con 5 patas,etc... pero de calidad va sobrado, ShutterStock y alternativas deberían estar asustadas, porque las posibilidades de Sora son inmensas.
pezsincabeza
Impresionante! mis dieses
pedrosalguera
Pero ahora aparecerá alejo1 diciendo que estas IA no sirven para nada, que son un desperdicio de dinero porque no son IA de verdad, tranquilos
Usuario desactivado
Es lo mismo que quedar fascinados por un caleidoscopio y decepcionados por el prompt C:\
Esta IA basada en LLM es buena para generar imagenes, texto creativo y videos lindos. Pero no razona.
daniel3241
Es una maravilla, es verdad que tiene sus pequeños fallos pero bueno así se empezó con las imágenes y ahora han mejorado mucho y apenas han pasado 2 años. Lo mismo que con ChatGPT. Una tecnología como esa implementada en el sector de los videojuegos junto con las Apple Vision pro seria una autentica locura. XD
pajaritosamenomejodas
Que leches chatgpt si no es ni la sombra de DAN? Y Gémini? La próxima amenaza será copilot que es openai y su inteligencia da para copiar las respuestas de la primera entrada del buscador, así, tal cual. Y Apple que a buenas horas.
Donde estan llama y mixtral? No existen 🥱.... Pero si con 7B de parámetros ya compiten y en muchos casos no tienen competencia. Y es que cada día sale un modelo preentrenado mejorado, con menos carga de parámetros pero mayor poder generativo.
Pero es que llama2 y mixtral no pagan publicidad o que? 🤔
Vamos, es como seguir dándole bola al dal.le cuando stable difussion le lleva tres vueltas. Y no, Bill Gates Jr. no compró github para apoyar al código abierto. Más bien se aprovecha de los desarrollos de la plataforma y de Linux para hacer un apaño con eso que llamaban sistema operativo. Que ya parece medio decente al menos.
Ya veremos qué pasa con los contenidos de github. Yo uso gitlabs, que me vale igual y no es propiedad de chorizos filantropófagos.
aplatanado
Naaa lo que pasa es que la gente y los medios tienen poca memoria y se empeñan en comparar peras con manzanas. Aparte te las modas. OpenAI hace buenas campañas y ahora es la niña bonita.
Google publica muchas cosas y avances importantes pero no le da bombo a todo. Ya en enero Google mostró avances en video, superiores a cualquier cosa que OpenAI tuviera pero ya nadie se acuerda. Entonces todo era que estaban por detrás en ChatGPT. Ahora sacan algo así pero se lo compara con un IA de video. No se yo...
Es complicado saber quién va por delante sin estar dentro.
motoserra69
Ni sabes de AI...ni sabes lo que dices....