La semana pasada asistimos al comienzo de lo que parece el próximo gran paso de la IA generativa. Anthropic lanzaba Computer Use, un agente de IA capaz de tomar el control de nuestro ordenador para realizar todo tipo de acciones complejas. La característica ha vuelto a animar el segmento, y ahora parece comenzar una particular carrera entre las grandes del segmento. Según datos de The Information, Google está en ello.
Project Jarvis. Este es supuestamente el nombre en clave del agente de IA de Google que tomará el control del navegador del usuario para realizar todo tipo de tareas. Entre ellas están la de llevar a cabo búsquedas e investigaciones desde el navegador, comprar un producto o reservar un vuelo.
Control del navegador, no del ordenador. Todo apunta a que la opción formará parte de Gemini, la familia de grandes modelos de lenguaje (LLM) de Google. A diferencia del agente de IA de Anthropic, Jarvis tomará control del navegador, no de todo el ordenador. Supuestamente estará especialmente diseñado para trabajar con Chrome, y está dirigido a "automatizar tareas cotidianas basadas en la web".
Chatbot, no me digas lo que necesito, hazlo. La opción Computer Use de Claude nos demostró la semana pasada cómo su chatbot era capaz no solo de conversar con el usuario y responder a sus preguntas, sino también de hacer cosas por él directamente a partir de órdenes complejas. Por ejemplo, "crea una web de los 90 sobre un grupo de rock ", como demostraron en Anthropic y como se muestra en ese vídeo que acompaña a estas líneas.
Por ahora, limitado y caro. Este tipo de opción está aún dando sus primeros pasos, y en Anthropic ya avisaban de que el rendimiento es lento. Lo es porque para funcionar, el sistema de IA no para de sacar capturas de lo que está mostrando la pantalla para luego analizarlas y actuar en consecuencia. Esa forma de automatización también es de momento costosa: son necesarias muchas llamadas a la API de Anthropic para completar tareas algo más complejas como la de la demo.
Vienen más agentes de IA. En las últimas semanas hemos ido viendo cómo los "mayordomos virtuales" parecen ser el próximo gran reclamo de la IA generativa. Además de Anthropic y el supuesto Project Jarvis de Google, tenemos a Microsoft, que presentó hace unas semanas Copilot Vision, que permite que interactuemos con los sitios web que visitamos. Además, se espera que Apple Intelligence también pueda reconocer lo que hay en nuestra pantalla para realizar acciones en ella al conectarse con distintas aplicaciones.
¿Cuándo llegará Jarvis? Se espera que Google presente el supuesto "Gemini 2.0" en diciembre, y puede que precisamente sea entonces cuando la compañía aproveche para desvelar también el lanzamiento de Project Jarvis, cuyo nombre definitivo no se conoce. En The Information indican que Google podría ofrecer este agente de IA a algunos usuarios de forma preliminar para que lo prueben y así lanzar este proyecto con el menor número posible de fallos y conflictos.
Imagen | MrHomegrown con Midjourney
En Xataka | OpenAI necesita algo más grande que un GPT-4 más potente para salvar su 2025. Su esperanza se llama Orion
Ver 1 comentarios