"Teléfono, resuélveme la vida": el agente IA de Anthropic quiere que la IA cambie nuestras vidas de verdad

  • La función Computer Use de su chatbot Claude es una de las más prometedoras de los últimos meses

  • Permite vislumbrar el futuro en el que los agentes de IA hagan muchas cosas por nosotros

  • Pero de momento la tecnología es algo rudimentaria, limitada... y cara

Robot1
Sin comentarios Facebook Twitter Flipboard E-mail

Nuestros ordenadores hacen lo que queremos, pero lo hacen por pasos y siempre tras nuestra interacción distinta. Si queremos borrar un fichero tenemos que abrir el explorador de ficheros, ir a la carpeta donde está, seleccionarlo y enviarlo a la papelera. ¿Qué pasaría si pudieramos decirle con una sola orden al ordenador simplemente que encontrase el fichero y lo borrase?

Eso es lo que plantea la función 'Computer Use' de Claude, el chatbot de Anthropic. Presentada esta semana en formato casi experimental, esta característica permite darle órdenes a nuestro ordenador para que haga cosas que normalmente necesitaríamos hacer con ratón y teclado.

Se trata de una de las demostraciones más convincentes que hemos visto de cómo los agentes de IA pueden efectivamente simplificar nuestra vida. De los chatbots que nos dan respuestas ("este es un buen hotel") podemos pasar a agentes que hagan cosas con esas respuestas ("te he reservado este hotel para el sábado"). El cambio de paradigma es brutal.

Eso hace pensar en que nuestros ordenadores y sobre todo nuestros móviles nos resolverán la vida. Al menos un poco. Se convertirán en secretarios/mayordomos a los que pedirles cosas como si se las estuviéramos pidiendo a un secretario humano.

La magia está en algo que parece trivial pero no lo es: los nuevos sistemas de IA de Anthropic pueden ver lo que hay en pantalla, reconocerlo y realizar acciones con ratón y teclado.

Es algo parecido a lo que Microsoft plantea con Windows Recall o Google plantea con su nueva opción de Pixel Screenshots, porque en ambos casos se sacan capturas de pantalla para reconocer, etiquetar y analizar información de esas capturas. En esos casos el objetivo es poder consultar esa información. Con "Computer Use" lo que podemos hacer es actuar sobre ella, lo que es un paso adelante muy importante.

Algunos usuarios ya han mostrado su potencial

De momento la propuesta de Anthropic se puede probar de forma limitada: han querido evitar problemas. Como explicaba en sus pruebas el experto Simon Willison, La función se utiliza dentro de un contenedor de Docker con Ubuntu 22.04 preconfigurado con varias aplicaciones y un servidor VNC, que es el que permite que veamos todo en nuestra pantalla.

Él hacía algunas pruebas sencillas como navegar a su sitio web y buscar si había escrito algo sobre "pelícanos", compilar y ejecutar el típico "Hello World" en C, instalar el paquete ffmpeg en Ubuntu o intentar solucionar un Sudoku, algo en lo que Claude por lo visto fracasó estrepitosamente.

Esas pruebas, realizadas con el entorno aislado de Anthropic, pronto se han quedado en algo curioso pero que ha demostrado que se puede ir mucho más allá. Mckay Wrigley, un experto en IA, mostraba en un vídeo en X (antes Twitter) cómo había logrado controlar su iPhone al conectarlo a su MacBook Pro en modo espejo y luego utilizar comandos para hacer distintas cosas sobre la pantalla del móvil.

Los ejemplos que muchos usuarios han compartido en plataforams como X son llamativos y demuestran dos cosas. La primera, que esta tecnología tan solo está dando sus primeros pasos y por tanto tiene limitaciones importantes tanto en velocidad como en capacidad. La segunda, que su potencial es enorme

Lo vemos por ejemplo en las pruebas que un usuario hacía al intentar lograr que el chatbot jugase a Doom de forma autónoma, otro que lo probó en combinación con Figma para diseño de una interfaz de usuario, otro que pidió una pizza, u otro que creó una aplicación para Windows, macOS y Linux con la que controlar nuestro ordenador. 

Otro desarrollador llamado simplemente 'killian' en X demostraba cómo herramientas ya conocidas como open-interpreter (que permite ejecutar código con grandes modelos de lenguaje como el de Claude) se puede combinar con esta nueva función de Computer Use. El resultado: salirte del entorno aislado de Anthropic para, efectivamente, automatizar cosas en tu propio ordenador.

Este desarrollador avisaba: la interacción no es especialmente rápida, y Claude se toma su tiempo antes de hacer cada cosa porque tiene que analizar toda la pantalla e ir poco a poco ejecutando las acciones que teóricamente van a dar como resultado eso que le hemos pedido.

Hay otro factor importante aquí: el coste. Para poder usar todas estas funciones necesitaremos créditos de Claude, y esos créditos cuestan dinero. Un usuario apodado "near" en X mostraba cómo había encargado su comida con la plataforma Doordash desde su portátil, pero lograrlo —unos 15 minutos de uso del agente— implicó consumir 2,5 millones de tokens en Claude 3.5 Sonnet. El precio actual de esa API es de 15 dólares por cada millón de tokens de salida (3 dólares para los tokens de entrada, sus peticiones), así que pedir esa comida le salió bastante cara.

No obstante, es normal que estos primeros experimentos sean costosos: la tecnología está aún algo verde y su consumo de recursos es notable. Sin embargo, es de esperar que tanto la eficiencia como el coste mejoren de forma notable, lo que teóricamente hará que tengamos acceso a opciones mucho más potentes en los próximos meses. Esa parece desde luego ser una de las apuestas de Anthropic con esta propuesta, y desde luego la opción es muy, muy prometedora.

Imagen | Danhasnotes con Midjourney

En Xataka | Microsoft comienza a ofrecer agentes de IA autónomos. De momento son recetas IFTTT hipervitaminadas

Inicio