Mustafa Suleyman tiene ya muchas tablas en el campo de la inteligencia artificial. Fue confundador de DeepMind y más tarde de Inflection AI, y en 2024 acabó siendo fichado por Microsoft para dirigir la división de inteligencia artificial.
Hemos empezado ya a ver los primeros resultados: esta semana asistimos a la presentación de una avalancha de novedades de IA tanto en Microsoft Copilot como en Windows 11. La apuesta de Microsoft es contundente, pero en realidad esto es solo el principio.
Lo ha dejado muy claro el propio Suleyman, que en una entrevista con Wired explicaba que para él tres grandes fases de desarrollo de la inteligencia artificial:
- Fase 1: en ella la IA es capaz de procesar la misma información que nosotros procesamos. Verá lo que vemos, escuchará lo que escuchamos y consumirá el texto que nosotros consumimos. Es la etapa en la que nos encontramos actualmente y que Microsoft acaba de potenciar con desarrollos como Copilot Vision y Copilot Voice.
- Fase 2: una vez conseguidos todos los objetivos de la primera fase, es importante lograr que la IA tenga una memoria persistente a largo plazo con la que se pueda crear una especie de conocimiento y comprensión compartida y que permita mantener conversaciones e interacciones sin las limitaciones actuales y enriquecida por todos esos datos, experiencia y conocimientos adquiridos.
- Fase 3: por último, en la última fase llegaremos a contar con agentes de IA, es decir, con sistemas de IA capaces de interactuar con terceras partes enviándoles instrucciones y realizando acciones. Comprar cosas, hacer reservas, etc.
Suleyman explicaba que en Microsoft ya tienen prototipos de las fases 2 y 3 en desarrollo. Especialmente interesante es lo que reveló sobre esos proyectos preliminares en el campo de los agentes de IA. "¿Pueden salir [a internet] y comprar cosas?", le preguntaban en la entrevista. A eso el directivo contestaba lo siguiente:
"Falta mucho, pero sí, hemos cerrado el círculo, hemos hecho transacciones. El problema de esta tecnología es que puede funcionar el 50% o el 60% de las veces, pero alcanzar el 90% de fiabilidad supone un gran esfuerzo. He visto algunas demostraciones impresionantes en las que puede ir de forma independiente y hacer una compra, etcétera. Pero también he visto algunos accidentes graves en los que no sabe lo que está haciendo..."
Esas dos fases de las que habla Suleyman son importantes, pero la empresa no es la única que trabaja en esos campos.
OpenAI es el ejemplo más claro: ChatGPT anunció a principios de año que también comenzaba a tener cierta memoria a corto plazo para poder seguir las conversaciones con sus usuarios, por ejemplo. No solo eso. También prepara una revolución en forma de agentes de IA, inspirada parcialmente en la propuesta del Rabbit R1.
Sin embargo, Suleyman destacaba un gran reto más a la hora de desarrollar esos futuros modelos de IA:
"Lo más importante es encontrar la manera de crear una tecnología fiable, porque va a ser una experiencia muy íntima y personal. Tenemos que hacer bien la parte de seguridad y la parte de privacidad, por supuesto. Pero creo que lo importante es diseñar la conversación de modo que el agente sea capaz de articular los límites, de modo que pueda decir que 'no estoy dispuesto a participar en eso'".
Es, en efecto, todavía más importante que lo de más. Modelos como el recién presentado o1 de OpenAI —utilizado por Microsoft en su característica Think Deeper— precisamente van dirigidos a que la IA "razone" y se equivoque menos. O lo que es lo mismo: que sea más fiable.
Estos sistemas tratan además de evitar ser usados de formas inadecuadas o peligrosas, y una vez adquieran esas nuevas capacidades —memoria, agentes de IA— su potencial como herramientas se disparará en el buen sentido, pero también en el malo: hay que establecer mecanismos que eviten o al menos mitiguen esos posibles riesgos. Y en ello está trabajando Microsoft
Imagen | Steve Juvertson
Ver 11 comentarios