Con R1, DeepSeek ha logrado algo que parecía imposible: entrenar un modelo de IA con capacidades de razonamiento comparables a las de OpenAI... pero sin depender de enormes conjuntos de datos etiquetados.
Su enfoque basado en el aprendizaje por refuerzo abre la puerta a que haya muchos más grupos desarrollando IAs avanzadas.
Por qué es importante. Este avance cambia las reglas que asumíamos en el desarrollo de IA. Hasta ahora, crear modelos con capacidad de razonamiento requería enormes cantidades de datos etiquetados y recursos computacionales solo al alcance de gigantes como OpenAI, Meta o Google.
DeepSeek ha demostrado que hay un camino alternativo mucho más eficiente.
Entre bambalinas. El proceso de entrenamiento de DeepSeek R1 se divide en dos fases principales:
- Primero, R1-Zero aprende a razonar exclusivamente mediante aprendizaje por refuerzo, explorando soluciones por prueba y error.
- Después, R1 refina estas capacidades con una pequeña cantidad de datos de "arranque en frío" para mejorar aspectos como la legibilidad.
El modelo utiliza una arquitectura de Mezcla de Expertos (MoE) con 671.000 millones de parámetros totales, pero solo activa 37.000 millones por consulta. Esto es lo que le permite obtener un rendimiento comparable al de o1 de OpenAI con una fracción de los recursos computacionales.
El contraste. Mientras OpenAI invierte cientos de millones en datos etiquetados y computación, DeepSeek ha conseguido resultados similares con menos de 6 millones de dólares (inversión declarada).
Sus modelos destilados más pequeños, desde 1.500 millones hasta 70.000 millones de parámetros, también han logrado un rendimiento sorprendente.
El ejemplo. Es un ejemplo tonto, pero precisamente por eso queríamos comprobar su forma de razonar ante el tipo de pregunta que descoloca. Le hicimos la pregunta "Si Xataka fuese un equipo de fútbol español, ¿cuál sería?".
Su larguísima respuesta iba autoreafirmándose y luego descartando la conclusión una y otra vez.
- Primero se limitó a describir Xataka y a hacer un repaso superficial de los principales clubes españoles.
- Luego se planteó si seríamos el Athletic, pero entendió que aunque su política de "solo jugadores vascos" es única, eso no es comparable con la innovación de Xataka. Hizo algo similar con Valencia, Barça y Rayo argumentando distintas causas para descartarlos.
- Nos vinculó al Real Madrid por nuestro, ejem, liderazgo en masa social... pero convino que eso no va ligado a la innovación.
- Pasó por Eibar y Getafe, descartando ambos... pero luego volvió al Eibar ya que "cayó" en que usan analítica y tecnología. Al final lo descartó por ser un club pequeño.
- Comentó que el liderazgo de Xataka encaja con un estilo ofensivo como el del Barça de Guardiola o el contraataque del Madrid de Ancelotti...
- ...y finalmente llegó a Villarreal y Girona.
- Tras algunos razonamientos, se quedó con el Girona, argumentando su fuerte cultura del dato, su enfoque innovador, su crecimiento reciente y su visión global (es parte del City Football Group), además de añadir algo llamativo: "Ambos combinan recursos limitados con inteligencia estratégica: el Girona maximiza su plantilla con scouting avanzado, mientras Xataka optimiza contenido relevante y accesible para una audiencia masiva".
Su conclusión final fue "El Girona FC encarna la esencia de Xataka: modernidad, adaptación tecnológica y una narrativa fresca que desafían el statu quo". 🚀⚽
Leer todo su razonamiento fue espectacular.
Punto de inflexión. Este desarrollo anticipa la entrada en una nueva era donde la innovación en IA no dependerá exclusivamente del acceso a grandes recursos, como ha venido ocurriendo hasta ahora.
Las técnicas de aprendizaje por refuerzo y destilación de modelos pueden nivelar el terreno de juego entre grandes empresas (o startups con inversiones de nueve ceros) y equipos mucho más pequeños.
Profundiza. Este avance va más allá de simples mejoras incrementales. DeepSeek ha demostrado que es posible construir modelos que razonen de forma autónoma sin tener que mostrarles miles y miles de ejemplos.
El aprendizaje por refuerzo permite que el modelo descubra por sí mismo estrategias efectivas de razonamiento, de forma similar a cómo los humanos aprendemos a resolver problemas.
En Xataka | He probado DeepSeek en la web y en mi Mac. ChatGPT, Claude y Gemini tienen un problemón
Imagen destacada | Xataka con Mockuuups Studio
Ver 15 comentarios