NVIDIA ya es la reina en hardware de IA. Ahora va a por GPT-4 y Llama y lanza su propio LLM "Open Source"

  • Su nueva familia de modelos multimodales (visión, texto) de pesos abiertos es prometedora

  • Competirá con GPT-4o o Gemini, pero lo hará especialmente con Llama 3

Nvidia
2 comentarios Facebook Twitter Flipboard E-mail

En el segmento de la IA hay dos grandes carreras, la del hardware y la del software. En la del hardware reina NVIDIA, que con sus GPUs para centros de datos —como las célebres H100 o las nuevas B200— se ha convertido en dueña y señora de este mercado.

En el terreno del software la cosa está más disputada. Los grandes modelos de lenguaje (LLM) son aquí absolutos protagonistas, y son varias las empresas que destacan. OpenAI lo hace con GPT-4o actualmente, pero tenemos también a Anthropic con Claude 3.5, Google con Gemini o Meta con Llama, entre otros protagonistas.

A todos ellos les ha salido un nuevo competidor: NVIDIA. La empresa parece no conformarse con dominar en el segmento del hardware, y ahora quiere competir también con su propio LLM, al que ha bautizado como NVLM 1.0. Sus responsables han publicado un estudio detallando cómo lo han desarrollado.

En realidad NVLM 1.0 es una familia de LLMs multimodales que según la compañía ofrecen resultados especialmente destacables en los ámbitos de la visión y el lenguaje, rivalizando con otros modelos como GPT-4o.

Captura De Pantalla 2024 10 02 A Las 9 55 02

NVLM 1.0 cuenta con un modelo de 72.000 millones de parámetros (NVLM-D-72B) que es el más capaz y ambicioso de la familia por el momento y que según NVIDIA es capaz de comportarse mejor que Llama 3 405B (un modelo mucho mayor) en diversas pruebas de rendimiento.

Estamos además ante un modelo "Open Source" de pesos abiertos, y los responsables de su desarrollo prometen publicar el código utilizado para entrenar el modelo, algo que será especialmente útil para desarrolladores que quieran utilizarlo para sus propios proyectos y 'forks'.

Captura De Pantalla 2024 10 02 A Las 9 57 05

NVLM-D-72B —no estaría de más bautizarlo con un nombre más sencillo— es prometedor a la hora de analizar entradas visuales y de texto: es capaz de interpretar memes o analizar imágenes, pero también resolver problemas matemáticos paso a paso.

Lo hace, como explica NVIDIA, aplicando esas versátiles capacidades multimodales al "usar OCR, razonamiento, localización, sentido común, conocimiento del mundo y capacidad para programar".

Estamos pues ante un nuevo e interesante rival que lo es más por venir de donde viene. Queda por ver la evolución y futuro desarrollo del modo, pero desde luego esa decisión de ofrecerlo de forma abierta hace que compita directamente con Llama y se postule como una alternativa especialmente interesante para desarrolladores.

En Xataka | Meta quiere meter Llama en nuestros móviles, pero lo tiene crudo: pasó lo mismo con los navegadores web

Inicio