Buscar respuestas en Stack Overflow o hacer búsquedas en Google ya no mola tanto. Muchos programadores han encontrado en ChatGPT una herramienta estupenda para agilizar su trabajo y depender menos de las mencionadas plataformas. Sin embargo, el chatbot de inteligencia artificial (IA) de OpenAI está lejos de ser perfecto, y fiarnos completamente en él puede no ser lo más acertado.
ChatGPT, al igual que cualquier otra herramienta basada en modelos de lenguaje grande (LLM), tiene varias limitaciones. La propia compañía liderada por Sam Altman señala en su página web que el chatbot “puede cometer errores” e invita a verificar la información importante. Ahora bien, en el mundo de la programación, ¿qué tan bien (o mal) hace su trabajo? Veamos lo que dicen unos investigadores.
Cuando más del 50% de las respuestas son incorrectas
Un grupo de investigadores de la Universidad de Purdue presentó este mes una investigación motivada por la “creciente popularidad de ChatGPT” y la dinámica de los LLM para “generar textos inventados” que generalmente son difíciles de reconocer por usuarios que carecen de cierta experiencia en el tema en cuestión. Muchas respuestas, de hecho, son plausibles, pero erróneas.
“Descubrimos que el 52% de las respuestas de ChatGPT contienen información errónea”, afirman los investigadores. En este sentido añaden que el 77% de las respuestas son más detalladas que las respuestas humanas (lo que no garantiza su precisión) y que el 78% de estas sufren de diferentes grados de inconsistencia. Se trata de cifras que realmente no pasan desapercibidas.
Para obtener estos valores, los investigadores tomaron 517 preguntas de programación de Stack Overflow. Después, examinaron la corrección, coherencia, exhaustividad y concisión de las respuestas con ChatGPT basado en GPT-3.5 y realizaron un análisis lingüístico a gran escala, como un estudio con usuarios para comprender las respuestas de ChatGPT desde diferentes puntos de vista.

Los investigadores de Purdue escogieron GPT-3.5 en lugar de GPT-4, la última versión del modelo de lenguaje al momento de realizar el estudio, que es la versión gratuita más ampliamente utilizada. Cabe señalar que también hicieron pruebas paralelas con GPT-4 y llegaron a la conclusión de que, si bien el modelo más nuevo funciona “ligeramente mejor”, ambos tienen una tasa de inexactitud alta.
Cuando hablamos de ChatGPT estamos haciendo referencia a un chatbot de IA que puede ser utilizado para diferentes tareas. Desde ayudarnos a programar hasta escribir una carta. En el mundo de la programación también tenemos otras herramientas impulsadas por IA diseñadas específicamente para desarrolladores, como GitHub Copilot, que se integra a los entornos de desarrollo.
En cualquier caso, estamos presenciando en directo como la IA cambia la forma en la que trabajamos, y en este proceso vamos descubriendo bondades y defectos de las herramientas que utilizamos. Por lo pronto, ChatGPT parece estar lejos de poder superar las respuestas humanas en el ámbito de la programación. De hecho, está prohibido publicar respuestas con esta herramienta en Stack Overflow.
Imágenes | Gema Saputera | Rivage
En Xataka | Elon Musk y xAI quieren ganar la guerra de la IA: acaba de recibir 6.000 millones de dólares para lograrlo
Ver 28 comentarios
28 comentarios
Usuario desactivado
Estáis equivocados. No es vuestro copiloto. Es un aprendiz, y sois vosotros los que le estáis enseñando con cada equivocación.
Usuario desactivado
🍿🍿🍿 comiendo esto mientras espero a ver cómo le mete mano la IA a las aplicaciones legacy del 99% de las empresas.
luiszavala
Para expresiones regulares me ha sido útil.
elpeina
Tiene cosas erróneas pero yo en lo que he probado haciendo preguntas no muy complicadas en programación pues me ha dado un resultado donde gran parte es correcto lo cual me quita bastante trabajo
alpy
Como todo el la vida. La IA es una herramienta, como un martillo o una brocha. Hay que saber de qué están hechos y cómo funcionan para sacarles rendimiento. Usarlos sin conocimiento es tanto ineficiente como peligroso.
Usuario desactivado
Es una herramienta. Un caleidoscopio que se usa como si se tratara de una camara de fotos, o mas bien un cuchillo usado como destornillador.
No se puede pretender logica y razonamiento de un LLM.
emedoble
Confirmo. Estoy practicando JavaScript y la más de la mitad de códigos de Copilot no funcionan o son ineficientes creando líneas, pasos y variables de más para hacer una operación que se puede realizar de forma mucho más optimizada.
KRSupman
Pero ¿No había herramientas basadas en otras ia para programar que lo mejoraban mucho? Se hablaba de la de AWS ¿Estáis de acuerdo? ¿Alguna recomendación?
Gracias.
jorsus
JAJAJAJAJAJAJAJAJAJAJAJAJAJAJAJAJAJA
ainclan
Y después de la respuesta entra la capacidad del programador para determinar si la respuesta es correcta o tiene que hacer correcciones.
tonnetti
Sisi, chatgpt 3.5, la pregunta es: ¿Cuanto ha mejorado en un año ese porcentaje con Chatgpt 4o?
Una p.. barbaridad, si sigue esa progresion, que lo va a hacer, pues ..
kyriu91
Hay que revisar siempre el código. Yo lo usó pero más que nada, para cuándo tengo que hacer algo y no tengo una idea general clara de lo que quiero.
Sí, piensas que te vas a volver programador solo usando la IA, buena suerte.
t_r_a
a mi jefe (que no tiene ni pu†a idea de programación) le hizo un script para la consola de windows que buscaba los archivos con tamaño 0 bytes, y bueno, funcionaba, eso si, el script tenía casi cincuenta líneas, con cosas como "SETLOCAL ENABLEEXTENSIONS ENABLEDELAYEDEXPANSION" cuando ni usaba variables con !!, ni tampoco la expansión retrasada de las variables, cuando lo vi me partía de risa, con una línea en powershell haces lo mismo y más rápido
sci.fi.addict
ChatGPT todavía está en pañales y nos usa para aprender, comete bastante errores y se queda corta la mayoría de las veces.
Pero no hay dudas que en +- 5 años va a cambiar la economía mundial.
Los que puedan adaptarse sobrevivirán los que no ...
Otra cosa es saber si ChatGPT podrá sobrevivir al empuje de las grandes empresas tecnológicas, similar a los equipos de fútbol, cuanto más pasta tiene un equipo más puede invertir en talento y hardware.
powerlebrato
Mientras tanto el chino Juan diciendo que no aprendas a programar, que lo hace la IA...
NinoElBambino
Un estudio hecho con GPT 3.5?? e igualmente la mitad de las chances de tener una respuesta correcta, con lenguaje natural de input? Hace 2 años hubiese sonado como ciencia ficcion.
Si van a programar GPT4 es una bestia. Trabajo de eso y me ahorra HORAS por día. Siempre está el burro que no sabe usarlo
davidkeko
Me parece bien constatar lo que ya sabíamos.
carlosrios2
Lo he usado un par de veces, la última me salvó bastante, pero no fue simple, le pedí una respuesta, era imprecisa, ya que había información deprecada, se lo hice saber, rectificó, después problema de versiones, hasta que llegó una respuesta satiscactoria. Fueron como 5 días enfrascado en el problema, y con chatgpt con indicaciones me ayudó en unas 3 horas, y claro, orienta, no desarrolla.