Después de meses de rumores y especulaciones, OpenAI ha anunciado el lanzamiento de GPT-4, la última incorporación a su línea de modelos de lenguaje de inteligencia artificial que potencian aplicaciones como ChatGPT y el nuevo Bing.
La compañía afirma que este modelo es «más creativo y colaborativo que nunca» y «puede resolver problemas difíciles con mayor precisión». Puede analizar tanto texto como imágenes como entrada, aunque solo puede responder a través de texto. OpenAI también advierte que los sistemas retienen muchos de los mismos problemas que los modelos de lenguaje anteriores, incluyendo una tendencia a inventar información (o «alucinar») y la capacidad de generar texto violento y dañino.
OpenAI dice que ya se ha asociado con varias compañías para integrar GPT-4 en sus productos, incluyendo Duolingo, Stripe y Khan Academy. El nuevo modelo está disponible para el público en general a través de ChatGPT Plus, la suscripción mensual de $20 de ChatGPT de OpenAI, y está alimentando el chatbot de Bing de Microsoft. También estará disponible como API para que los desarrolladores construyan sobre ella. (Hay una lista de espera aquí, que OpenAI dice que comenzará a admitir usuarios hoy.)
Announcing GPT-4, a large multimodal model, with our best-ever results on capabilities and alignment: https://t.co/TwLFssyALF pic.twitter.com/lYWwPjZbSg
— OpenAI (@OpenAI) March 14, 2023
En una publicación de investigación en el blog, OpenAI dijo que la diferencia entre GPT-4 y su predecesor GPT-3.5 es «sutil» en una conversación casual (GPT-3.5 es el modelo que impulsa ChatGPT). El CEO de OpenAI, Sam Altman, tuiteó que GPT-4 «todavía tiene defectos, todavía está limitado», pero que también «parece más impresionante en el primer uso que después de pasar más tiempo con él».
La compañía dice que las mejoras de GPT-4 son evidentes en el rendimiento del sistema en una serie de pruebas y benchmarks, incluyendo el examen de barra uniforme, LSAT, matemáticas SAT y lectura y escritura basadas en evidencia SAT. En los exámenes mencionados, GPT-4 obtuvo puntuaciones en el percentil 88 o superior, y se puede ver una lista completa de exámenes y las puntuaciones del sistema aquí.
Las especulaciones sobre GPT-4 y sus capacidades han sido abundantes durante el último año, con muchos sugiriendo que sería un gran salto respecto a los sistemas anteriores. Sin embargo, a juzgar por el anuncio de OpenAI, la mejora es más iterativa, como la compañía había advertido anteriormente.
«La gente está deseando sentirse decepcionada y lo estarán», dijo Altman en una entrevista sobre GPT-4 en enero. «La exageración es como… No tenemos una AGI real y eso es lo que se espera de nosotros».
El rumor se intensificó la semana pasada después de que un ejecutivo de Microsoft dejara escapar que el sistema se lanzaría esta semana en una entrevista con la prensa alemana. El ejecutivo también sugirió que el sistema sería multimodal, es decir, capaz de generar no solo texto sino otros medios. Muchos investigadores de IA creen que los sistemas multimodales que integran texto, audio y video ofrecen el mejor camino hacia la construcción de sistemas de IA más capaces.
GPT-4 es, efectivamente, multimodal, pero en menos medios de los que algunos predijeron. OpenAI afirma que el sistema puede aceptar entradas de texto e imágenes y producir salidas de texto. La capacidad del modelo para analizar texto e imágenes simultáneamente le permite interpretar entradas más complejas. En los ejemplos que se muestran a continuación, se puede ver cómo el sistema explica memes e imágenes inusuales:
Ha sido un largo camino para llegar a GPT-4, con OpenAI, y los modelos de lenguaje de IA en general, ganando impulso lentamente durante varios años antes de dispararse a la corriente principal en los últimos meses.
El artículo original de investigación que describe a GPT fue publicado en 2018, con GPT-2 anunciado en 2019 y GPT-3 en 2020. Estos modelos se entrenan en enormes conjuntos de datos de texto, gran parte de ellos extraídos de internet, que se analizan en busca de patrones estadísticos. Estos patrones se utilizan para predecir qué palabra sigue a otra. Es un mecanismo relativamente simple de describir, pero el resultado final son sistemas flexibles que pueden generar, resumir y reformular textos, así como realizar otras tareas basadas en texto, como la traducción o la generación de código.
OpenAI originalmente retrasó el lanzamiento de sus modelos GPT por temor a que se utilizaran con fines maliciosos, como generar spam y desinformación. Pero a finales de 2022, la compañía lanzó ChatGPT, un chatbot conversacional basado en GPT-3.5 que cualquier persona puede utilizar. El lanzamiento de ChatGPT desató una fiebre en el mundo de la tecnología, con Microsoft pronto siguiéndole con su propio chatbot de IA Bing (parte del motor de búsqueda Bing) y Google esforzándose por ponerse al día.