ELOBSERVADOR
Hablando con el futuro:

ChatGPT y la promesa de asistentes personales útiles

A medida que los asistentes personales basados en inteligencia artificial (IA) sean utilizados por el público general, la productividad del trabajo humano podría escalar a niveles impensados.

2023_04_30_chatgpt_cedoc_g
Hablando con el futuro. | cedoc

Se ha dicho hasta el hartazgo: nuestro mundo está siendo forjado por la tecnología, desde la invención de la imprenta hasta la llegada de internet, cada innovación ha sido un escalón en la evolución de la humanidad. Pero ahora, quizás, estemos asistiendo a una disrupción tecnológica sin precedentes.

Esta revolución está construida sobre una tecnología conocida como redes neuronales artificiales que, en formas mucho más simples, ya eran usadas por Gauss y adoptaron su forma actual a mediados del siglo pasado. Si bien se conocía su potencial, no fue hasta hace algo más de diez años que empezaron a cobrar notoriedad cuando, habilitadas por la creciente capacidad de cálculo y disponibilidad de datos, fueron usadas para revolucionar el campo de la visión por computadoras, hasta llegar al punto de desarrollar sistemas más precisos que los seres humanos.

Estas redes se caracterizaban no solo por ser mucho más grandes que las usadas hasta ese momento, sino por tener configuraciones que les permitían procesar información de mayor diversidad, como imágenes y texto, sin necesitar la intervención de humanos expertos en su preprocesamiento. Es decir, en cierta forma, aprendían a realizar ese preprocesamiento por ellas mismas.

A mitad de camino entre aquel hito y la actualidad, se publicó el paper “Attention is all you need”, en el cual se presentaba una nueva configuración de neuronas artificiales, llamada “transformer”, que dio lugar a la ola de algoritmos que ahora conocemos con grandes modelos de lenguaje. Entre ellos, la familia de los GPT (Generative Pre-trained Transformer), desarrollados por OpenAI, que pasaron de 117 millones de parámetros en la primera versión de 2018, hasta los 175 mil millones, en la tercera versión, lanzada en 2020 y que es el corazón de chatGPT.

Grandes modelos de lenguaje. Nada más que redes neuronales basadas en transformers y entrenadas para predecir la siguiente palabra en una secuencia de texto. Por eso el mote de preentrenados (Pre-trained, la P de GPT): no se les enseñó a encontrar el sentido de una oración, ni a detectar el sentimiento del texto, ni ninguna otra tarea específica.

¿Por qué se hizo así? Por la cantidad de datos. Si el modelo debe encontrar la siguiente palabra de un texto, todos los textos de la historia de la humanidad son datos viables para entrenarlo; mientras que si quisiera entrenarlo para detectar –por ejemplo– sentimientos, solo serían útiles los textos adecuadamente categorizados (varios órdenes de magnitud menos).

¿Por qué funcionan? Podríamos especular con que el lenguaje codifica el conocimiento humano y el acto de predecir adecuadamente una palabra más implica entender de alguna manera lo precedente; pero realmente es difícil comprender –al menos para mí– por qué estas redes son tan poderosas. Mucho más fácil es, sin embargo, entender por qué son tan útiles. Para ello, primero hay que señalar que no están limitadas a predecir una palabra nada más, puesto que cada palabra que se genera puede agregarse al texto original para generar otra más, y luego otra, y así sucesivamente.

Además, muchas veces se puede componer un texto para incitar una respuesta específica. Por ejemplo, si yo escribo (o copio) un largo artículo que contenga información que me interesa; le agrego al final “En resumen:” y le pido a una persona que continúe, la mayoría escribiría un resumen de lo anterior. Bueno, pues un modelo de lenguaje hace lo mismo, porque fue entrenado para continuar textos de la misma manera que lo haría un ser humano.

Vida después de la muerte: un argentino creó una app que lo hace posible con inteligencia artificial

Es así, entonces, que con textos bien confeccionados (popularizados como “promts” por su denominación en inglés) se puede lograr que estas redes exhiban comportamientos mucho más complejos que los enseñados. Si escribo “América fue descubierta por”, va a completar Colón. Si le digo “Este es un sistema de ecuaciones, la solución para x e y es”, no solo hará el desarrollo matemático, sino que lo explicará en palabras. Si le doy un título y subtítulo, quizá logre que escriba una nota entera.

Choque de gigantes. Recientemente, viendo su potencial, Microsoft tomó la iniciativa y se aseguró un acuerdo con OpenAI para la utilización de chatGPT en Bing; tanto en el lateral de la página de resultados como en un chat independiente, similar a la aplicación original. Por su parte, Google rápidamente anunció un producto análogo, llamado Bardo (Bard); basado en Lambda, aquel modelo que se popularizó el año pasado porque un ingeniero pensó que tenía conciencia.

La tensión es máxima y parecería que asistiremos a una guerra entre los gigantes tecnológicos por el mercado de la búsqueda web. Pero, ¿es en efecto así?

Ciertamente, este tipo de herramientas reemplazaría muchas de las búsquedas que hacemos, pero justamente en los casos donde no nos interesa buscar una página web, sino una respuesta específica. A mi entender, productos como chatGPT no amenazan la cuota de mercado de búsqueda que detenta Google, sino el tamaño del mercado en sí mismo, con un sustituto superador: el asistente personal. Pero uno realmente útil, uno que eclipse a HAL 9000 o haga sentir inseguro a Jarvis.

Esta es una promesa que ya nos hicieron, y nos decepcionaron: Siri tiene más de diez años, Alexa y el asistente de Google lo siguen de cerca. Pero donde esos productos fallaron, chatGPT parece brillar. No solo comprende los pedidos que le hacemos con pocas fallas, no solo da buenas respuestas desde el primer intento, sino que entiende el contexto, pudiendo recibir réplicas y correcciones. Es decir, habilita el real diálogo entre humano y máquina, permitiendo una interacción con la tecnología que, bien implementada, podría revolucionar nuestra productividad.

Y los tiempos para llegar a esa realidad parecen acelerarse, solo en las últimas semanas Meta AI publicó LLaMA, un modelo de capacidades comparable a GPT-3 pero de código abierto y mucho más rápido y pequeño. Científicos de Stanford crearon Alpaca, un clon de chatGPT logrado a partir de LLaMA con ajustes generados de la propia API de ChatGPT por un costo menor a los mil dólares (vs. millones que costó entrenar los modelos originales). Y, por supuesto, OpenAI publicó GPT-4, una versión superadora de su modelo estrella, que no solo lee texto sino que también entiende imágenes.

Todos esos desarrollos junto con la adopción masiva de las herramientas a través de Bing y Google Search; la incorporación de asistentes virtuales en Office y Workspaces; el desarrollo de Copilot y Copilot X de Github; más la plétora de startups que intentarán posicionarse en ese mercado, no solo auguran un impacto significativo en la productividad de quienes las usemos, sino una aceleración vertiginosa en la creación y mejora de las propias herramientas.

Esta nota fue escrita por inteligencia humana. Me encantaría seguir la moda del momento y rematar la nota diciendo que fue escrita por AI, pero no es el caso. Eso no quiere decir que no haya tenido su asistencia: usé chatGPT para que me sugiriera continuaciones, para romper un poco el bloqueo propio de un escritor bisoño y para mejorar mi gramática. Incluso, le pedí que generara los textos que luego les di a otras redes generativas que pasan de texto a imágenes (DALL-E 2 y Stable Diffusion 2.1), para generar las ilustraciones que acompañan esta nota. En definitiva, no utilicé IA para reemplazar mi trabajo, sino para hacerlo mucho más rápido y con más calidad.

*Magíster en Ciencia de Datos. Profesor en la Maestría en Ciencias de Datos de la Facultad de Ingeniería de la Universidad Austral.