OPINIóN

ChatGPT-4, obertura multimodal

Ese “nuevo Prometeo” de la tecnología, el ChatGPT-4, no es totalmente fiable ya que tiende a “alucinar”, es decir, producir contenidos que carecen de sentido o son falsos.

OpenAI recompensará con hasta USD 20.000 por reportar errores del ChatGPT | Télam

Lingüista especialista en Procesamiento de Lenguaje Natural. Linkedin

sussenglish

20-04-2023 18:08

El “arte de prescindir de lo innecesario” pero sin llegar al extremo de “no decir nada”, una formalización, tal vez, para “representar el lenguaje, el pensamiento, narrar y computar”. Añadiendo lo que es fértil y significativo; “afeitando parte de la barba” (imprecisa y metafísica) intentando llegar al “esqueleto conceptual”, sin entrar en el “argumento de la habitación china de Searle”(1932), el deleite de los críticos de la Inteligencia Artificial.

Sin embargo, “emplear solo lo indispensable”, podría provocar ilusiones de sentido, una cortina de opacidad lingüística, que solo permite una refracción palimpséstica de lo escrito siendo el lenguaje un constructo de múltiples modos de comunicación.

La orquestación del flujo semiótico a través de la combinación de formas no solo lingüísticas y visuales que operan en el desarrollo de la expansión del significado sino también de otros recursos como el sonido, los gestos, espacios tridimensionales, etc. y sus interrelaciones dan paso al fenómeno multimodal.

Esto no les gusta a los autoritarios

El ejercicio del periodismo profesional y crítico es un pilar fundamental de la democracia. Por eso molesta a quienes creen ser los dueños de la verdad.

Hoy más que nunca Suscribite

Estamos de cara a la “resemiotización” de un fenómeno dinámico que busca captar los patrones semánticos multimodales subyacentes inscriptos en toda práctica comunicativa interactiva.

Obertura multimodal que desafina

Un argumento central es que trabajar con distintos “modos” ofrece niveles de abstracción y universalización. Es preciso primero enmarcar y definir la terminología asociada al campo multimodal.

En términos generales, Rowsell (2013) define “modo como una unidad de expresión y representación. Siempre que una persona trata “algo” como capaz de expresar o representar un significado, reúne los criterios de un modo, unidad o elemento representacional y comunicativo”.

La RAE y la polémica en torno a un acento

Para Jewitt (2009), “modo” es “el resultado de una conformación cultural de un material”. Aun cuando los modos por sí mismos crean significados, en combinación ofrecen más opciones para transmitir sentido a la comunidad de hablantes.

Ahora, ¿qué es la modalidad? Kress (2001) observa que la comunicación se logra por medio de todos los modos separadamente y al mismo tiempo de forma conjunta. Esta noción hace hincapié en la función comunicativa que conlleva cada uno de los modos y, al mismo tiempo, subraya la idea de que los modos están en constante interacción.

La otra Babel: La anatomía de los lexicones en la lexicografía computacional

La “modalidad” en sentido gramatical tradicional, debe separarse del concepto de “modo de comunicación”, es decir cualquiera de las muchas maneras en que puede desarrollarse un sistema semiótico con una gramática interna, como el habla, el color, el gusto o el diseño de imágenes.

Kress y Van Leewuen (1996) en Reading Images conceptualizan la modalidad visual como modo semiótico para organizar lo que queremos decir. Así, la comunicación visual cumpliría un rol sintáctico visiblemente social.

Rowsell (2013) en Rethinking multimodality, define “multimodalidad” como la orquestación de múltiples modos para comunicar, representar y expresar significados que atiende sistemáticamente a la interpretación social de las diferentes formas en la construcción de significados.

A veces dispar, en contradicción, en paralelo otras veces influyéndose mutuamente la“multimodalidad” de las prácticas discursivas cotidianas, se hace evidente en nuevos enfoques: es tiempo de realizar un viraje hacia GPT-4.

Lenguaje, la primera revolución humana

Según el informe de Open AI (2023), GPT-4 es “un modelo multimodal que acepta imágenes y textos como entradas y produce textos como salida”.

Esto es, un modelo con la funcionalidad de reconocimiento de imágenes que permite a GPT-4 no solo analizar y describir imágenes sino también responder a preguntas o realizar tareas basadas en esas imágenes.

“GPT-4 no es sólo un modelo lingüístico, también es visual. Puede aceptar de forma flexible entradas que intercalen imágenes y texto de forma arbitraria, como si fuera un documento”.

Recordemos que un modelo de lenguaje neuronal multimodal imagen-texto puede utilizarse para recuperar imágenes a partir de consultas de frases complejas, recuperar descripciones de frases a partir de consultas de imágenes y generar texto condicionado a imágenes (Kiros et al., 2014).

GPT-4 es un modelo basado en transformadores pre-entrenado para predecir el siguiente token de un documento. Para Open AI, “uno de los principales objetivos es mejorar la capacidad para comprender y generar textos en lenguaje natural, sobre todo en escenarios más complejos y matizados”.

Es precisamente el escenario o contexto el que da sentido a un texto ya que “una palabra sin contexto lingüístico es una mera invención que no significa nada por sí misma… no tiene sentido salvo en el contexto de situación” (Malinowski, TheMeaningofMeaning).

ChatGPT-4, obertura multimodal

Si bien se puede decir que GPT-4 supera los grandes modelos lingüísticos anteriores y la mayoría de los sistemas más avanzados, todavía presenta ciertas limitaciones.

Es fundamental entender que GPT-4 “no es totalmente fiable” ya que tiende a “alucinar”, es decir, “producir contenidos que carecen de sentido o son falsos en relación con determinadas fuentes” (Maynez et al., 2020; Lin et al., 2022).

Inteligencia Artificial: ChatGPT, popularización, magia y riesgos

Aun cuando GPT-4 tiene la capacidad de generar contenidos verosímiles y con cierto grado de especificidad, puede incurrir en errores simples de razonamiento y en predicciones que no parecen corresponderse con su competencia en diferentes ámbitos o dominios.

Esto se debe a que carece del conocimiento de acontecimientos ocurridos con posterioridad a septiembre de 2021 -datos utilizados para su pre-entremaniento- y porque no “aprende de su experiencia”.

Por otra parte, la tendencia a que los textos sean o parezcan cada vez más creíbles, resulta perjudicial para aquellos usuarios “ingenuos” que confían excesivamente en el modelo. De modo que, se recomienda tener especial cuidado al utilizar los resultados del modelo lingüístico, sobre todo en contextos de alto riesgo.

¿Este “nuevo Prometeo” creado por el vértigo de la ciencia podría fundirse en especulaciones creativas o resumirse: Quidquid recipitur ad modum recipientis recipitur?

*Maestría en Análisis del Discurso (FFyL- Universidad de Buenos Aires); Investigadora del Centro de Investigación de Altos Estudios en Tecnología Informática (Universidad Abierta Interamericana)