OPINIóN
Desarrolladores

La otra Babel: La anatomía de los lexicones en la lexicografía computacional

Si como sostiene Bates, “el lenguaje es tan importante en nuestras vidas que su uso fluido es casi sinónimo de inteligencia”, sería lógico pensar que aquello que adopta un significado computacional encuentre ciertas dificultades en lo que hace a la comprensión de una de las características más complejas del ser humano: el lenguaje natural. 

Lenguaje 20210730
Lenguaje | Pixabay

Si como sostiene Bates (1994:239), “el lenguaje es tan importante en nuestras vidas que su uso fluido es casi sinónimo de inteligencia”, sería lógico pensar que aquello que adopta un significado computacional encuentre ciertas dificultades en lo que hace a la comprensión de una de las características más complejas del ser humano: el lenguaje natural. 

Al examinar el lenguaje o lengua natural (y en general en cualquier sistema semiótico) como propone Eco encontraremos que su estructura (siguiendo el modelo hjemsleviano) “se compone de un plano de expresión constituido por un repertorio léxico, un sistema fonológico y sus reglas sintácticas y un plano del contenido que representa el universo de conceptos que podemos expresar. Cada uno de estos planos se compone de forma y sustancia y ambos resultan de una organización de un continuum” (2017:19). 

Bifurcaciones: “Interpretación de los Mundos Múltiples”

Ahora bien, según Eco (2017) si nos concentramos en la “forma de la expresión” podemos generar distintas sustancias de la expresión como las palabras que se usan (pronuncian) a diario, a las cuales para que sean comprensibles se les asocia un significado o contenido. Así, el continuum de contenido es el universo físico y mental que cada lengua organiza y que cambian de una lengua a otra.  Para Whorf y Quine (1956, 1960) “una lengua natural sería apta para expresar una determinada experiencia de la realidad, pero no las experiencias realizadas por otras lenguas naturales”. 

Observamos un primer indicio: para poder significar una lengua natural es preciso establecer correlaciones entre elementos de forma de expresión y forma de contenido.  Estas correlaciones se producen en el nivel de unidades mayores que son los ítems léxicos (que se articulan para formar sintagmas de sentido).

Dicho esto, ¿por qué el léxico? ¿Cuál es su relevancia para la formación de diccionarios computacionales o lexicones?  ¿Podemos pensar el lexicón desde un carácter interdisciplinar?

Una primera respuesta es que el léxico constituye “la parte más vital de la lengua” (Giammatteo y Albano, 2012). Su importancia radica en que gracias a él nos introducimos en el conocimiento de lo cotidiano y penetramos en los “vericuetos de cualquier sociedad y su cultura”. Es una pieza fundamental para dar cuenta de la buena o mala formación de una estructura sintáctica. Un aspecto esencial es que el léxico, además de introducirnos al interior de la estructura de una lengua, nos conduce hacia el exterior, esto es, nos conecta al conocimiento de mundo o enciclopédico. El léxico o palabra no es una mera etiqueta que cataloga cosas, incluye “marcas” acerca de su origen y contextos socioculturales, “cristaliza” conceptos.

Humanos sintéticos: percepciones y representaciones de la “realidad”

Desde una mirada reticular que entreteje saberes conceptuales, veremos que el concepto de lexicón ha sido abordado desde diferentes enfoques -no diremos opuestos sino complementarios- como la antropología, la psicología, la sociolingüística, la lingüística cognitiva, lingüística aplicada, la lexicografía, que brindan una visión global, integral al “universo multifacético de las palabras”.  El contorno de la definición de lexicón o diccionario computacional se “construye” en torno a ciertos principios y rasgos comunes en cuanto a los componentes de un diccionario tradicional, que en este caso llamaremos “lingüístico”.

Todo diccionario está integrado por un lemario (conjunto de unidades léxicas definidas) y cada entrada se define como lema que pueden ser palabras invariables, que coincide con la forma única de la palabra y palabras flexivas, donde se selecciona un paradigma que represente a todas. Esta forma se denomina canónica o clave y los criterios para su determinación dependen de cada lengua (Pagani, 2012).

 En procesamiento de lenguaje natural (NLP), un lexicón, para que sea válido, ha de contener información fonológica, morfológica, sintáctica, semántica y pragmática, pero además esta información debe ser estructurada de forma que permita su reutilización para diversas tareas.  Esta “estructuración” conforma un modelo de datos o esquema conceptual que abarca la forma que tienen los objetos o entidades léxicas, los tipos de datos introducidos para esas unidades léxicas, las interrelaciones de las distintas entidades que forman la base léxica, las propiedades definitorias y las restricciones (Ortiz, 2000).

Inteligencia artificial: de Homo Narrans a Quantum Sapiens

Entonces, en un lexicón toda la información tiene que estar explicitada, sistematizada y formalizada. De acuerdo con Moreno Sandoval (1998) un buen diccionario computacional se debe caracterizar por una clara división de los tipos de información. Por otra parte, un aspecto clave es la forma de acceder dicha información o entradas léxicas a través de etiquetas asociadas a las entradas, esto es equivalente a los lemas en los diccionarios tradicionales.

La “arquitectura lingüística” de los desarrolladores

Desde el punto de vista de los desarrolladores de gramáticas y los investigadores en NLP, la “arquitectura lingüística” incluye la especificación de reglas que indican cómo las entradas del lexicón (que es sólo una parte del sistema representacional) pueden combinarse para formar oraciones en una lengua determinada (cf. Gazdar & Mellish, 1989). 

Quedan algunos interrogantes: ¿Cuán flexible, reutilizable, distribuible debería ser un lexicón para que sea cualitativa y cuantitativamente válido al resolver tareas complejas de NLP? ¿Cuál es el grado de interdependencia de la información léxica respecto de las teorías gramaticales o de los enfoques lexicográficos? ¿Los lexicones logran “representar” el conocimiento intuitivo del hablante nativo? 

Mientras tanto, tal vez sea como relata Borges en La biblioteca de Babel: “Un número n de lenguajes posibles usa el mismo vocabulario; en algunos, el símbolo biblioteca admite la correcta definición ubicuo y perdurable sistema de galerías hexagonales, pero biblioteca es pan o pirámide o cualquier otra cosa, y las siete palabras que la definen tienen otro valor. Tú, que me lees, ¿estás seguro de entender mi lenguaje?”.