Perfil
CóRDOBA
PROYECTO REGIONAL

LatamGPT: el desafío de crear una IA artificial con ADN latinoamericano

Luciana Benotti participa de un proyecto regional colaborativo que busca desarrollar un modelo de IA con datos propios. La doctora en informática sostiene que la prioridad estratégica es invertir en talento e infraestructura propia.

4-4-2026-Luciana Benotti
. | CEDOC PERFIL

“Los países deben considerar la IA como una prioridad estratégica igual que lo es la energía”. Así opina Luciana Benotti, doctora en informática con especialidad en lingüística computacional e investigadora del Conicet. Benotti, nacida en San Francisco, participa de un proyecto colaborativo de más de 40 instituciones latinoamericanas que surge frente al dominio de modelos cerrados y opacos como ChatGPT o Gemini.

Se trata de LatamGPT, una iniciativa regional que busca desarrollar un modelo de inteligencia artificial con datos propios, con la intención de romper la dependencia de las grandes tecnológicas.

La especialista advierte sobre los sesgos culturales de los sistemas actuales y cuestiona el costo ambiental y geopolítico de los centros de datos masivos instalados por las big tech en el sur global. Para la experta, la prioridad estratégica es invertir en talento e infraestructura propia para garantizar una IA sostenible, transparente y fiel a la idiosincrasia latinoamericana.

Benotti es profesora de la UNC, lidera el equipo de IA de la Fundación Vía Libre, una organización sin fines de lucro que defiende los derechos digitales y es miembro del comité directivo de Khipu, una comunidad de investigadores y desarrolladores de IA en Latinoamérica.

-¿Qué son los modelos de lenguaje de la IA?
-Hoy en día son conocidos por productos como ChatGPT de OpenAI. que es financiada en gran proporción por Microsoft. Otro modelo de lenguaje es el producido por Google que genera el “modo IA” para responder a nuestras búsquedas. Otro modelo que está ganando usuarios es Claude de Antrophic, que también es financiada por Microsoft, Google y Nvidia, que es la empresa que fabrica las computadoras especializadas para crear estos modelos.

-¿Debería tomarse a la IA como una prioridad estratégica?
-Si, igual que lo es la energía. Las empresas de mayor capital del mundo solían ser las grandes petroleras, ahora son las grandes empresas detrás de la IA como Google, Microsoft, Nvidia, Meta. China considera la IA como una prioridad estratégica y desarrolla sus propios modelos de lenguaje. Los modelos de lenguaje más usados se vuelven más potentes porque pueden ser mejorados con los datos de sus usuarios.

-¿Qué es LatamGPT?
-Es un proyecto de colaboración entre más de 40 instituciones de Latinoamérica, que incluyen universidades, ONGs, bibliotecas, entre otros. La UNC y Fundación Vía Libre forman parte desde sus inicios cuando Alvaro Soto, director del CENIA, el Centro Nacional de Inteligencia Artificial de Chile, nos invitó en 2024. El objetivo del proyecto es crear una red de instituciones para obtener datos de calidad de nuestros países y para colaborar en distintas áreas para la creación del conocimiento necesario para obtener un modelo de lenguaje de 70 billones de parámetros entrenado con un porcentaje de datos de nuestra región.

-¿Por qué es necesario un modelo de lenguaje para nuestra región?
-Porque construye capacidad técnica y colaboraciones estratégicas en la región. Cuando uno se enfrenta a un desafío técnico de esta envergadura hay un gran aprendizaje. Hasta que no te enfrentas con la escala de estos modelos hay cosas que en experimentos de juguete no se aprenden. En nuestra región se habla mucho de IA pero muy pocas personas entienden por qué y cómo funciona. Los modelos actuales se crean en entornos privados sin transparencia en términos de qué datos están usando, qué consumo energético tienen y otros aspectos que impactan directamente en su funcionamiento y su sostenibilidad.

-¿Cuál es la participación de la UNC?
-Desde la Fundación Vía Libre y la UNC creamos un gran conjunto de evaluación enfocado en sesgos específicos de la provincia de Córdoba. Lo hicimos en colaboración con más de 180 escuelas secundarias de la provincia a través de un curso docente de desarrollo profesional. El curso fue gratuito (...) Estuvimos trabajando en procesar este conjunto de datos que fue publicado en la Conferencia de Métodos Empíricos en Procesamiento de Lenguaje Natural. Este artículo científico muestra que los modelos de lenguaje actuales como ChatGPT y Gemini fallan al momento de reconocer e intentar mitigar los estereotipos de nuestra provincia en mucha mayor medida de lo que fallan sobre estereotipos de zonas de Estados Unidos y Europa.

-¿Hasta qué punto LatamGPT entiende la idiosincrasia latinoamericana?
-No lo sabemos porque el modelo aún está en evaluación. Hay un riesgo técnico al re-entrenar un modelo con datos nuevos (...). En este sentido, hubo que investigar la mejor manera de organizar el nuevo conocimiento para minimizar este impacto. Sería interesante entrenar desde cero o comparar con otras arquitecturas de base, pero como el proyecto es de bajo presupuesto aún no se ha podido hacer. Algo que este proyecto no logró hacer tampoco es hacer un modelo desde cero, con un nuevo detector de palabras como se hizo en China. Esto es mucho más costoso de construir pero podría implicar una disminución considerable de consumo energético en su uso, como lograron en China.

-¿Qué gastos implica el uso de IA?
-Los usuarios finales quizás perciben que usar IA es gratis, pero no lo es: gasta energía, agua y hardware que ahora están subsidiados por las inversiones en las grandes tecnológicas, y porque las empresas aún ven valor en recolectar datos de los usuarios de nuestra región. Los usuarios en nuestro país comparten todo tipo de dato con los modelos de lenguaje, incluso lo usan como terapeuta. En China los usuarios son más conscientes del costo de la IA y critican distintas estrategias para atrapar al usuario como adularlo u ofrecerle algo más para no cortar la interacción.

-¿En qué se diferencia de CHATGPT, Gemini y otros?
-La principal diferencia es que LatamGPT está entrenado con datos latinoamericanos que conocemos. Estos datos fueron recolectados después de ocho meses de trabajo junto a 20 países latinoamericanos, lo cual implica agregar diversidad de hechos, lugares, eventos y dialectos a un modelo que ha recibido más datos latinoamericanos que otros modelos abiertos. Las empresas que crean GhatGPT y Gemini no dicen con qué datos los entrenan. Esto es importante para saber qué perspectiva del mundo reflejan. Además, LatamGPT es más pequeño que Gemini y ChatGPT. Se estima que es menos de un 10% del tamaño. Sabemos exactamente el tamaño de LatamGPT, 70 mil millones de parámetros, pero no de Gemini y ChatGPT y esta es otra diferencia crucial. LatamGPT es un modelo abierto construido sobre el modelo Llama, en cambio Gemini y ChatGPT son modelos cerrados que no sabemos cómo fueron construidos, cuánta energía y agua consumen, y qué visión del mundo reflejan y para quién. Algunos desafíos técnicos implican probar la mayor cantidad de hipótesis con un presupuesto de cómputo y datos limitado.

-¿Ya hay una versión disponible?
-Aún no, se está trabajando en la documentación. Hay un dilema con respecto a la apertura de los datos. Hace un tiempo el foco de la ciencia abierta era disponibilizar los datos de los proyectos de forma abierta para mejorar su reproducibilidad, que es crucial en ciencia. Pero esto está cambiando en esta época de la IA, porque las grandes empresas tecnológicas aprovechan estos datos abiertos que son costosos de conseguir.

-¿Cómo sigue y a que aspira?
-Estamos trabajando en explicar los mecanismos de ética detrás del diseño y la colaboración del proyecto. Esperamos publicarlo este año. Los tiempos de este proyecto son más lentos que los tiempos de las grandes empresas tecnológicas. El presupuesto es ridículamente menor y el objetivo es el aprendizaje, que más gente de nuestra región entienda técnicamente la tecnología y poder decidir construirla de otra manera y evaluarla de forma abierta tanto en su impacto en la gente como en el ambiente. Estos no son los objetivos de las grandes tecnológicas.

-¿Los gobiernos de la región invierten y entienden la importancia de tener modelos de lenguaje propios?
-En África y en Latinoamérica se están empezando a instalar centros de datos masivos que albergan modelos de lenguaje. Es importante no confundir estos centros con una inversión y un entendimiento de la importancia de desarrollar capacidad propia en el área de IA. Los centros de datos que se están instalando en el sur global no son controlados por la región, son propiedad y territorio de las grandes empresas tecnológicas y son un riesgo medioambiental, económico y geopolítico. Para construir nuestros propios modelos de lenguaje no necesitamos centros de datos masivos de decenas de miles de computadoras; necesitamos cientos de computadoras especializadas y mucho talento local para entender cómo crear modelos más eficientes que los que nos venden las big tech. La verdadera inversión estratégica es financiar la formación de nuestra gente y la compra de infraestructura propia que responda a nuestros intereses cuando los modelos de lenguaje comerciales dejen de ser subsidiados.