Doctor en Ciencias Sociales por la Universidad de Buenos Aires (UBA), magíster en Generación y Análisis de Información Estadística por la Universidad Nacional de Tres de Febrero (UnTref), licenciado en Sociología por la UBA, investigador del Consejo Nacional de Investigaciones Científicas y Tecnológicas (Conicet) en la Escuela Interdisciplinaria de Altos Estudios Sociales (Eidaes) de la Universidad Nacional de San Martín (UnSam), donde coordina el Laboratorio en Ciencias Sociales Computacionales Factor Data, Germán Rosati se especializa en aplicaciones de métodos de aprendizaje automático a las ciencias sociales y esta semana participó de la Agenda Académica de Perfil Educación. “La gran mayoría de los problemas que denuncia Harari ya estaban presentes desde antes de ChatGPT. Eran preGoogle, preinteligencia artificial y premuchas cosas. Noticias falsas en campañas hay, como mínimo desde que hay sistemas representativos y seguramente antes también. Por lo que no me queda tan claro que este tipo de herramientas vayan a generar ese tipo de problemas, cuando ya existían desde antes. Quizás podría pensarse si es que lo llevan a una escala nueva, pero es algo que todavía tenemos que comprobar. No es productiva la distopía que se ha generado en torno a la inteligencia artificial. Por otra parte, lo que sería una teoría en espejo, tampoco es correcta. Me refiero a una idea de tecnofilia, la idea de que la tecnología va a resolver todos los problemas de la humanidad”, sostuvo
Docente de Procesamiento del Lenguaje Natural Aplicado a Ciencias Sociales en el Diploma en Ciencias Sociales y Humanidades Digitales de la UnSam y de Introducción a la Minería de Texto para Ciencias Sociales en el Doctorado en Sociología de UnSam, Rosati es autor de una gran producción académica con publicaciones como Métodos de Machine Learning como alternativa para la imputación de datos perdidos. Un ejercicio en base a la Encuesta Permanente de Hogares; Analizando trayectorias de uso del suelo. Una propuesta de clusterización; Construcción de un mapa de vulnerabilidad sanitaria a partir de datos de fuente abierta en Argentina (2010-2018); y Procesamiento de Lenguaje Natural aplicado a las ciencias sociales. Detección de tópicos en letras de tango. “Está instalada esta idea de la manipulación. Los algoritmos van a hacer que la gente vote a la derecha o que vote a la izquierda. Y me parece importante mencionar que hay un límite potencial. Cualquier sociólogo que se precie de tal cuando se enfrenta a esa noción empieza a desconfiar. Sobre todo, porque lleva implícita toda una serie de supuestos respecto a las personas como cajas vacías, en las que uno mete cierta una información y hacer lo que quiere. Eso no es tan así”, agregó.
—En Métodos de Machine Learning como alternativa para la imputación de datos perdidos. Un ejercicio en base a la Encuesta Permanente de Hogares, usted analiza la incorporación de inteligencia artificial para colaborar con la gestión de datos necesarios para la elaboración de políticas públicas. Se trata de un uso positivo de la inteligencia artificial. Me gustaría partir de esa mirada auspiciosa de la inteligencia artificial con una reflexión crítica de esta tecnología planteada por Yuval Harari quien que pone en debate el futuro de la humanidad a partir de la inteligencia artificial. “¿Qué pasaría cuando una inteligencia no humana fuera mejor que el ser humano medio para contar historias, componer melodías, dibujar imágenes y redactar leyes y escrituras? –se pregunta Harari–. Cuando la gente piensa en ChatGPT y otras nuevas herramientas de Inteligencia Artificial, suele pensar en ejemplos como el de los escolares que utilizan la Inteligencia Artificial para escribir sus redacciones. ¿Qué pasará con el sistema escolar cuando los niños hagan eso? Pero este tipo de pregunta no tiene en cuenta el panorama general. Olvídese de las redacciones escolares. Piensa en las próximas elecciones presidenciales de Estados Unidos en 2024 e intenta imaginar el impacto de las herramientas de inteligencia artificial que pueden utilizarse para producir en masa contenido político, noticias falsas y escrituras para nuevos cultos”. ¿Qué le respondería usted a Harari?
—Es complicado responderle, porque Harari es visto como una como una vaca sagrada en las ciencias sociales. Yo prefiero pensar en cómo se pueden utilizar todos estos métodos de machine learning o inteligencia artificial para la investigación en ciencias sociales y como formas de producción y generación de datos. Eso es lo que más me interesa y lo que más he trabajado. Me genera más incomodidad meterme en la otra discusión filosófica. Pero me parece que plantear una especie de distopía catastrófica como la que plantea Harari o también Eric Sadin es una línea de crítica que no me demasiado productiva por varios motivos. Primero, porque la gran mayoría de los problemas que denuncia Harari ya estaban presentes desde antes de ChatGPT. Eran preGoogle, preinteligencia artificial y premuchas cosas. Noticias falsas en campañas hay, como mínimo desde que hay sistemas representativos y seguramente antes también. Por lo que no me queda tan claro que este tipo de herramientas vayan a generar ese tipo de problemas, cuando ya existían desde antes. Quizás podría pensarse si es que lo llevan a una escala nueva, pero es algo que todavía tenemos que comprobar. No es productiva la distopía que se ha generado en torno a la inteligencia artificial. Por otra parte, lo que sería una teoría en espejo, tampoco es correcta. Me refiero a una idea de tecnofilia, la idea de que la tecnología por sí sola va a resolver todos los problemas de la humanidad. Entonces, a mí me resulta más interesante pensar qué uso se le pueden dar a estas herramientas y en función de esos usos, indagar qué problemas existen, qué sesgos tienen, qué problemas generan. Creo que es más estimulante plantear esa discusión antes que atender a esas dos posiciones enfrentadas sobre la inteligencia artificial, que además no encuentran forma de dialogar entre sí. Porque si en uno de sus últimos artículos Harari dijo que ChatGPT hackea el lenguaje y Jeff Bezos le responde diciendo que la tecnología resolverá hasta el último problema de la especie, no hay mucho espacio para generar una discusión interesante. En cambio, es algo más productivo cuando alguien plantea la discusión en función de los usos posibles de esa tecnología y a partir de ahí pensar qué problemas tiene la herramienta en sí misma. Por ejemplo, pienso en las investigaciones sobre lo que se llama el sesgo algorítmico y toda la cuestión pedagógica referida a eso. Que alguien le pregunte a ChatGPT la respuesta a un examen, ¿qué problemas plantea? Uno puede ponerse en ese marco en una postura medio punitivista y pedir que se prohíba el ChatGPT pero no parece ser algo muy viable. Mientras que sería más interesante pensar cómo uso lo que existe para, por ejemplo, evaluar a un estudiante o, lo que es aún más interesante, pensar cómo usar esa tecnología como una herramienta pedagógica más. Es una tecnología que ahora existe y antes no y que tenemos que ver cómo podemos aplicarla. Por eso, la postura de Harari me parece desmedida. No me preocupa tanto Skynet, esa inteligencia artificial que aparece en la película Teminator y muestra el dominio de las máquinas, sino que me preocupa más la automatización de ciertas decisiones en función de estas herramientas. Por ejemplo, si yo entreno un modelo para detectar el perfil donde hay criminalidad, lo que va a pasar es que seguramente va a confundir la causa con el efecto y van a aparecer siempre determinadas zonas. Esos son problemas que no podemos desechar. Incluso, la cuestión del reconocimiento facial es un problema para atender en relación a la tecnología. Porque trae aparejados problemas técnicos por ejemplo, de falsos positivos, los sistemas detectan y matchean rostros de forma incorrecta. Pero también cuestiones éticas vinculadas a la privacidad y a la presunción de inocencia: ¿por qué me tienen que andar escaneando la cara cuando estoy en la calle? Esos son para mí riesgos más concretos y actuales que pensar en un futuro de supremacía de las máquinas a largo plazo porque quizá nos extinguimos antes. No hay que tenerle miedo a la inteligencia artificial, pero sí hay que estar muy atento a cómo se la usa. Ante la aparición de cada nueva tecnología siempre hubo olas de rechazo. A Sócrates no le gustaba la escritura porque decía que empobrecía la experiencia. También hubo temor con el efecto social de la radio y de la televisión. Pasó lo mismo con internet y las redes sociales. Pero a la nueva tecnología siempre le encontramos una manera para utilizarla de manera productiva o, de lo contrario, se dejará de utilizar porque también puede ocurrir que no sirva. Pero, en definitiva, el temor que surge de visiones como la de Harari me parece poco justificado.
—En Construcción de un mapa de vulnerabilidad sanitaria a partir de datos de fuente abierta en Argentina (2010-2018), usted muestra el valor del Mapa de Vulnerabilidad Sanitaria como herramienta para la formulación de políticas específicas y señala que esta tecnología permite predecir métricas locales relacionadas con la salud. ¿Cuáles son los avances y retrocesos que ha presentado hasta el momento la inteligencia artificial en la Argentina?
—Hay más avances que retrocesos, porque ahora efectivamente hay mucha investigación en el desarrollo de métodos. Son investigaciones que en general se hacen en las facultades de Ciencias Exactas, que son los que inventan y desarrollan mayor cantidad de métodos. Hay cosas muy interesantes que provienen del Laboratorios Interdisciplinario en Inteligencia Aplicada (LIIA). En ese trabajo que se comenta en la pregunta, trabajamos más en la aplicación de métodos a ciertas problemáticas. Pudimos recopilar un montón de información de Centro de Salud que estaba dispersa por distintas páginas de sitios y Ministerios. Normalizamos esa data que era de unos 16.000 centros de salud, la cruzamos con datos del Censo de Población de 2010 a nivel de radio censal y generamos usando técnicas de machine learning un índice a muy alta resolución espacial de acceso a la salud. Y eso fue solo un ejemplo muy pequeño de lo que se está haciendo, por eso digo que veo más avances que retrocesos. Diría que quizá uno de los problemas que tenemos tiene que ver con el costo en entrenar ciertos modelos, porque conseguir servidores o trabajar con un cómputo en la nube requiere de un costo nada despreciable. Por ese lado aparece un problema potencial para la investigación en estos temas. Por ejemplo, en el dominio del procesamiento de lenguaje natural hay un cambio muy fuerte de paradigma para decirlo de alguna manera. Desde hace unos cinco o diez años cambió la manera de entrenar modelos: lo que ocurre es que en grandes empresas con recursos millonarios en infraestructura se entrena un modelo de lenguaje de uso general, por ejemplo, ChatGPT y lo que termina pasando es que los investigadores particulares toman eso y lo adaptan a una tarea específica. Entonces, eso bajó bastante la barrera para el uso de estas técnicas pero la contracara es que ahora es mucho más difícil entrenar un modelo de lenguaje natural desde cero que funcione con performance similar a esos grandes modelos de lenguaje que se entrenan en servidores muy potentes y con corpus enormes. Y esto es lo que se ve ahora en Argentina. Pero hay un montón de equipos que están haciendo cosas súper interesantes.
—En Analizando trayectorias de uso del suelo. Una propuesta de clusterización usted presenta una alternativa metodológica para analizar trayectorias de uso de suelo y toma como caso de estudio y prototipo un análisis de los cambios en el uso del suelo a un nivel general de Argentina (región pampeana, NEA, NOA y Cuyo). ¿Cuáles son las ventajas que podría aportar la inteligencia artificial para el complejo agroexportador de la Argentina?
—Hay un montón de cosas que uno podría pensar, algunas ya se están se están utilizando. Por ejemplo, inteligencia artificial aplicada al uso de imágenes satelitales para hacer un análisis sobre el suelo para saber en qué zona les conviene sembrar más o menos. Desde hace unos cuantos años todos los fierros del campo, cosechadoras o sembradoras no son totalmente automáticas, pero están guiadas por GPS y tienen una serie de cambios tecnológicos. Todo lo que tiene que ver con maquinaria, que ya existe y se está usando, y todo lo que tiene que ver con el uso del suelo a nivel empresa de análisis de imágenes satelitales. Más allá del campo, me da la sensación de que en bancos y en comercio digital se está utilizando mucho la inteligencia artificial en la Argentina. Eso es en el sector privado y en el sector público hay un montón de iniciativas positivas. Pero ahí el problema viene por el lado de la provisión de información, porque no siempre circula esa información entre los organismos públicos.
—En Procesamiento de Lenguaje Natural aplicado a las ciencias sociales. Detección de tópicos en letras de tango usted analiza las potencialidades que estas técnicas tienen para el análisis de datos textuales en ciencias sociales: su escalabilidad y sus posibilidades de replicabilidad. ¿Hasta dónde puede llegar la inteligencia artificial?
—Es una buena pregunta. Jamás me había puesto a pensar en eso. Pero acuerdo con que se genera esa sensación. A priori, todo lo que sea texto, todo lo que sea imagen, todo lo que sea sonido puede ser trabajado desde el aprendizaje automático, desde la inteligencia artificial. Y dado que texto, imagen y sonido hay en todo el mundo social, suena difícil pensar en algún límite para la inteligencia artificial. Porque incluso en dominios en donde no hay textos en sentido estricto, como podría ser la genética, ahí también hay dimensiones que pueden pensarse como si fueran texto. Quizá un límite tenga que ver con las subjetividades. Y vuelvo a la crítica filosófica, pero no para escaparle a la pregunta, sino porque está instalada esta idea de la manipulación. Los algoritmos van a hacer que la gente vote a la derecha o que vote a la izquierda. Está presente esta idea de manipulación. Y ahí me parece importante mencionar que hay un límite potencial. Cualquier sociólogo que se precie de tal cuando se enfrenta a la idea de manipulación empieza a desconfiar. Sobre todo, porque lleva implícita toda una serie de supuestos respecto a las personas como cajas vacías, en las que uno mete cierta una información y hacer lo que quiere. Eso no es tan así. Está bastante documentado que esta tecnología tiene algún efecto en que vos mires más tiempo un vídeo, que hagas clic en determinados sitios, que compres algo específico, que veas una película que te recomiendan. Son conductas que uno podría llamar simples. Pero de ahí a sostener que estas herramientas también podrían tener un impacto parecido en conductas mucho más complejas como el voto, hay un salto un salto grande mirado desde lo lógico, lo metodológico y lo empírico. Sobre todo, cuando uno ve que la evidencia disponible al respecto. Hay trabajos que apuntan a indicar que el efecto sobre la preferencia electoral es bajo o más bien nulo. Entonces, ahí es donde veo, por lo menos por ahora, un límite posible. Lo cual no significa que no haya un efecto sobre un comportamiento social, pero parece ser que está más mediado. Pero si pensamos en las aplicaciones para investigación de la inteligencia artificial veo difícil encontrar un campo en el que no se pueda aplicar. Y esto que yo veo es algo compartido en gran parte por los colegas que trabajamos en esta área. Lo cual, insisto, no quita que exista una preocupación seria por un lo que decíamos al principio: hay usos de la inteligencia artificial que pueden ser problemáticos, hay ciertos ámbitos de la realidad que ameritan una discusión acerca de la posibilidad y la conveniencia de automatizar decisiones sobre los mismos. Pero en la escala los peligros y las urgencias esto es algo que está lejos de aquella distopía que hablábamos al principio.
—Esta sección se llama Agenda Académica porque pretende brindarle espacio en los medios masivos de comunicación a investigadores y docentes universitarios para que difundan sus trabajos. La última pregunta tiene que ver, precisamente, con el objeto de estudio: ¿por qué decidió especializarse en aplicaciones de métodos de aprendizaje automático a las ciencias sociales?
—En parte, todo este proceso es un proceso de un interés más nuevo. Yo trabajo en torno a la estructura social y la estructura agraria, mis trabajos van por ese sentido. Pero mi interés por este tipo de tecnologías es más metodológico. Hay un punto interesante y es que en algún momento las ciencias sociales en la Argentina pasaron de ser ciencias que estaban muy vinculadas a lo cuantitativo. Por ejemplo, cito a Gino Germani para pensarlo como un prócer de esto, pero también a Torcuato Di Tella, que usaba a la computadora Clementina para analizar datos censales. En ese momento, la interacción entre la computación como herramienta de análisis estaba muy presente en las ciencias sociales. Hablo de la década del 50 o la década del 60. Luego vino la dictadura y eso dejó de ser así. Más tarde empezó a predominar en muchas ciencias sociales un enfoque más metodológico vinculado a cierta forma de la lingüística, cierta forma de análisis del discurso, cierta cosa hermenéutica, al llamado giro lingüístico y ese análisis más general y más cuantitativo perdió espacio. Por eso, ahora todas estas herramientas como machine learning volvieron a poner en el centro de la cuestión la posibilidad de analizar información en grandes escalas. Antes las ciencias sociales tenían muchas preguntas para las que había poca información. Y ahora se puede procesar esa información para empezar a responder esas preguntas y se abren una serie de perspectivas bien interesantes en términos del trabajo académico y de renovación metodológica. Nuestro laboratorio y nuestro diploma tratan de ser nuestro pequeño aporte en esa dimensión. Es un área todavía pequeña y aún somos pocos los que trabajamos en ciencias sociales aplicando inteligencia artificial o machine learning. Mi opinión, sin embargo, es que eso se va a revertir: veo interés en les estudiantes sobre estas cuestiones. Yo siempre estuve más vinculado al análisis cuantitativo más que al cualitativo por eso creo que es un área interesante para desarrollar. Porque, en definitiva, una crítica potente de estas tecnologías tiene que venir por el área de las ciencias sociales. Y no hablo de la crítica filosófica, sino de un tipo de crítica basada en el conocimiento técnico de las herramientas. El caso más claro es ChatGPT porque es tan buena la interfase que uno no sabe qué pasa ahí adentro, es una suerte de caja negra. Por eso entender cómo funciona la tecnología ayuda a orientar mejor esa crítica.