Chris Anderson es una influyente personalidad del mundo de la tecnología, que durante muchos años fue editor de la revista Wired (un auténtico faro para el universo tecnonerd). En junio de 2008 escribió un provocador artículo en Wired titulado “El fin de la teoría: el diluvio de datos hará que el método científico sea obsoleto”, una encendida defensa del potencial del big data y los algoritmos, y la profecía de un auténtico cambio de paradigma: los algoritmos haciéndoles cosquillas en los talones a Newton, Darwin y Einstein.
Dice Anderson: “Basta de una vez con la teoría del comportamiento humano, desde la lingüística hasta la sociología. Olvídense de la taxonomía, la ontología y la psicología. ¿Quién sabe por qué la gente hace lo que hace? El punto es que lo hacen, y que podemos rastrearlo y medirlo con una precisión antes impensable. Con suficientes datos los números hablan por sí mismos”.
Más allá de la revolución mediática causada por sus dichos extremos, nadie se toma ni demasiado en serio ni demasiado literalmente su apuesta, pero también es cierto que nadie la ignora.
Este último capítulo, de tono reflexivo, los invita a pensar en qué es lo que ven (o no ven) los sectores más escépticos de big data respecto del futuro, y también cuáles son las razones que esgrimen los fundamentalistas de big data para justificar su entusiasmo.
Big data no es todos los datos
“Hacer una muestra aleatoria en la época de big data es como usar un caballo en la era del automóvil”, dicen Viktor Mayer-Schönberger y Kenneth Cukier en su sobreentusiasta libro sobre el tema, militantemente titulado Big data: la revolución de los datos masivos. Los autores no son precisamente cautos en relación con la postura de Chris Anderson sobre el fin de la ciencia y la teoría. Por el contrario, abrazan la idea de que estamos cerca de tener “todos los datos”, lo que los lleva a opinar que las muestras, los experimentos y otras estrategias de la ciencia tradicional son cosas del pasado. Los talibanes de big data hablan con frecuencia de “N = todo” en relación con esta idea; la letra “N” es asiduamente usada en estadística para referirse al tamaño de la muestra.
La sección anterior enciende una luz de alarma sobra la falsa promesa de la cantidad de datos, debido a los cortocircuitos entre la anarquía de big data y los requisitos de la “ley de grandes números”, que dice que bajo ciertas condiciones se puede aprender tanto de la población como se desee si se dispone de una muestra lo suficientemente grande. En esta sección subiré la apuesta, para intentar convencerlos de que por más datos que genere big data, no hay forma de que lleguemos a tener todos los datos, satisfagan o no los requisitos de la ley de grandes números.
Vayamos a un ejemplo. Si para evaluar la efectividad de hacer dieta comparásemos el peso de Alberto, que sigue puntillosamente un régimen para adelgazar, con el de Manuel, flaco por naturaleza y que en su vida se preocupó por su alimentación, muy posiblemente nos daría que Alberto es más obeso que Manuel, por lo que algún disparatado querrá concluir que las dietas no funcionan: ¿o acaso no es cierto que los que hacen dieta son más gordos? Tampoco serviría comparar a Alberto antes y después de hacer dieta: posiblemente el régimen lo haga bajar de peso, pero quizás el descenso se deba tanto a la dieta como al plan de crossfit que siguió al pie de la letra a la par de las indicaciones de su nutricionista.
En cualquiera de estas dos circunstancias (Alberto versus Manuel, Alberto antes y después de la dieta), estamos comparando peras con manzanas. En el primer caso, las razones por las que Alberto inicia una dieta son las mismas por las cuales Manuel no lo hace: uno estaba excedido de peso y el otro no. Entonces, la comparación entre Alberto y Manuel refleja tanto el hecho de que uno hace dieta y el otro no como que Alberto pesa más que Manuel, más allá de la dieta. En el segundo caso (antes y después) se nos mezclaron los efectos de la dieta con los de otros esfuerzos que hizo Alberto para bajar de peso.
La evaluación de la efectividad de hacer dieta parece estar atada a la posibilidad de comparar “manzanas con manzanas” y “peras con peras”: el Alberto que hace dieta con el Alberto que no hace dieta, o Alberto antes y después de hacer dieta, pero sin haber hecho ninguna otra cosa que interfiriese con su peso. “Ser o no ser”, dice el famoso soliloquio de Hamlet, sugiriendo que las comparaciones de “manzanas con manzanas” son virtualmente imposibles, ya que parecen requerir que exista Alberto haciendo dieta y también Alberto no haciendo dieta; ser y no ser. La tenemos complicada.
En El jardín de senderos que se bifurcan, Jorge Luis Borges plantea un laberinto en el que convive “una infinita trama de tiempos que se bifurcan, se cortan o que secularmente se ignoran” y que “abarca todas las posibilidades”. En el laberinto de Borges es muy fácil evaluar la efectividad de hacer dieta: se trata de buscar “al Alberto que hizo dieta” y compararlo con “el Alberto que no hizo dieta”; manzanas con manzanas. Pero como les adelantamos, la realidad es mucho más difícil, ya que solo una de las circunstancias es observable; es uno o el otro, pero jamás los dos.
El diseño de experimentos es uno de los grandes logros de la ciencia moderna. Su esencia consiste en aislar el canal a través del cual una cosa afecta a la otra. En este sentido, un agrónomo asigna fertilizante a una parcela y no a la otra, pero garantizando que ambas tengan la misma cantidad de luz o agua, de modo que, luego del experimento, las diferencias en el crecimiento de las plantas se deban fundamentalmente al fertilizante. El experimento es un intento de reconstruir el laberinto borgeano: si está bien diseñado, es como si una parcela fuese exactamente la otra salvo por el fertilizante, lo que resulta una comparación de “peras con peras”.
La implementación de experimentos bien diseñados ha permitido avanzar a pasos agigantados a las ciencias tradicionales como la medicina o la biología y, con el rezago esperable, también a las ciencias sociales. Sin los cuidados necesarios, big data es una enorme muestra de pedazos del laberinto borgeano. De Albertos, Manueles, Martas, Titos y tal vez miles de millones de personas que hicieron dieta o no, pero nunca, jamás, de la misma persona que hizo y no hizo dieta.
No existe forma de que big data revele los senderos no transitados. Por su naturaleza “observacional” (basada en la observación de comportamientos) solo muestra resultados de acciones y no de sus correspondientes acciones “contrafácticas”. Los terabytes de datos de usuarios de una autopista –tal vez captados por sensores y de forma virtual–pueden decir muchísimo de ellos, pero casi nada de los que deciden no usar una autopista. Y a los efectos de la política pública, la información de ambos grupos es crucial.
El objetivo central de un experimento es crear información contrafáctica, no observarla, porque, como ya dijimos, es inobservable. Entonces, desde el punto de vista de la determinación de causas y efectos, no existe forma de que big data pueda aportar “todos los datos”, porque solo observa nuestras acciones y no nuestros contrafácticos: big data nunca es todos los datos. Esto no elimina el potencial de big data, sino que lo relativiza. Es el trabajo inteligente del científico el que deberá usar el potencial de los muchos datos para explorar cuestiones causales. Es muy posible que big data ayude considerablemente al diseño de experimentos, a la construcción de contrafácticos, o a la detección de datos que, si bien de origen observacional, se comporten como si hubiesen sido generados por un experimento, y sirvan para entender canales causales. Sí, es raro usar caballos en épocas de automóviles. Pero aprender relaciones causales mirando datos es como pretender inferir las leyes de la mecánica viendo pasar autos, por muchos que sean.
¿Quiero tener un millón de amigos?
En una visionaria demostración de masividad bigdatera, allá por los años 70 Roberto Carlos cantaba a los gritos su deseo de tener un millón de amigos. Lo que nunca imaginó el popular cantante brasileño es que lo que hace casi cincuenta años era una simple figura poética ahora es una realidad tangible: a la fecha tiene 720 mil seguidores en Twitter; solo se trata de esperar un poco y ser permisivo con la definición de “amigo” para que vea alcanzado su objetivo en un tiempo no muy lejano.
Y si, como dijimos en la introducción de este libro, los datos de big data son agua, las redes sociales serían algo así como las cataratas del Iguazú de la información. Facebook, Instagram y el propio e-mail han cambiado radicalmente la forma en la que interactuamos. Y también la definición de “amigo”, tal vez ahora, por lo menos en lo numérico, más cercana a la profecía autocumplida de Roberto Carlos que al “tengo pocos amigos, pero… ¡cuánta amistad tengo!”, como decía uno de los empalagosos aforismos del bueno de José Narosky. Lo interesante de la revolución de big data es que cualquier red social está en condiciones de medir tanto la cantidad de amigos como la de amistad, a través del análisis de las múltiples interacciones de sus usuarios. Esta sensación de Gran Hermano que todo lo vigila y lo mide es uno de los fantasmas del aluvión de datos. El miedo es que los algoritmos pasen de estudiar nuestros comportamientos a modificarlos radicalmente, a moldear nuestros gustos y voluntades al servicio de algún oscuro fin, que va desde comprar cierta marca de champú hasta votar a un político.
Se trata de una pelea de “algoritmos versus humanos”. Por un lado, los usuarios de las redes tienen cierto control sobre la decisión de con quién interactuar. Así, bloqueamos al insoportable compañero del secundario que llena su muro de mensajes proselitistas de preferencias políticas opuestas a las nuestras, y ponemos like en Facebook o Instagram a quienes nos caen en gracia.
Desde este punto de vista, si tenemos un millón de amigos en las redes sociales, es más o menos porque queremos. El problema es que este mecanismo de (auto) selección tiende a crear lo que en la jerga se llama “cámara de eco” informativa, donde una persona está sobreexpuesta a información de personas demasiado similares. Pero, por otro lado, están los algoritmos que, al analizar con quiénes interactuamos y de qué forma, intentan retenernos en las redes sociales tanto con fines honestos como de los otros. En la jerga se dice que los algoritmos generan “filtros burbuja”, es decir, muestran a las personas material que esas personas querrían ver, ocultándoles información relevante y aislándolas en una suerte de burbuja ideológica y cultural.
Cuenta un mito popular que, allá por 1930, al presidente argentino Hipólito Yrigoyen sus colaboradores le editaban un diario expresamente diseñado para que viera solo lo que él quería ver. La operatoria de las redes sociales parece ser una versión 2.0 del “diario de Yrigoyen”: los mecanismos de autoconformación de grupos (que prefieren lo homogéneo a lo heterogéneo) y la dinámica de los algoritmos sugieren que, más que el contenido de una red global y diversa, cuando abrimos Facebook, Twitter o Instagram en realidad nos enfrentamos a un diario de Yrigoyen armado a la medida de cada uno de nosotros. Pero es relevante señalar que esto de la conformación de grupos similares que intentan influirse entre ellos no parece ser una idea demasiado nueva, y tal vez sea tan vieja como las mismas interacciones sociales, en formato de suscripciones de revistas, constitución de clubes deportivos y sociales, grupos de fans, entre muchas otras instituciones que agrupan gente de intereses comunes. Por lo tanto, es válido preguntarse en qué medida la irrupción masiva de las redes sociales ha contribuido a aumentar la polarización entre grupos de interés, más de lo que ya lo hacían las instituciones y medios tradicionales.
En un polémico estudio publicado en la revista Science, los científicos de datos de Facebook Eytan Bakshy, Solomon Messing y Lada A. Adamic encuentran resultados sorprendentes en relación con estas cuestiones. El estudio se basa en alrededor de diez millones de usuarios de Facebook en Estados Unidos. Estos investigadores estudiaron milimétricamente cómo se interrelacionan estos usuarios, sus preferencias ideológicas (de izquierda, derecha, etc.) y la forma en que comparten información y dan like. De forma paralela estudiaron cómo operan los algoritmos que Facebook usa para filtrar la información entre sus usuarios. Varios resultados sorprendentes emergen del estudio: el más llamativo es que la conformación de “cámaras de eco” o “burbujas informativas” parece resultar de las elecciones de los usuarios más que de los algoritmos que eligen qué noticias mostrar. Es decir, no es tanto el Gran Hermano el que decide las noticias, sino el resultado de nuestras propias interacciones, como si cada uno de nosotros (en “cooperación” con nuestros amigos) nos autoescribiésemos nuestro propio diario de Yrigoyen promoviendo lo que nos gusta y escondiendo lo que no.
El otro resultado sorprendente es que el círculo de amigos de la mayoría de los usuarios de Facebook estudiados es bastante más diverso de lo que se sospecha: aproximadamente el 20% de los amigos pertenecen al espectro contrario de las creencias ideológicas. Es decir, de acuerdo con el estudio, un “progresista” tiene un 20% de amigos conservadores, y viceversa. Esto sugiere que el cruce de links y opiniones entre sectores es mayor que el que se pensaba, lo que relativiza la importancia del efecto cámara de eco antes mencionado.
Las críticas al estudio no tardaron en llegar. En primer lugar, para muchos analistas los resultados son sospechosamente favorables a la postura de Facebook, en el sentido de que lo eximen de culpa en lo que se refiere a contribuir a la polarización de la sociedad y manipular opiniones. En segundo lugar, muchos críticos señalan varios problemas metodológicos, en particular en relación con la falta de representatividad de los casos estudiados. Otros, en cambio, valoran positivamente que la propia empresa haga un estudio que es sometido al arbitraje de la comunidad científica.
El 17 de marzo de 2018, los diarios The Guardian (Inglaterra) y The New York Times (Estados Unidos) desataron un tsunami mediático al revelar una enorme filtración de datos privados de Facebook, que fueron utilizados con fines de manipulación política. Todo parece haber comenzado con una, en apariencia, inocente app desarrollada por un científico de datos de la Universidad de Cambridge, que luego fue cedida a la empresa Cambridge Analytica para que la usara con fines puramente científicos, tal vez como los del estudio que mencionamos antes. La app en cuestión permitía recoger información sobre un grupo de usuarios de Facebook que voluntariamente participarían en el estudio. Pero el diseño de Facebook permitió a Cambridge Analytica recuperar información de los respondientes y también de todos sus contactos. Christopher Wylie, ex empleado de Cambridge Analytica y el “soplón” arrepentido de esta historia, informa que, de esta forma, los datos de aproximadamente 87 millones de usuarios de Facebook fueron explotados por Cambridge Analytica para influir en las campañas de políticos como Donald Trump y Ted Cruz, y en el episodio del Brexit en Gran Bretaña. El escándalo fue mayúsculo y tuvo un fuerte impacto sobre la confiabilidad de Facebook y, en general, sobre la estructura de las redes sociales.
Una importante cuestión metodológica es si es posible estudiar estos fenómenos sin cruzar barreras éticas y morales. La ciencia demanda una transparencia metodológica e informativa que, más allá de las críticas, fue utilizada con fines válidos en el caso del estudio de los científicos de Facebook, y espurios en el caso de Cambridge Analytica. Esta difícil cuestión recuerda a la famosa paradoja del barbero de Bertrand Russell. En una aldea, un barbero les corta el pelo a todos los que no se lo cortan a sí mismos, y la pregunta es: entonces, ¿quién le corta el pelo al barbero? La paradoja surge de que el barbero incumple la regla cortándoselo a sí mismo, y también no cortándoselo. En este sentido, ¿es posible que los datos de big data se estudien a sí mismos? ¿Existe alguna garantía de que Facebook, Twitter o Instagram puedan proveer sus datos y estudiar su propia influencia sin, a la vez, generar resultados sospechosos o severos conflictos éticos? El estudio de la capacidad de persuasión de las redes sociales y de cómo estas complementan o sustituyen otros canales de influencia política o comunicacional es un tema extremadamente delicado y un gran desafío para big data.
Titanes en el ring de los datos
“Yo era el rey de este lugar;/ hasta que un día llegaron ellos;/ gente brutal, sin corazón/ que destruyó el mundo nuestro”, canta Nito Mestre en Tribulaciones, lamento y ocaso de un tonto rey imaginario, o no, compuesta por Charly García. Y algo similar siente la estadística clásica ante el aluvión de big data.
Como vimos en el capítulo 1, la revolución de datos y algoritmos es percibida con recelo por algunos sectores de la tradición estadística, que ven en big data otra moda pasajera y dicen que “científico de datos” no es otra cosa que un estadístico pero con chupines rojos. “Ahhh, sí, análisis multivariado”, me dijo recientemente un prócer de la estadística en relación con machine learning, sugiriendo que las técnicas modernas no agregan demasiado a los métodos multivariados que la estadística ya había descubierto cuarenta años atrás, y ofendido como un viejo cocinero que escucha llamar a una simple milanesa “loncha de res envuelta en panificación granulada embebida en óvulo no fecundado de gallina”.
La gran diferencia con el protagonista de la canción de Charly García es que la estadística fue un rey concreto y para nada tonto, y que cumplió un rol vital en el desarrollo de la ciencia moderna, tanto en el diseño de los experimentos de la biología o la física como en el análisis de datos de las ciencias sociales como la sociología, la política o la economía.
Mucho se ha escrito sobre “la estructura de las revoluciones científicas”, como reza el título del famosísimo libro de Thomas Kuhn, que dice que el avance de la ciencia no ocurre en forma suave sino “a los saltos”. Pero un punto importante es que la naturaleza revolucionaria de algunas ideas científicas o de ciertos episodios históricos es más bien una racionalización ex post: difícilmente los españoles de antaño se hayan levantado el 1º de enero de 1493 al grito de “¡entramos en la edad moderna!”. Es el análisis histórico lo que da perspectiva a eventos como la invención de la imprenta y la de los sea monkeys (ese fiasco ochentoso que les hizo creer a muchos que existía la generación espontánea), al fútbol y al paddle, a Yesterday y a Despacito. Es la historia de la ciencia la que confirma tanto que las revoluciones existen y seguirán existiendo, como que no todo cambio es una revolución.