Imprimir Republish

Ciencia de la computación

Algoritmos parciales

De qué manera absorbe patrones discriminatorios la inteligencia artificial y qué puede hacer la ciencia para evitar tales distorsiones

Los algoritmos de la inteligencia artificial (IA) se han desarrollado en buena medida para detectar patrones, de manera tal que puedan automatizarse las decisiones a los efectos de facilitarle la vida a la gente. Esta tecnología puede reconocer el estilo de música preferido de un usuario, el género de películas que le interesa a este o los temas que más busca en los diarios. Sin embargo, al estar programados para captar modelos de comportamiento, los algoritmos también pueden replicar conductas indeseables, tales como el racismo, la misoginia y la homofobia. Absorben, reproducen y, como resultado de ello, afianzan la discriminación y la intolerancia presente en la sociedad en sus más variadas formas.

En agosto de 2019, un estudio llevado a cabo por investigadores de la Universidad Federal de Minas Gerais (UFMG) expuso un ejemplo de ese círculo vicioso que cobró repercusión en diversas publicaciones de la prensa internacional: un proceso de radicalización política en YouTube en el contexto estadounidense, donde el algoritmo de recomendación cumple un papel importante. “Ya había estudios cualitativos y reportajes que mostraban a YouTube como un terreno fértil para la proliferación de comunidades sombrías vinculadas a la denominada alt-right [derecha alternativa] estadounidense, cuyos principios están íntimamente ligados a la supremacía blanca”, dice el científico de la computación Manoel Horta Ribeiro, quien actualmente realiza un doctorado en la Escuela Politécnica Federal de Lausana (EPFL), en Suiza. En su maestría, realizada en la UFMG bajo la dirección de los científicos de la computación Wagner Meira Jr. y Virgílio Almeida, él prentendía entender cómo se suscitaba ese fenómeno.

El grupo hurgó en 331.849 videos de 360 canales de distintas orientaciones políticas y rastreó 79 millones de comentarios. Esto representa un volumen inmenso de datos, manejable justamente merced a los recursos de la inteligencia artificial. “El único trabajo manual consistió en la clasificación de los canales según su orientación política”, dice Horta Ribeiro. Los resultados revelaron que los canales supremacistas blancos se benefician debido a la migración de seguidores de canales políticamente conservadores con contenidos menos extremistas.

“Rastreamos la trayectoria de los usuarios que comentaban videos de canales conservadores y descubrimos que, con el paso del tiempo, ellos comentaban los videos de los canales más radicales. Había una migración consistente de los contenidos más leves hacia los más extremos, pero no sabemos cómo sucede eso exactamente”, explica ortaHorta Horta Ribeiro. “Creo que hay tres razones que contribuyen con ese fenómeno: el formato del medio, donde cualquiera puede generar contenidos y en el cual los espectadores interactúan bastante directamente con los creadores; el escenario político mundial actual, y el algoritmo, que les permite a los usuarios detectar o continuar consumiendo contenido extremista a través del sistema de recomendaciones”.

Los estudios que involucran a YouTube se han tornado significativos en los últimos años. Según Virgílio Almeida, profesor emérito del Departamento de Ciencia de la Computación de la UFMG, esta plataforma de videos se ha revelado como algo muy interesante para la ciencia. “La cifra de usuarios es enorme –más de 2 mil millones en todo el mundo y 70 millones en Brasil–, como así también su impacto en la sociedad”, dice el investigador. Su departamento se transformó en un granero de investigaciones sobre el fenómeno de las redes sociales.

Almeida comenzó a dedicarse a este campo de investigación en 2007. Los estudios que tuvieron mayor repercusión provinieron del ámbito político, polarizado tanto en Estados Unidos como en Brasil. En 2018, un análisis de discursos de odio y discriminación en videos publicados en YouTube por grupos de derecha estadounidenses cobró preponderancia en la International ACM Conference on Web Science, en Holanda. Ese trabajo fue reconocido como el mejor llevado a cabo por estudiantes: los alumnos de doctorado Raphael Ottoni, Evandro Cunha, Gabriel Magno y Pedro Bernardina, todos integrantes del grupo de Wagner Meira Jr. y Virgílio Almeida.

Para el estudio de los comentarios transcritos de los youtubers y los comentarios publicados en los videos, los investigadores de la UFMG recurrieron a las herramientas Linguistic Inquiry Word Count (LIWC) y Latent Dirichlet Allocation (LDA). LIWC permite la clasificación de palabras dentro de categorías correspondientes a la estructura de las frases (pronombres, verbos, adverbios, etc.) y al contenido emocional (si expresan alegría, tristeza, enojo, etc.). LDA busca palabras que puedan definir cuáles son los apartados principales en una conversación.

“También utilizamos una herramienta basada en un test psicológico para determinar el sesgo de esos comentarios”, explica Raphael Ottoni. Esta herramienta se basa en la comparación de las distancias entre palabras ubicadas en un mismo contexto, con la finalidad de establecer asociaciones. Esto se concreta mediante el empleo de técnicas de aprendizaje de máquinas que convierten las palabras de un texto en vectores de números; y estos, a su vez, se utilizan para calcular la similitud semántica de las palabras. En el caso de algún tema en particular, las palabras que se encuentran más cercanas tienden a establecer entre sí una asociación de significado. “Palabras tales como “cristianismo” aparecían en el texto asociadas a atributos de valor positivo, tales como bueno u honesto, mientras que “islamismo”, estaba relacionada con frecuencia a terrorismo y muerte”, menciona Ottoni a modo de ejemplos.

Jose Luis Magana/ AFP/ Getty Images Supremacistas blancos en Estados Unidos: los canales de esos grupos en YouTube registran el aval de internautas conservadores menos radicales, señalan los investigadoresJose Luis Magana/ AFP/ Getty Images

Estas técnicas se aplicaron en la coyuntura brasileña. Los investigadores analizaron videos publicados en YouTube durante el período de la campaña electoral de las presidenciales de 2018, en 55 canales identificados con posturas políticas que iban desde la extrema izquierda hasta la extrema derecha. Los mensajes de odio y las teorías conspirativas se detectaron con mayor frecuencia en los canales de extrema derecha, y estos fueron los que registraron un mayor crecimiento en cuanto a la cantidad de visualizaciones. Los investigadores están ahora culminando un artículo en el cual presentarán los resultados de este análisis. Pero incluso antes de su publicación, este estudio ya ha sido citado: en agosto de 2019, apareció mencionado en un reportaje publicado en el periódico The New York Times como parte de una serie dedicada a la influencia de YouTube en distintos países, y particularmente en Brasil.

Según Almeida, en otros estudios se ha constatado que los algoritmos de recomendación de noticias y videos acaban valiéndose de la atracción natural humana por las noticias negativas y las teorías conspirativas para intensificar el nexo de los usuarios con esa plataforma. “Una investigación llevada a cabo por un grupo del MIT [Instituto de Tecnología de Massachusetts], que salió publicada en la revista Science en marzo de 2019, demostró que los temores, los enojos y las emociones más extremas son factores claves para la difusión de tuits con falsedades”, resalta.

De la misma manera que un algoritmo registra la música y las películas que prefiere el usuario, también capta  sus preferencias políticas, razón por la cual las plataformas de contenidos compartidos –tal como es el caso de Facebook– se transforman en burbujas casi infranqueables de un determinado espectro político. El usuario solo recibe aquella información que corrobora sus opiniones previas.

Para estudiar este fenómeno, e inspirado por el libro El filtro burbuja (en Brasil O filtro invisível, editorial Zahar, 2012), del activista estadounidense Eli Parisier, el científico de la computación estadounidense Christo Wilson, de la Northeastern University, en Massachusetts, Estados Unidos, ingresó al campo de las redes sociales en 2012. “Mis estudios se centraban originalmente en el estudio de la personalización de los algoritmos utilizados por los mecanismos de búsqueda, y desde entonces me he expandido hacia otros tipos de algoritmos y contextos”, le dijo el investigador a Pesquisa FAPESP. Wilson se apresta a regresar al campo de la política en 2020: tiene en mente realizar un amplio estudio sobre el impacto de las redes sociales en las próximas elecciones que tendrán lugar en su país.

La discriminación algorítmica
El sesgo algorítmico puede aparecer donde menos cabría de esperarse, tal como, por ejemplo, en los servicios de asistencia de voz inteligentes del celular. En el marco de un estudio realizado en forma conjunta entre la Universidade de Fortaleza (Unifor) y el grupo de la UFMG se detectó que la eficiencia de los asistentes de voz, tales como Siri, de Apple, y Google, varía según la entonación y el nivel de escolaridad. La científica de la computación Elizabeth Sucupira Furtado, quien coordina el Laboratorio de Estudios de los Usuarios y la Calidad en el Uso de Sistemas de la Unifor, llevó a cabo un estudio con dos grupos de voluntarios: residentes Fortaleza, la capital del estado de Ceará, entre ellos varios nacidos en otros estados, y alumnos de una escuela de educación nocturna para jóvenes y adultos. “Los usuarios nacidos en las regiones sur y sudeste del país eran mejor comprendidos por los software de asistentes de voz que el resto de los usuarios”, revela la investigadora.

Los errores en la pronunciación (cacoepía), el tartamudeo o la repetición de palabras y el habla escandida (disfluencia), también mermaron el rendimiento de los asistentes robóticos. Según la investigadora, una vez que el sistema aprende con los usuarios que tienen mayor nivel educativo, el entrenamiento de los asistentes de voz tiende a limitarse a las formas del habla estandarizadas. “Es importante que las empresas registren que existe un público al que no se está teniendo en cuenta”, advierte Sucupira Furtado.

Cris Faga/ Fox Press Photo/ Folhapress Una manifestación durante la última campaña presidencial en Brasil: los investigadores estudiaron los vídeos publicados durante la disputa electoralCris Faga/ Fox Press Photo/ Folhapress

En los mecanismos de búsqueda también se ocultan prejuicios. Eso fue lo que demostró la científica de la computación Camila Souza Araújo en su tesina de maestría defendida en la UFMG, en 2017. En los buscadores de Google y de Bing, la investigadora introdujo los términos “mujeres lindas” y “mujeres feas” y comprobó un prejuicio racial y de edad. Las mujeres a las cuales se las identificaba como lindas eran mayoritariamente blancas y jóvenes. Ese sesgo se repitió en la mayoría de los 28 países donde predomina el buscador Bing y en 41 países que utilizan el buscador Google, incluso aquellos pertenecientes al continente africano.

Al utilizar sistemas de aprendizaje de máquinas, la sociedad corre el riesgo de perpetuar prejuicios en forma inadvertida, debido al sentido común que percibe a la matemática como algo neutro. El ingeniero de datos estadounidense Fred Benenson acuñó un término para definir a ese riesgo: mathwashing. Para ello se basó en el término greenwashing, que denomina al uso de estrategias de marketing en las empresas para simular preocupación ambiental. De la misma manera, la idea de que los algoritmos son neutros también beneficia y exime de responsabilidad a quienes los utilizan.

Sucede que los sistemas de inteligencia artificial se alimentan con datos, y quienes seleccionan esos datos son seres humanos, que podrían actuar basándose en prejuicios de manera inconsciente o intencional. Un estudio llevado a cabo por un científico de la Universidad de California en Berkeley, Estados Unidos, que salió publicado en octubre en la revista Science, explicitó un ejemplo de ello. En un hospital de ese país, los investigadores constataron que el algoritmo responsable de la clasificación de los pacientes con mayor necesidad de atención –por hallarse en un riesgo mayor– privilegiaba a los blancos en detrimento de los negros. Esto sucedía porque el sistema se basaba en el pago de seguros de salud, que son mayores en el caso de los individuos con mayor acceso a la atención médica, y no en la probabilidad de que cada uno padezca enfermedades graves o crónicas. Esta situación pone en evidencia que la construcción del algoritmo puede ser responsable del prejuicio embutido en los resultados.

La educación contra los sesgos
La protección de la sociedad frente a la desinformación y los prejuicios difundidos por la inteligencia artificial constituye un reto que puede comenzar a superarse apelando a la educación. Virgílio Almeida pone de relieve en carácter de ejemplo a la iniciativa de las escuelas de Finlandia, que promueven entre los niños el desarrollo de un espíritu crítico y la detección de noticias falsas en la web, las denominadas fake news. Por supuesto, no basta con educar a los usuarios, sino que también es necesario educar a los programadores. “Una de las maneras de evitar los sesgos consiste en disponer de datos más diversos para entrenar al algoritmo”, enfatiza Almeida.

La estudiante universitaria Bruna Thalemberg, una de las fundadoras del Tecs – Grupo de Computación Social, del Instituto de Matemática y Estadística de la Universidad de São Paulo (IME-USP), coincide: “El mundo está cambiando permanentemente, los algoritmos no deberían reproducir el pasado”. El Tecs, fundado en 2017 como un equipo de extensión universitaria, surgió del diálogo de alumnos de la USP con el estudiante brasileño Lawrence Muratta, quien estudiaba ciencia de la computación en la Universidad Stanford, en Estados Unidos, donde ya había un grupo que planteaba el tema del sesgo.

“Sentíamos que la carrera de ciencia de la computación estaba muy alejada de la sociedad”, relata el exalumno Luiz Fernando Galati, quien actualmente trabaja en el Centro de Enseñanza e Investigación en Innovación de la Fundación Getulio Vargas. El objetivo inicial del grupo era promover charlas y debates, pero acabaron proponiendo la inclusión de una nueva materia en la estructura curricular, algo que efectivamente se produjo.

Pedro Ladeira/ Folhapress En la sesión de la comisión de investigación bicameral sobre las fake news en el Congreso se abordó la pauta referente a la proliferación de noticias falsas en el marco de las elecciones de 2018Pedro Ladeira/ Folhapress

“Las charlas que promovemos se ofrecen en el marco de la materia ‘Derecho y software’, bajo la supervisión de los docentes Daniel Macedo Batista y Fabio Kon”, informa Galati. El Tecs también forma parte de la TechShift Alliance, que agrupa a 20 organizaciones universitarias de América del Norte, América del Sur y Asia, dispuestos a debatir las temáticas sociales relacionadas con la inteligencia artificial.

Más allá de la reflexión, el Tecs tiene el propósito de pasar a la acción, mediante proyectos que les permitan a grupos marginados el acceso al universo digital. Uno de esos proyectos es la enseñanza de lógica de programación a alumnos del Centro de Asistencia Socioeducativa al Adolescente, la Fundación Casa [correccional]. “La primera división de ese curso se puso en marcha en el segundo semestre de 2018”, informa la estudiante Jeniffer Martins da Silva, educadora que forma parte del proyecto. Desde su creación, más de 40 jóvenes han asistido al curso.

La propia inteligencia artificial también puede aportar formas de prevención y control. En 2018, investigadores de la USP y de la Universidad Federal de São Carlos (UFSCar) pusieron en marcha la versión piloto de una herramienta digital cuyo objetivo es detectar fake news (lea el artículo online en: bit.ly/igAlgoritmosVies). La misma se encuentra a disposición en forma gratuita, vía web o en WhatsApp. Basta con someter una noticia sospechosa al sistema de verificación. Al constatar indicios de falsedad, el sistema responde: “Esta noticia podría ser falsa. Por favor, consulte otras fuentes confiables antes de divulgarla”. Según los autores del estudio, el sistema identifica con precisión hasta un 90% de las noticias que son totalmente falsas o totalmente verdaderas.

En la Universidad de Campinas (Unicamp), un grupo que encabeza el científico de la computación Anderson Rocha, director del Instituto de Computación, se ha abocado al desarrollo de mecanismos de detección de informaciones falsas difundidas en fotografías y videos. “Nos valemos de técnicas de IA para comparar las informaciones que aparecen en determinado texto con comentarios y posibles imágenes. Al verificar esos tres grupos de información, señalamos la posibilidad de discrepancia que puede conducir a la identificación de una noticia falsa”, dice Rocha.

A su vez, se espera del sector privado una mayor transparencia. El término “responsabilidad algorítmica” viene siendo cada vez más utilizado en los debates sobre el uso de la IA. Según el abogado Rafael Zanatta, experto en derecho digital e investigador del grupo de Ética, Tecnología y Economía Digital de la USP, aún no existen leyes específicas relacionadas con los aspectos discriminatorios de los algoritmos, aunque ya han surgido iniciativas en tal sentido. En Estados Unidos, se presentó un proyecto de ley denominado Algorithmic Accountability Act. De aprobárselo, las empresas tendrán que evaluar si los algoritmos que alimentan los sistemas de IA son tendenciosos o discriminatorios, y también si constituyen un riesgo para la privacidad o la seguridad de los consumidores.

En abril de 2019, la Unión Europea divulgó directrices éticas para el uso de la inteligencia artificial, entre las cuales figuran el establecimiento de medidas que hagan responsables a las empresas de las consecuencias sociales de la utilización de IA, y la posibilidad de intervención y supervisión humana en el funcionamiento del sistema.

En Brasil, también se intentó introducir en 2019 una ley que contempla la revisión humana de las decisiones automatizadas. Un ciudadano que se sintiera perjudicado por una medida dispuesta por algoritmos –en el otorgamiento de un préstamo, por ejemplo– podría requerir la intervención de un revisor para dilucidar los criterios adoptados para la toma de la decisión. Ese proyecto, sin embargo, fue vetado por la Presidencia de la República, basándose en el argumento empresarial que sostiene que la revisión humana acarrearía costos adicionales.

Proyecto
Déjà vu: Coherencia temporal, espacial y de caracterización de datos heterogéneos para el análisis y la interpretación de la integridad (nº 17/12646-3); Modalidad Proyecto Temático; Investigador responsable Anderson de Rezende Rocha (Unicamp); Inversión R$ 1.385.219,47

Artículos científicos
RIBEIRO, M. H. et al. Auditing radicalization pathways on YouTube. arXiv. 22 ago. 2019.
CAETANO, J. A. et al. Characterizing attention cascades in WhatsApp groups. Proceedings of the 10th ACM Conference on Web Science. p. 27-36. 26 jun. 2019.

Republicar