Imprimir Republish

Estadística

La vida de las palabras

Físicos y lingüistas estudian la evolución del vocabulario en las comunidades online

LARISSA RIBEIRONadie sabe cuántas palabras nacen a cada instante. Los estudiosos del lenguaje solamente cuentan con la certeza de que ellas serían muchas y que la inmensa mayoría raramente es utilizada, y generalmente es olvidada. Al fin y al cabo, existen mucha más palabras que las que un único ser humano lograría aprender en el transcurso de su vida. Para hacerse una idea, el buscador Google registró 13 millones de palabras distintas en lengua inglesa utilizadas al menos 200 veces en páginas de internet hasta 2006, mientras que los investigadores estiman que el tamaño del vocabulario de un adulto con buen nivel educativo no sobrepasa las 100 mil palabras.

El misterio de la creación de palabras prosigue, pero un estudio publicado en mayo en la revista PLoS ONE, realizado por los físicos brasileños Eduardo Altmann y Adilson Motter en colaboración con una lingüista norteamericana, ayuda a comprender mejor de qué modo el vocabulario de una comunidad evoluciona con el tiempo. Al analizar estadísticamente miles de palabras utilizadas por casi 167 mil usuarios en dos grupos de discusión en internet, durante una década, el trío de investigadores arribó a la conclución de que las posibilidades de una palabra, vieja o nueva, de permanecer en uso en el futuro, no dependen tanto de la frecuencia en que es utilizada actualmente, aunque sí de la variedad de temas en los que se la utiliza y, lo que es más importante todavía, del número de personas que la utilizan. Según los dichos del autor principal del estudio, Altmann, del Instituto Max Planck de Física de Sistemas Complejos, en Dresde, Alemania, para mantener la variedad de palabras en uso dentro de una comunidad, “es mejor que mucha gente hable poco que poca gente hable mucho”.

Éste no es el primer artículo acerca de la evolución del vocabulario firmado por Altmann y Motter, de la Universidad Northwestern, en Evanston, estado norteamericano de Illinois. El intercambio de mensajes entre millones de personas a través de medios electrónicos deja vestigios en forma de bases de datos que los físicos cada vez más asiduamente se interesan por explorar, en busca de patrones que revelen la dinámica social que involucra la interacción digital. “Los físicos son muy buenos para descubrir relaciones entre los mecanismos subyacentes y los patrones observados”, dice la otra autora del estudio, la lingüista Janet Pierrehumbert, de la Universidad Northwestern, al respecto del trabajo. “También son muy buenos para construir analogías entre un tipo de fenómeno y otro”.

Los investigadores eligieron analizar la actividad hasta 2008 de dos grupos de discusión  en la familia de foros públicos Usenet, actualmente hospedados por Google, pero que ya existían en 1979, 10 años antes de la invención de las páginas web. Uno de los foros estudiados fue el comp.os.linux.misc, creado en 1993 para debatir sobre el sistema operativo Linux, del cual participaron 128.903 personas, que comenzaron 140.517 tópicos de conversación. El otro fue el rec.music.hip-hop, un grupo de debate sobre el género musical hip-hop, iniciado en 1995, en el que 37.779 personas se involucraron al menos una vez en uno de los 94.074 temas discutidos. El número total de palabras escritas por los usuarios de uno de esos grupos durante un intervalo de seis meses, variaba entre casi 1 millón y más de 5 millones.

Para cuantificar cómo cada una de las palabras utilizadas por esos grupos era difundida entre los usuarios y los temas en el transcurso del tiempo, no bastaba simplemente contar cada seis meses el número de veces que cada usuario utilizaba la palabra y cuántas veces aparecía en cada tema. El análisis estadístico debió tomar en cuenta el hecho de que la actividad de los usuarios, y el tamaño de las conversaciones de esos grupos variaba bastante. Algunos pocos usuarios escribían demasiado todo el tiempo, mientras que muchos solamente contribuían con algo cada tanto. Simultáneamente, algunos pocos tópicos contaban con más de mil mensajes posteados, permaneciendo la discusión durante más de tres años, mientras que el tópico promedio contenía cinco mensajes, durante un lapso de cinco días. Al final, lograron definir una cantidad que mide el grado de difusión de una palabra entre usuarios y conversaciones independientemente de la frecuencia con la que es mencionada. De esta manera, lograron comparar la difusión de palabras de rara mención con la de palabras de uso frecuente.

Presente y futuro
El siguiente paso consistió en comparar la cantidad de veces que cada palabra apareció en las discusiones y la medida de la difusión de cada una de ellas durante un período de seis meses, con los cambios en la frecuencia de uso de las mismas, dos años después. Computando los números, los investigadores observaron que la frecuencia en el uso de una palabra en un determinado momento, informaba poco acerca de la frecuencia con que sería empleada en el futuro. Ellos incluso observaron que la cantidad de veces que una palabra sería mencionada dos años más tarde parecía poseer una estrecha relación con la difusión de las palabras en el pasado. Arribaron a la conclusión entonces de que la probabilidad de uso de una palabra aumenta a medida que crece el número de personas que la utiliza. Eso significa que, incluso si una palabra fuese ahora muy utilizada, corre el riesgo de caer en desuso dentro de algunos años, si el número de conversaciones y de temas en los que resulta citada ahora fuera bajo.

Según los investigadores, la situación nos recuerda bastante la de los seres vivos luchando por su supervivencia. Cada palabra puede concebirse como una especie biológica. “Cada mención de una palabra puede ser comparable con un individuo de una especie”, explica Altmann. Para sobrevivir, la palabra debe reproducirse, lo cual sucede a partir del instante en el que alguien lee la palabra en algún sitio y la memoriza para utilizarla en el futuro. La difusión de la palabra, siempre de acuerdo con los investigadores, puede pensarse como constituyendo el nicho (la capacidad de interacción) de la especie con el ambiente. Cuanto más estrecho es el nicho de una especie, mayor riesgo de extinción corre. Por eso, una explosión demográfica no garantiza la supervivencia de una especie si su nicho fuera reducido. “La palabra necesita estar distribuida entre una cierta cantidad de usuarios, ya que, de lo contrario, muere”, dice el físico.

Uno de los resultados a los cuales arribó el grupo – el hecho de que el uso de la palabra en el presente no incida en cuanto a la frecuencia de su utilización en el futuro – contraría la conclusión de estudios recientes que analizaron la dinámica de las palabras durante períodos mucho más extensos (siglos) y demostraron la importancia de la frecuencia. En el más conocido de ellos, publicado en la revista Nature en 2007, un grupo liderado por Erez Lieberman, actualmente profesor visitante en Google, demostró que, en inglés, los verbos irregulares poco usuales, tienden a transformarse en verbos regulares, mientras que solamente los más adoptados por parte de la población mantienen su forma irregular. Eso explicaría por qué el verbo irregular to be, el más usado de la lengua, aún es y permanecerá irregular. Contrariamente, el verbo irregular to slink, que significa caminar sinuosamente y prácticamente no es conocido por las personas, está perdiendo su forma de pasado irregular slunk en beneficio de la variante regular slinked.

LARISSA RIBEIROJanet cree que esos estudios históricos analizan casos muy específicos en los que dos palabras compiten por un mismo nicho en el lenguaje. Ella explica que la mayoría de las palabras no se encuentran en competencia unas con otras, ya que los sinónimos absolutos resultan extremadamente raros. Por ejemplo, las palabras yes y yup pueden ambas significar “si”, pero el hecho de que la última sea más coloquial que la primera implica que cada una se utiliza en situaciones diferentes y, por lo tanto, cada una cuenta con su nicho asegurado. “Preveo que esos factores [difusión entre usuarios y temas] se revelarán también como muy importantes para explicar las fluctuaciones de frecuencias en tiempos históricos (del orden de los siglos)”, dice.

En ese sentido, Altmann sugiere que las medidas de difusión de las palabras desarrolladas por ellos sean aplicadas en cualquier otra base de datos análoga, tal como la de los más de 5 millones de libros digitalizados por Google Books, objeto de un estudio reciente publicado en la revista Science y encabezado por Liebermann, que midió y comparó la frecuencia de diversas palabras claves con interés histórico y cultural (lea en Pesquisa FAPESP nº 183). En este caso, los autores de los libros cumplirían el papel de usuarios y cada libro podría pensarse como una entrada en cierto tópico de discusión.

Otros dos resultados que se desprenden del análisis de los grupos de Usenet intrigan a los investigadores. Uno de ellos lo constituye el hecho de que la difusión entre los usuarios afecta los cambios de frecuencia de las palabras más que su propagación entre los tópicos. El otro resultado consiste en que las palabras en general se encuentran mayormente ligadas con usuarios que con temáticas. En conjunto, esas conclusiones revelan que las idiosincrasias de los individuos o de subgrupos de individuos cumplen un rol fundamental en el mantenimiento del vocabulario de la comunidad. “Quien lea los mensajes en el grupo de hip-hop, por ejemplo, percibirá que las personas hacen un esfuerzo para escribir de manera diferente que las demás para posicionarse socialmente”, explica Altamnn.

La propagación de las palabras no es el único factor determinante para su éxito. Altmann y sus colegas observaron que las palabras relacionadas con productos comerciales, como en el caso de wireless y Gnome (plataforma de distribución de Linux) o las personalidades tales como Bush y el rapper norteamericano Eminem, aparecían en los grupos de discusión con un grado de difusión escaso, cosa que, en principio, las convertiría en predestinadas al olvido. Pero en estos casos, fuerzas externas a los grupos, tales como las campañas publicitarias o la aparición en noticias en los medios de comunicación, actuaron para que esas palabras se incorporasen al vocabulario de ellos.

En tanto que los argot y variaciones muy aceptados por los grupos mantuvieron la tendencia estadística del resto de las palabras, sugiriendo que su aceptación dependía más de factores internos que externos. La lingüista Eleonora Albano, de la Universidad Estadual de Campinas, comenta que los argot y jergas son adoptados por una comunidad si contribuyen para la construcción de identidad del grupo social.

Maria Helena Neves, lingüista de la Universidad Estadual Paulista y de la Universidad Presbiteriana Mackenzie, considera interesantes los estudios cuantitativos al respecto de las conversaciones online, aunque sospecha que sus resultados no puedan generalizarse a la dinámica de la lengua hablada. “La muestra se halla restringida a causa del canal de expresión escogido, por el perfil de los usuarios y por el propósito de la interacción”, menciona. Por cierto, ella siempre desconfía de las generalizaciones. “En el lenguaje no existe una receta lista para nada, sino no existirían ni la literatura ni la poesía”.

Fisica_fecha_cmyk_c

Vocablos fluctuantes
Entre 1998 y 2000, palabras inglesas con un alto grado de difusión entre los miembros de un grupo de discusión sobre el sistema Linux crecieron en cuanto a su popularidad. En el gráfico del costado, las mismas se encuentran representadas en colores que van del rojo al amarillo. Las palabras con baja difusión (las que van del lila al negro) pasaron a ser menos utilizadas. La variación en la popularidad no dependió de su frecuencia de utilización.

Artículo científico
ALTMANN, E.G. et al. Niche as a determinant of word fate in online groups. PLoS ONE. May. 2011.

Republicar