Imprimir PDF Republicar

Saber on-line

Como medir a cultura

Pesquisa analisa evolução da inteligência humana usando milhões de livros digitalizados

Daniel JacobinoComo quantificar algo tão volátil e multifacetado como a cultura? Como chegar a um denominador que indique uma tendência ou mudança ao longo do tempo em áreas tão sujeitas a chuvas e trovoadas como gramática, literatura, censura e comportamento?

Esse é o objetivo do ambicioso programa Culturomics, que há três anos vem sendo conduzido em parceria por professores, pesquisadores e alunos da Universidade Harvard e do Instituto de Tecnologia de Massachusetts, ambos nos Estados Unidos. Parte dos resultados foi condensada no artigo “Quantitative analysis of culture using milions of digitized books” (“Análise quantitativa da cultura usando milhões de livros digitalizados”), o segundo do programa e publicado em janeiro passado na Science.

Assinado por nomes de peso, como o psicolinguista Steve Pinker, o trabalho se debruçou sobre um corpus de 5.195.769 livros digitalizados pelo Google Books – o equivalente, segundo os coordenadores, a 4% de todos os livros já impressos na história. A empresa californiana se tornou, por extensão, “a maior e mais importante fonte de financiamento do projeto”, afirma Adrian Veres, um dos signatários do artigo.

Liderado por Jean-Baptiste Michel e Erez Lieberman Aiden, do Departamento de Dinâmica Evolucionária de Harvard, o artigo na revista norte-americana é fruto da pesquisa que os dois fizeram para quantificar a evolução dos verbos irregulares ingleses a partir de fontes secundárias. “De algum modo”, afirma Veres, “isso serviu para consolidar a ideia de que resultados importantes e significativos poderiam ser obtidos, em um nível quantitativo, através de dados tais como a repetição de uma determinada palavra ao longo do tempo”.

Alcir Pécora, professor de teoria literária na Universidade Estadual de Campinas (Unicamp), também se mostra entusiasmado com o projeto: “Acho interessante esse tipo de pesquisa, no sentido de que as máquinas permitem trabalhar hoje com enormes quantidades de dados. É uma massa fabulosa de informação”. Mas pondera: “Quando se trata de entender o que significam, esses dados precisam de um intérprete qualificado, e não de um analista de banco de dados. O que não significa que esse tipo de pesquisa seja inútil e, muito menos, ofensivo, como parecem por vezes pensar em meios humanistas tradicionais”.

Dentro de um universo bastante amplo de variações culturais que o Culturomics pretende mapear, a língua se revelou um dos mais seguros de serem mensurados – “um modelo clássico de mudança gramatical”. Pois, dizem os autores, “diferentemente dos verbos regulares [em língua inglesa], cuja forma pretérita se constrói com o acréscimo da partícula ‘ed’ ao final, os verbos irregulares são conjugados idiossincraticamente”.

Assim, enquanto nos Estados Unidos se disseminou o uso de formas regulares pretéritas de certos verbos (como “burn”/“burned” e “spell”/“spelled”), na matriz europeia se manteve mais frequente o uso de suas formas irregulares (“burnt” e “spelt”, respectivamente).

No entanto, o estudo quantitativo da gramática inglesa apontou uma mudança de paradigma cultural e geopolítico, com a crescente influência do padrão norte-americano sobre os usuários britânicos da língua inglesa. Pois, com o tempo, os britânicos também passaram a adotar as formas dos falantes da ex-colônia, conforme aponta a quantificação realizada pelo Culturomics.

“As formas irregulares terminadas em ‘t’ também podem estar morrendo na Inglaterra. A cada ano, uma população equivalente à da cidade de Cambridge adota burned em vez de burnt.”

Mas os falantes norte-americanos também resgataram formas irregulares já meio esquecidas na metrópole e que seriam, posteriormente, reincorporadas pelos ingleses à sua linguagem cotidiana.

Essas estatísticas levaram os autores do estudo a chamar os Estados Unidos de “os maiores exportadores tanto de verbos irregulares quanto de regulares”.

Não apenas a língua mas também a fama pode ser medida por meio das tabulações. “É possível medir quão rápido alguém se torna famoso, quão rapidamente alguém deixa de sê-lo, qual é a intensidade dessa fama e em que momento da vida determinada pessoa se tornou famosa ou deixou de sê-lo”, explica Veres, cuja linha de pesquisa é justamente a “dinâmica da fama”.

Uma das conclusões mais impactantes – e cruéis – sobre a sociedade contemporânea apresentada no artigo da Science é como as pessoas se tornaram famosas cada vez mais cedo; porém, em contrapartida, caem no esquecimento de modo muito mais veloz.

Daniel JacobinoVerbete
Para chegar a essa conclusão, o estudo tomou como ponto de partida 740 mil pessoas cujos nomes constavam de verbetes na Wikipedia, descartando apenas os casos em que os nomes eram os mesmos. Tabularam o restante tomando como base a data de nascimento e a frequência com que determinado nome era mencionado. Em seguida, considerando o período entre 1800 e 1950, criaram um grupo com as 50 pessoas mais famosas nascidas em cada um daqueles anos. Assim, em 1882 figura, por exemplo, a escritora Virginia Woolf e, em 1946, aparecem o ex-presidente dos Estados Unidos Bill Clinton e o diretor de cinema Steven Spielberg.

As estatísticas apontaram que o período em que as celebridades atingem seu pico permaneceu regular, isto é, cerca de 75 anos após o nascimento. Mas os outros parâmetros sofreram uma mudança drástica ao longo do período analisado: “As pessoas mais famosas nos últimos tempos são mais famosas do que as pessoas famosas das gerações anteriores. Entretanto, essa fama tem vida cada vez mais curta. O período posterior ao ápice da fama despencou de 120 para 71 anos durante o século XIX”.

Esses dados “são particularmente impressionantes porque estamos medindo a fama a partir de livros publicados, os quais, evidentemente, são uma mídia muito mais lenta do que jornais, revistas ou ainda periódicos que cobrem música”, alerta Veres.

Indagado se o Culturomics acabou por validar a profecia feita pelo artista Andy Warhol em 1968 – de que “no futuro todo mundo será famoso por 15 minutos”–, Veres responde com bom humor: “Se considerarmos a sociedade atual, acho que em muito pouco tempo serão apenas 7,5 minutos de fama”. E conclui: “Definitivamente, o ritmo está se acelerando, e a sociedade está se movendo cada vez mais rápido”.

Como consequência, a percepção daquilo que é velho e daquilo que é novo também vem se modificando na mesma velocidade, com ênfase muito maior no tempo presente. Um ano qualquer, como, por exemplo, “1880”, teve uma queda de 50% no número de citações 32 anos mais tarde, isto é, em 1912. Já uma data mais recente, como “1973”, teve uma queda equivalente no número de citações em um período de tempo muito mais curto, isto é, 10 anos depois, já em 1983.

“A cada ano que passa estamos esquecendo nosso passado de maneira muito mais rápida”, cravam os autores.

Mas certas conclusões do artigo não seriam óbvias demais, como afirmar que “o ano de ‘1951’ foi raramente discutido até os anos que imediatamente o precederam”?

Veres assume que “esse é de fato um risco em pesquisas assim. Por exemplo, é óbvio que, quando um país muda de nome (digamos, de Rodésia para Zimbábue), em um curto período de tempo deverá haver um declínio do nome antigo e um incremento do novo”. Entretanto, pondera, “a existência de tais ‘conclusões óbvias’ é muitas vezes útil porque serve como controle para o banco de dados” – justamente por chamar a atenção dos pesquisadores para esse risco.

Controle
“O que poderia ser uma conclusão sem importância nenhuma se torna uma forma de controle muito importante.”

E aqui os pesquisadores correm o risco de cair em outra armadilha, que é o de transpor o limite entre fato e interpretação. E eles próprios o admitem no final do artigo – “o desafio do Culturomics reside na interpretação de suas evidências”.

Veres explica a metodologia que o grupo seguiu para superar essa dicotomia. “Os dados são a frequência com que as palavras surgem ao longo do tempo. Talvez, ainda falando dos dados, sejam necessárias algumas correções menores, como anotações erradas ou falhas na leitura óptica. Já a interpretação é o processo que busca explicar o que levou os dados a tomarem a forma que têm. O desafio, então, é encontrar o melhor lar que se ajuste a eles” – e, por lar, Veres se refere às diferentes histórias e visões de mundo disponíveis.

E, de fato, há muitos tópicos apontados no artigo que permanecem em aberto e que deverão ser explorados nas próximas etapas do projeto. Por exemplo, a incidência de censura a ideias e pessoas. Durante o nazismo, na Alemanha, os membros do partido registraram um crescimento em número de menções de cerca de 500%! Em contrapartida, a menção aos grandes nomes da arte tida pelo regime como “degenerada” – o pintor espanhol Pablo Picasso ou o arquiteto da Bauhaus Walter Gropius – despencou vertiginosamente.

Segundo os autores, esses dados podem levar à criação de um “index da supressão”, “formulando uma estratégia rápida para identificar prováveis vítimas de censura”.

Por exemplo, “Freud” parece estar mais entranhado no imaginário do que “Galileu”, “Darwin” ou “Einstein”; “Deus”, igualmente, não tem andado muito em alta; também se deduz, pela quantificação, que a dieta típica norte–americana é feita de “bife”, “embutido”, “sorvete”, “hambúrguer”, “pizza”, “massa” e “sushi”. Por fim, o feminismo mostra ter deitado raízes mais cedo na França, porém foi nos Estados Unidos que se desenvolveu mais. E, na luta entre os sexos, a “mulher” ganha do “homem” – ao menos no número de menções.

Infelizmente até agora a língua portuguesa não foi contemplada no projeto. E a razão tem a ver não só com sua relativa pouca penetração cultural e geopolítica, mas também com o tamanho e a digitalização das bibliotecas locais.

Veres argumenta que o português não fez parte do projeto por não atender aos critérios estabelecidos. “Mas a ideia é no futuro incluir no banco de dados do Cultoromics tanto o português quanto várias outras línguas”, conclui.

Republicar