Google'i digiraamatute abil «mõõdetakse» kultuurilist evolutsiooni
Mart ZirnaskHarvardi ülikooli uurimisrühm leidis viisi, kuidas statistiliselt "mõõta" kultuurilist evolutsiooni. Analüüsides sõnade esinemissagedust enam kui viies miljonis Google'i poolt digiteeritud raamatus, joonistati paarisaja aasta lõikes üksikasjalik pilt nii minevikusündmuste mäletamisest, tsensuuri tagajärgedest kui ka "kuulsuse" tähenduse muutumisest ühiskonnas.Kultuuri ja genoomika najal "kulturoomikaks" (culturomics) nimetatud lähenemisest loodavad uurijad voolida "uue teaduse skeletti". Selle alustalaks on pompöösne digiandmestu: hinnanguliselt 4% kõigist maailmas üldse välja antud raamatutest. 500 miljardit sõna, mille esinemine või kirjasõnast kadumine lubab aastate lõikes peegeldada väga erinevaid ühiskondlikke muutusi, lisaks ka keele enese arengut."Noh, räägitakse ju kultuuri evolutsioonist," selgitas ERRile antud intervjuus üks uurimisrühma juhte, Erez Liberman Aiden Harvardi ülikoolist. "Aga samas on evolutsioon midagi sellist, mille kohta peaks saama kirjutada valemeid, ja siis kontrollida neid reaalsete andmete abil." Küsimus sääraste n-ö rangete meetodite võimalikkusest "pehmetes" teadustes võttis uurijate jaoks konkreetsema kuju kolme aasta eest: ajakirja Nature kaanele jõudnud töös näidati ära, et inglise keele ebareeglipärase verbi "eluiga" peegeldab ruutjuur selle esinemissagedusest tekstides teatud ajal. Ent – millegi  laiema uurimine vajas üüratut hulka andmeid, mille kogumise taha ongi takerdunud igasugused varasemad sedasorti ambitsioonid."Aga just mõni aeg varem oli välja ilmunud Google Books – rääkisime siis neile, et näete, meil juba on Nature'is sellised tulemused ja..." Aiden mõtleb viivu. "Noh, pärast näisid juba kõik meie varasemad kvantitatiivsed meetodid iganenuna."Väljundeid: Hitleri tagakiusatute kaardistamineGoogle'i digiraamatute põhine 19. sajandi algusesse tagasi ulatuv andmestu – mis, muide, veebis igaühele vabalt kättesaadav ja "tuhnitav" – on praegu seitsmes keeles; tooni annab seejuures inglise keel. Sõnu ja sõnaühendeid analüüsides vaatles Harvardi uurimisrühm terve rea sotsiaalkultuuriliste nähtuste muutumist (vt lisakast). Uurijad ise toovad põnevaimate valdkondadena välja näiteks kollektiivse mälu väljajoonistamise: erinevate sündmuste mainimine raamatutes annab aimu sellest, kuidas ühiskond asju "mäletab" või "unustab"."Ja teiseks poliitilise surutise uuringud," mõtiskles uurimisrühma juht Jean-Baptiste Michel. "Kuidas tsensuur Natsi-Saksamaal kultuuritegelaste tuntust alla surus – täiesti rabavalt tuli see välja."Näiteks ilmnes, et vene-juudi päritolu kunstnik Marc Chagall jooksis kümnekonna aasta Hitleri-Saksamaa kirjandusest läbi ainult ühel korral – ajal, mil tema tuntus ingliskeelses kirjaruumis kordades kasvas. Sarnaseid märke näitasid ka venekeelsed tekstid Lev Trotski kohta.Just selliselt pinnalt saaks metoodiliselt "minna tagasi humanitaariasse", viitab Michel. Ehk: isikunimede esinemissageduse muutused aitaks välja tuua ka seni tundmatuid võimalikke tsensuuriohvreid – ning mõtestada kujunenud pilti edasi traditsiooniliste (kvalitatiivsete) humanitaaria-meetoditega.Aiden: "Tundub, et tegime intellektuaalses ruumis kindlaks sellise piirkonna, kus saab tegutseda väga rangelt ja statistilises mõttes sirgjooneliselt – aga saada samas tulemusi, mis on lähedal asjadele, millest tavaliselt räägitakse humanitaarias."Ta peab lühikese pausi. "Et – tehnika on juba väga-väga võimas. Ei usu, et humanitaarid sellest nüüd päris sõltuvaks saavad, aga – inimesi, kes funktsioneerivad kõvade ja pehmete teaduste piiril, saab ilmselt olema küll. Enamikul humanitaaraladel oleks sellele palju ruumi."Kuhu edasi: digitaalsed fossiilid?Nüüd ongi uurijate peamine ambitsioon andmestut täiustada – otsiparameetrite, skanneerimistehnoloogia, ent eelkõige tekstide eneste arvelt."Väljakutsuv" teema on seejuures ka Google Books ja autoriõigused, nendib Aiden. "Eesmärk on teha kättesaadavaks võimalikult palju täistekste – vähemalt teadustööks. 5-10 aasta jooksul võib-olla enamik kõigist olemasolevatest raamatutest."Samas: kultuur ei ole ainult raamatud, viitab Aiden. Ka käsikirju, kunsti ja arheoloogiliste leidude alast infot digiteeritakse vähehaaval. "Arvan, et see on tõesti suund, mida järgmise kümnendi jooksul neis uuringutes nägema hakkame. Selline terviklikkus," mõtiskleb ta. "Praegu oleme ikkagi natuke kallutatud – nende inimeste poole, kes oskavad kirjutada, on kirjutanud raamatuid, ja kelle raamatuid on ka trükki lastud. Kõik keerleb veel ainult raamatute ümber."        Tulemusi: vasakul "kulturoomiline" analüüs sellest, kuidas muutus ingliskeelse lugejaskonna toidulaud (jõuline tõus jäätisel!). Ning paremal viited tagakiusatud kunstnik Marc Chagalli figureerimisele: roosaga tähistatud ajavahemik hõlmab Hitleri-Saksamaa perioodi, kus, nagu näha, talle saksakeelses kirjasõnas pööratud tähelepanu kukkus, ingliskeelses aga tõusis.   Näitlikku kulturoomikatÜüratu digitaalne tekstikogu – 5 195 769 raamatut inglise, prantsuse, hispaania, saksa, hiina, vene ja heebrea keeles – moodustaks ühte ritta paigutatuna tuhat korda pikema tähejada kui inimgenoom. Sirgeks venitatuna ulatuks see kümme korda Maalt Kuule ja tagasi. Ent selle põhjal joonistatud graafikud näitasid muuhulgas, et:■ 1950ndatest alates on inglise keelde igal aastal lisandunud jämedalt 8500 uut sõna – see tähendab 70protsendilist kasvu võrreldes varasema perioodiga. Samas on 52% ingliskeelsete raamatute sõnavarast jäänud "leksikaalseks tumeaineks", mida suuremad sõnastikud üldse ei kajasta.■ Inimesed unustavad minevikku aina kiiremini. Näiteks aastanumbri "1880" kõrgeim esinemissagedus kahanes poole peale kolme kümnendiga – aastaks 1912. Seevastu huvi daatumi "1973" vastu langes samasugusel määral juba üheainsa aastakümnega.■ Info uutest leiutistest levis juba 19. sajandi lõpul üle kahe korra nobedamalt kui sama sajandi algusaastail.■ Aastal 1800 sündinud "kuulsused" tekitasid enim kõneainet keskeltläbi 43aastaselt; 1950ndail sündinud aga juba enne kolmekümneseks saamist. Aga – seejuures lühema aja vältel. "Inimesed saavad praegu kuulsamaks kui eales varem," kirjutavad uurijad. "Ent nad ka unustatakse palju kiiremini."■ Tuntuimad näitlejad saavad kuulsaks 30ndate eluaastate ringis, kirjanikud 40ndates. Poliitikud aga alles 50selt – ent samas palju rohkem kui kõige tuntumad näitlejad.■ "Freud" on inimeste kollektiivses alateadvuses märksa sügavamal kui "Galileo", "Darwin" või "Einstein".■ Ja paraku: teadusega tegelemine on tervikuna üsna armetu vahend kuulsuse hankimiseks. Eriti nadi seis on seejuures matemaatikutel.Vaata veel:culturomics.org (vabalt ligipääsetav ja otsitav andmebaas)Quantitative Analysis of Culture Using Millions of Digitized Books (Science Express, detsember 2010)Quantifying the Evolutionary Dynamics of Language (Nature, oktoober 2007)
