Tere valgest raamatust ehk euroopa keeltest digiajastul räägime täna ja sellest ka, kas eesti keel sureb digiajastul välja või mitte. Ma palusin valgest raamatust rääkima Eesti keeleressursside keskuse juhi Kadri Videri, tere päevast. Tere. Tere. Kui Tartus keeletehnoloogia konverents algas, siis tuli seal, et kohe uudis, mis pisut vist meedias võimendus, aga teie peate nüüd sellele hinnangu andma, et kas eesti keel digiajastu? Tull hääbub või mitte? No ma usun, et eesti keele perspektiiv ei ole väga halb sest et kõiki neid valge raamatu tulemusi me peame võtma ikkagi kontekstist teiste euroopa keeltega ja kui kogu selle uuringu üldine tulemus on see, et peale inglise keeles kõik teised keeled Euroopas on suhteliselt vähe toetatud keeletehnoloogilise toega siis eesti keel just nimelt väiksema kõnelejate arvuga keelte seas ei olnud üldse mitte nõrgal positsioonil, vaid pigem võib öelda, et eesti keeles selle vähese kõnelejate arvu juures on üllatavalt palju keeletehnoloogilist tuge. Räägime siis natukene sellest valgest raamatust, mis on saadaval nii internetis kui ka paberkandjal. Ma sain aru, mis tegelikult on hoopis punast värvi. Ja muidugi valgeid raamatuid, see ei ole ainulaadne valge raamat, vaid valge raamat on üks teatud dokumendi liik Euroopa raportite seas. Aga see on siis konkreetselt, et selline raport, mis kõneleb euroopa keeltest digitaalsel ajajärgul ja võeti ette metaneti ehk siis Euroopa keeletehnoloogia tippteadmiste võrgustiku poolt teha ühtlaselt uuring üle euroop. Aga kuidas on Euroopa keelte olukord selles mõttes võrdsetel alustel ühe samasuguse metoodikaga tehtud uurimus, et võib pidada päris objektiivseks? Kas metanet, väga salapärane nimi, kas see tegeleb ainult keele või ainult keeletehnoloogia küsimustega või millegiga veel laiemaga? Ta tegeleb jah, keeletehnoloogia küsimustega tehnoloogia, eks, sellentsuse ehk tippteadmiste võrgustik siis kus ta paikneb. Mismoodi ta töötab, selline virtuaalne, ütleme keskus või need kõige kesksemad inimesed, eestvedajad. Professor Hans Uskoraid ja Georg kreem, nemad asuvad Saksamaal. Kas võib siis öelda, et sakslased nagu juhivad seda uurimistööd ka või on ikka võrdsus jah, võib, ikka võib öelda küll. Nii, ja nüüd on siis kokku pandud valge raamatusari iga keele kohta Raamat iga uuritud keele kohta. Nii, ja kui palju neid keeli on, mida uuriti ja miks just nii. Palju neid keeli on 31, aga raporteid on natuke rohkem, sest näiteks norra keele kohta on kaks raamatut, on selle nüünovski ja Pukmooli mõlemi kohta eraldi raamat. Seal on kõik Euroopa Liidu ametlikud keeled, pluss siis veel mõned. Enim räägid tuttkeeled, mis ei, ei oma ametlikku staatust, näiteks nagu katalaani ja Galiitsia ja baski keel. Siis nendest 31-st 21 puhul on hoiatatud, et need keeled on digihääbumise ohus. Jah, see on siis nii-öelda uurimistulemused klasterdamise või rühmitamise tagasi ärge kokkuvõtte, et muidugi see rühmitamine oli natukene kallutatud selles mõttes, et jagati siis viide rühma tulemuste järgi. Ja esimene rühm jäi täiesti tühjaks, ühesõnaga esimene rühm, kus oleks pidanud olema suurepärase keeletehnoloogilise toega keeled ja isegi mitte ingliskeel ei paigutanud sinna inglise keel paigutus järgmisesse rühma, kus on siis hea keeletehnoloogilise toega keeled ja ta jäi sinna uhkesse üksindusse kõikides valdkondades. Ning siis viimasesse kolme rühma paigutusid kõik ülejäänud keeled ning need 21 keelt, nagu mainitud juba need on siis need, kes sattusid kahte viimasesse rühma. Ehk kõige viimane rühm oli olemas mitu või väga nõrk tugi. Ja eelviimane rühm oli puudulik tugi ja kus siis Eesti on? Eesti on kahes valdkonnas, on ta seal nõrga või olematu toega rühmas ja kahes valdkonnas on ta puuduliku toega rühmas noh, need hinnangud lihtsalt Nende rihmade juurde, kuigi peaksime vaatama seda, millist teiste keeltega samades rühmades oleme. Kahjuks meie lõunanaabrid Läti ja Leedu on igas valdkonnas viimases rühmas. Aga meie põhjanaaber, Soome, tema keeletehnoloogiline tugi on suhteliselt siis eelviimases rühmas ja kõnetehnoloogiates vist oli ka selles rahuldavas rühmas. Ühesõnaga, need valdkonnad on kõnetehnoloogia, masintõlketeksti genereerimine ja keeleressursid. Et kui kõnetehnoloogia ja masintõlge võib-olla on üldiselt arusaadavad, mis nad endast kujutavad, siis teksti genereerimine on selline tegevus, kus masin ise on võimeline koostama ka näiteks eestikeelseid lauseid. Aga meil on olemas ainult sõnavormide genereerimine, me veel nii kaugele ei ole jõudnud, et oleks suudaks lauseid genereerida. Ning siis keeleressursid on kõik see andmestik, mida keeletehnoloogid vajavad, selleks, et mingisuguseid keeletehnoloogilist tarkvara või süsteeme teha. See on meil päris heal järjel, see on meil päris heal järjel, sest selle tegevusega on hakatud pihta juba rohkem kui 10 aastat tagasi. Korpuste kogumisega, inglise keele edu ilmselt ei üllata kedagi, kas, kas see inglise inglise keelel on nii suur keeletehnoloogiline tugi olemas, kas see tuleb ka osaliselt sellest, et et sellega ju tegeleb mitte ainult Inglismaa, vaid ka kogu Ameerika? No sellega tõenäoliselt tegelevad kõik need, kus räägitakse inglise keelt emakeelena. Mõelge kui palju riike tegelikult maailmas, kui suurel maa-alal inglise keel levinud on. Ja tõenäoliselt on inglise keelele ka kõigi tehnoloogiliste uuenduste jaoks kõige suurem turu surve. Et kui tehakse mingisugused tehnoloogilised uuendused, siis sageli on need seotud inglise keelega ja kui sinna on vaja mingisuguseid keeleliideseid teha, siis tehakse need kõigepealt. Inglise keele jaoks ära, uutes telefonides ja uutes arvutiprogrammides just see turu huvi kommertshuvi on see, mis väikeste keelte puhul tekitab probleeme. Niipidi vist ei ole õige küsida, et see kommertshuvi puudumine pidurdabki arengut? Jah, tõenäoliselt küll. Ega meil on ka eesti keele keeletehnoloogia riiklik programm on teadus-arendustegevuse programm. Ja siiamaani siis teadlased on saanud sellest tuge ja loonud siis oma oma tipptaseme juures selliseid prototüüpe, mida nüüd võiksid keele, et tehnoloogiafirmad, keda meil Eestis väga ei ole, võiksid edasi toodeteks arendada, see koht on hetkel kõige nõrgem oleks nagu teadlaste poolt välja töötatud mudelite prototüübid aga lõppkasutajad, inimene tänavalt nii-öelda neist siiski veel väga palju kasu ei saa. Kui inglise keelele on eduseis selles küsimuses ilmselge, siis kas näiteks sugulaskeeled saaksid koostööd teha, et ennast digimaailmas kehtestada näiteks näiteks eestlased ja soomlased, et kuidagi jõud kokku panna või on meie keeled siiski nii palju erinevad, et seda teha ei saa? Ma usun, et koostöövõimalusi siin täitsa oleks. Et soomlastega on meil kontaktid suhteliselt head ja kui nüüd natuke erinevad rahastusmudelit ka omavahel selgeks saavad, siis, siis võiks isegi toodeteni jõuda, koostöö on meil isenesest olemas soomlastega meta nordi nimelises projektis, mis ongi siis ometi üks nii-öelda tegevus projekte. Ja samuti on selles meta nordi projektis meil koostöö lätlaste ja leedulastega. Nii et me mitte ainult me ei ole võrrelnud oma keeletehnoloogilist taset naabritega vaid samuti saame mõneski asjas siin koos seid edasi arendada. Võtame eesti keele. Kui eriline on eesti keel või kui palju on spetsiifilisi probleeme, mis tulenevad just eesti keele iseloomust süntaksist näiteks käänamisest ja pööramisest. Ekst vormi analüüsil sealt probleeme ole, aga muidu vormianalüüs on meil suhteliselt läbitud etapp, nii et sellega väga palju probleeme ei tohiks olla, kuigi ma mäletan nii-öelda algusaegadest oli päris palju tegevust, et selgitada, mille poolest eesti keel eriline on. Kuigi me ei ole selles asjas üksinda, soome keelel, on samamoodi vormi rikkuste vormi, analüüsi keerukust küllalt palju mis on kõikide keelte puhul täiesti ainulaadne, tähendab, saab võtta mingisuguseid statistilisi mudeleid üle aga ei saa tõsta ühe keele jaoks toodetud asju automaatselt teise keelde üle. On kõneanalüüs ja süntees selles mõttes, et hääldusalused ja noh, mitte ainult häälikuid, vaid ka mitmesugused muud kõne parameetrid on ikka igas keeles nii erinevad et, et sellega tuleb igas keeles vaeva näha. Nii et kui me tahame külmkappi panna eesti keeles rääkima, siis me täpselt samal kujul ei saa teda panna soome keeles. Nojah, ta räägiks soome aktsendiga tugeva soome aktsendiga, mis ei ole väga hull. Aga ma mäletan, Eesti vabariik 90 ürituste raames viis Haridus-Teadusministeerium läbi sellise asja nagu keeletalgud, mille üheks osaks oli siis peale kaunite emakeelsete lausete kogumise ka teha need lauset kuuldavaks eri keelte kõnesüntesaatorid poolt. Ja sealt sai küll päris palju naerupahvak, kuid esile kutsutud prantsuse või, või kasvõi inglise kõnesüntesaatorid. Kujundlikult väänasid oma keelt eesti keele lausetega nagu üle oru Mäele läbi oru jõele. Eesti keelt, eestlased ise vähemasti peavad väga raskeks keeleks, kas see teeb ka selle teie töö raskemaks? Vot seda ei oska küll niimoodi kokku viia, sest et keeletehnoloogid on meil siin teadlased, teadlastele meeldib kõik, mis ongi teatud määral raske. See pakub neile huvi. See annab neile just nimelt selgitada välja. Kui euroop pas räägitakse väga palju keeli, siis Euroopa suund, ma saan aru, on ikkagi säilitada kõik keeled ja samal ajal ületada see barjäär rahvaste vahel ja mitte seda ületada ühe keele domineerimisega teiste keele üle, ehk siis inglise keelega vaid siiski, tõstes digiajastul ühele tasandile võimalikult palju keeli. Ja just nii see on, sest see on ühest küljest paljukeelse Euroopa võlu, aga samas ka valu. Kas te arvate, et selleni ka jõutakse? Ma usun, et mitte ainult Eesti meedias ei karjatatud. Nüüd eesti keel sureb kohe välja, kohe hääbub vaid see ilmselt juhtus niimoodi ka Lätis ja Leedus ja, ja võib-olla isegi Soomes. Jah, no mõnes mõttes metaneti keskne pressiteade selle selle mõttega loodud oligi, et äratas igal pool tähelepanu ja juhtis tähelepanu sellele probleemile, mis võib juhtuda paljukeelses Euroopas digitaalajastul. Et vastukaja erinevatest riikidest on olnud väga elav, seal metaneti enda lehel peetakse sellele täpset arvet ja sinna on juba kogunenud vist ligi 500 kirjet selle kohta vastu kajade kohta Euroopa Liidu riikides ja mujalgi. Ja me räägime siin küll siin nisugune atraktiivne näide, et külmkapp peab minuga minu keeles rääkima, see on tulevikumuusika, aga tegelikult, et kus siis praegu keeletehnoloogilist tuge inimene kasutab ka ilma, et ise sellest arugi saaks, võib-olla et tegelikult see ei ole mingi ulme, see on ju tegelikult olemas juba. No alates meie kõige vanemast keeletehnoloogia tootest siis eesti õigekirjakontrolli eest ehk siis õigemini vormi kontrollijast. Me sageli ei pane tähelegi, kuidas paljudes tänapäevastes mitte ainult tekstitoimetites, vaid ka kasvõi meili saatmise programmides korrigeeritakse või juhitakse meie tähelepanu vigastele vormidele. Et tekivad, kellel on sisse lülitatud, see võimalus tekib kohe tekstis vigaste sõnade alla. Punane sakiline jutt ja siis vaatad, ohoo, tõepoolest olen vea teinud. Aga noh, selleks peab inimene võib-olla natuke teadlik kole maja selle võimaluse sisse lülitama, et tegelikult on ka mitmeski muuski asjas see, et inimene ei taju neid võimalusi mida ta võiks keeletehnoloogiast veel saada. Muidugi kõige kuumemad, kõige viimase aja uudised, et kõnetehnoloogia vallast eesti keelele on just et kõneanalüüsi rakendused mis on mõeldud nutitelefonidele ja käivad siis läbi Tallinna tehnikaülikooli küberneetika instituudi serveritest, kus siis sisse räägitud kõnest tehakse tavaline tekst, aga see nõuab natukene natukene nokitsemist, nõuab nutitelefoni ja androidi. Operatsioonisüsteemi väidetavasti on olemas ja subtiitrite ettelugemissüsteem, mis on siis eluliselt vajalik vaegnägijatele ja sellist süsteemi arendatakse ühes keeletehnoloogia riikliku programmi projektis Eesti keele Instituudi kõnetehnoloogide poolt ja see peaks siis tõenäoliselt seesama nii-öelda laiatarbekasutusse järgmise aasta lõpuks. Kui palju on vaja riigi abi ja kui palju meie riik abistab ja toetab. Riik abistab päris märkimisväärselt keeletehnoloogia riikliku riiklikus programmis tuleb riigieelarvest igal aastal umbes 760 et 1000 eurot ja praegu on see jagatud 21 projekti vahel. Projekte on siis nii keeleressursside kui keele, selle tehnoloogia ehk siis tarkvara poole pealt. Kas te selle metaneti valge raamatu jutu kokkuvõtteks võite kinnitada, et eesti keel ei ole komiteed digihääbumise ohus isenesest mitte hääbumise uuseumite digihääbumise ohus, kui temaga samavõrra nagu praegu edasi tegeletakse digimaailmas. Ma usun küll, et ta hääbumis ohus ei ole. Ja tegelikult see ei sõltu ainult riigi rahast või keeletehnoloogide huvitavatest projektidest vaid digihääbumise vältimine sõltub igaühest meist keelekasutajatena. Et kasutagem digimaailmas neid võimalusi, mida eesti keelele juba loodud on ka näiteks noh, lokaliseerimine, ehk siis tarkvara eestindamine on iseenesest üks selliseid asju, mis aitab eesti keelel digimaailmas ellu jääda. Ja minul on isiklikult raske aru saada inimestest, kes halvustavad eestikeelset tarkvara tuge. See võib-olla alguses harjumatu, aga kindlasti kui me seda kasutame, siis ta saab harjumuspäraseks ja me aitame säilitada eesti keelt digimaailmas. Piinlik lugu tahtsin praegu näidet tuua kirjutamisprogrammist käskude kohta ja eriti nagu eesti keeles meelde ei tulegi. Siis tuleb lihtsalt ümber lülitada eesti keel, see nõuab natuke harjumist, aga tegelikult ühel hetkel saad aru, et see on väga loomulik sest kui rääkida tarkvara kasutamisest, siis see on rohkem seotud inimeste harjumuste kui keelega, sest kui sa lähed võõrasse keelekeskkonda, sul on seal täitsa võõrkeelne arvuti, sest suuremate keelte kasutajatele on omakeelse keskkonna järgi olnud keskkonna kasutamise võimalus juba ammu algusest peale. Lähed võõrasse keskkonda võõrakeelse arvuti taha ja tegelikult see nii-öelda käsikaudu saad ikkagi oma vajalikud käsud kätte mälupildi järgi. No Facebook'is mulle tuleb tegelikult näide kohe, et võib ju ka see käib siia alla, et mitte seerida, vaid jagada uudist just nimelt minul on Facebook eestikeelne. Nii tuleme korraks norra keele juurde tagasi. Te ütlesite, et norra keelte kohta on kohe kaks raamatut. Jah, sest Norras on minu meelest lausa ametlikul tasemel kasutusel õigemini kaks riigikeelt, üks on siis bukmol ja teine on nüünošk. Ma päris täpselt Nende lingvistilisi erinevusi ei tea, ma saan aru, et üks on vanem kirjakeel ja teine on siis nii-öelda tänapäeva kõnekeel või ütleme noh, kõnekeelel on eesti keeles natuke teine tähendusega tänapäeva kasutuses olev keel, aga nad mõlemad tahetakse viia siis digimaailma. Jah, mõlemal peaks olema digimaailmas tugi olemas. Aga kui kaugele peaks sellega minema selles mõttes, et kas me ei peaks siis mõtlema ka näiteks meie väiksemate keelte peale, näiteks setu keele peale või võru keele peale, et peaks olema nemad ka digimaailmas. Ja ja seda on ühest küljest nii toetletud kui ka teisest küljest võrukesed setu keeleuurijad on ise olnud aktiivsed, esitanud projekti sinnasamasse riikliku keeletehnoloogia programmi ja on saanud ka sealt tuge võru ja setu keelekorpuste loomiseks, see tähendab siis nii võru ja setu keele tekstid kui ka mitmesugused kõnesalvestused. Et, et need oleksid nii-öelda keeleressurssidega keeletehnoloogiliste andmestik olemas. Et nende pealt omakorda saaks arendada kas või võru ja setu keele õigekirja kontrollijat või siis kõnesünteesi. See on küll suurepärane uudis ja Tartu oli tegelikult selle nädalal võib öelda, et keeletehnoloogiakeskus suisa kaks suurt ja olulist ja mõjukat. Konverentsi jah, juhtus küll nii, ühest küljest mõtlesime, et nagunii on see publikum suures osalt kattuv, noh, kui nüüd Eesti tegijate peale mõelda, et tuleme siis juba neljaks päevaks korraga kokku ja ja räägime ja jagame oma teadmisi ja mõtteid. Esimene konverents oli keeletehnoloogia hetkeseisust Eestis. Jah, see oli siis riikliku programmi projektide nii-öelda aruandekonverentse. Ja teine konverents oli siis rahvusvaheline teine konverents on rahvusvaheline jumala längunstiks Nolotšis Baltic perspektiiv, see on õigemini juba viies samasugune konverents, kus siis balti riikide keeletehnoloogid tulevad kokku ja räägivad, kuidas neil läheb ja missuguseid teadusuudiseid on nad vahepeal välja mõelnud. Missugune oli siis kõige suurem uudis teie jaoks? No äsja lõppes just sellep Balti konverentsi ühe peaesineja Lorila Melli ettekanne ja tema on siis kõnetehnoloog Prantsusmaalt ning nende laboris on tehtud kõneanalüüsi väga paljudele keeltele kusjuures nad ise nagu üldse ei noh, ei oska neid keeli Elton suhteliselt nagu, nagu pimedalt tehtud. Et Neil on kasutada suured andmestikud, loomulikult konsulteerivad nende keelte noh, kõnespetsialistide kõne tehnoloogidega, aga seal konkreetses laboris oli rohkem kui 20-le keelele arendatud väga adekvaatset tulemustega. Kõneanalüüsisüsteeme. See oli päris põnev ettekanne, analüüsisid võõrast keelt ilma seda ise mõistmata jah, et nad rakendasid omi mudeleid, see on noh, kõne analüüs on põhimõtteliselt signaali analüüs. Et kui neil oli mingisuguse keele kohta teadmine, millistest häälikutesse koosneb ja kuidasmoodi eristada nende häälikute piire siis Neil oli ka mingisugune hulk siis salvestisi sellest keelest ja võib-olla oli ka eeltöö selles suhtes, et et oli ka siis tekstid nende salvestiste kohta, nii et nad said põhimõtteliselt helisignaali ja, ja tähe kop, kui viia ja selle pealt treenida omi süsteeme. Kas sellest tehti järeldusi ka keele kohta konkreetse keele kohta, mida nad, millega nad tegelesid, parajasti Nemad ise ei teinud, sest nende eesmärk oli siis tõesti arendada kõneanalüüsisüsteeme, aga see on selline uurimiskeskus, kus käib palju järeldoktoreid stažeerimas ja need on siis küll nende keelte kõnelejad isenesest oskajaid ja nemad saavad tõesti teha oma oma teadustööd siis nende tulemuste põhjal avastada kindlasti midagi uut ka oma oma keele kohta. Kadri Videri, te olete keeleressursside keskuse juht ja see ei ole ka väga vana amet ja asutus teps mitte. Rääkige pisut lähemalt. Sellest keskusest keeleressursside keskus on siis loodud eesmärgiga pakkuda teadlastele ja keeletehnoloogidele nõndanimetatud taristut kus Nad võivad saada keelematerjali keeleandmestik ehk keeleressursse siis samuti saada kasutada kõiki neid juba valmis tehtud prototüüpe neid üksteisega ma ei tea, nagu lego klotse liites teha uusi süsteeme või, või arendada siis juba lõppkasutaja jaoks mingisuguseid, et tehnoloogiaid välja. Et põhimõtteliselt on keeleressursside keskus nagu natuke nagu arhiiv ja natuke nagu raamatukogu ja natuke nagu teadus keskus. Kui palju keskuses inimesi töötab? No see keskus isenesest on mõnes mõttes nagu virtuaalne Ta on moodustatud kolme asutuse konsortsumine kus siis nendes asutustes ühel või teisel määral on hõlmatud tööga umbes kümmekond inimest ja need asutused on siis Tartu Ülikool õigemini Tartu Ülikooli arvutiteaduste instituudi keeletehnoloogia rahvas ja Tallinna tehnikaülikooli küberneetika instituut, tudi kõnetehnoloogid ning Eesti keele Instituudi keeletehnoloogia osakond. Aitäh Kadri Videri ja, ja loodame, et siis eesti keel kinnitab ikka jõudsamalt kanda digimaailmas. Loodan minagi, see on üks uus meedia ja eks eesti keel ole varemgi üle elanud. Aitäh tehnoloogiliselt ütleme ka ühiskondlikke muutusi ning idakeel elab ikkagi ainult siis, kui tal on laiad kasutusvaldkonnad kui eesti keelest kunagi sa ei midagi enamat kui keel köögi ja ja kodu tarbeks. Kui tekkis teadus- ja ilukirjanduse keel eesti keeles siis nüüd kui ei saa ükski keel hakkama ilma selleta. Neil ei oleks tuge digimaailmas, nii et eesti keele kasutusvaldkondade seas peab olema digitaalne maailm, eesti keel peab hakkama saama selles valdkonnas. Muidu tema kasutusvaldkondade ampluaa on väga kitsas. Saates esines Kadri Videri Eesti keeleressursside keskuse juht ja ta rääkis euroopa keeltest ja ka siis eesti keelest digimaailmas tulevikus. Saate toimetaja on Piret Kriivan. Lingi valge raamatu lugemiseks leiate keele saate kodulehelt. Head aega.