library(tidyverse) library(stringr) dokmeta=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/korpus/dokmeta.txt") dokarvud=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/korpus/dokarvud.txt") dokmeta %>% filter(emakeel %in% c("soome", "rootsi")) dokmeta %>% filter(is.na(emakeel)) dokmeta %>% filter(!is.na(emakeel)) dokmeta[complete.cases(dokmeta), ] dokmeta %>% inner_join(dokarvud) %>% group_by(emakeel) %>% filter(rank(sonu)<3) %>% select(emakeel, sonu) %>% arrange(emakeel) dokmeta %>% select(-tekstikeel) dokmeta %>% select(-c(tekstikeel, elukoht)) dokmeta %>% select(vanus:kodukeel) dokmeta %>% select(ends_with("keel")) dokmeta %>% select(matches("^ko")) dokmeta %>% select(contains("ko")) dokmeta %>% select(emakeel, kodukeel, everything()) dokmeta %>% rename(keelekorpus=korpus) dokmeta %>% arrange(desc(tekstityyp)) dokmeta %>% mutate(vanuseots=str_sub(vanus, start=str_length(vanus)-1)) %>% select(vanus, vanuseots) dokarvud %>% summarise(sonadearv=sum(sonu), tekste=n(), lausetearve=n_distinct(lauseid)) dokarvud %>% inner_join(dokmeta) %>% group_by(keeletase) %>% summarise(sonadearv=sum(sonu)) dokarvud %>% inner_join(dokmeta) %>% group_by(keeletase, kodukeel) %>% summarise(sonadearv=sum(sonu)) dokarvud %>% mutate(sonukokku=sum(sonu), osa=sonu/sonukokku) %>% select(kood, sonu, sonukokku, osa) #Näidake iga teksti juures, kui suure osa moodustab selle teksti sõnade arv selle keeletaseme sõnade üldarvust dokarvud %>% inner_join(dokmeta) %>% group_by(keeletase) %>% mutate(sonukeeletasemes=sum(sonu), osakeeletasemes=sonu/sonukeeletasemes) %>% select(kood, keeletase, sonukeeletasemes, osakeeletasemes, sonu) dokarvud %>% select(kood, tahti, sonu) %>% gather("tunnus", "vaartus", -1) %>% arrange(kood) dokarvud %>% select(kood, tahti, sonu, lauseid) %>% gather("tunnus", "vaartus", -1) %>% ggplot(aes(tunnus, vaartus, group=kood)) + geom_line() dokarvud %>% select(-kood) %>% apply(2, FUN=mean) dokarvud %>% select(-kood) %>% apply(1, FUN=max) dokarvud %>% select(-kood) %>% apply(c(1, 2), FUN=function(arv){arv/2}) class(dokarvud %>% select(-kood) %>% lapply(FUN=mean)) class(dokarvud %>% select(-kood) %>% apply(2, FUN=mean)) class(dokarvud %>% select(-kood) %>% sapply(FUN=mean)) tapply(dokmeta$elukoht, dokmeta$elukoht, FUN=length) runif(1, 150, 170) rnorm(1, 160, 10) hist(runif(100000, 150, 170)) hist(rnorm(100000, 160, 10)) plot(density(runif(100000, 150, 170))) plot(density(rnorm(100000, 160, 10))) punif(160, 150, 170) punif(155, 150, 170) punif(165, 150, 170) punif(195, 150, 170) pnorm(195, 160, 10) pnorm(160, 160, 10) pnorm(170, 160, 10) qunif(0.75, 150, 170) #Leidke ühtlase jaotuse kohal väärtus, millest väiksemad on 95% mõõtmistest qunif(0.95, 150, 170) #Leidke 160 sd 10 normaaljaotuse korral väärtus, millest väiksemad on 95 mõõtmistest qnorm(0.95, 160, 10) dokmeta %>% inner_join(dokarvud) %>% ggplot(aes(tahti, lauseid, color=keeletase))+geom_point()+facet_wrap(~keeletase) dokmeta %>% inner_join(dokarvud) %>% mutate(vanus=factor(levels=c("kuni18", "kuni26", "kuni40", "41plus"), vanus))%>% ggplot(aes(tahti, lauseid, color=keeletase))+geom_point()+facet_grid(vanus~keeletase)