library(tidyverse) sonad=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/kunglarahvas_lambipirn_pikkused_haalikud.txt") sonad %>% mutate(sosa=sulghaalikuid/sonapikkus, tosa=taishaalikuid/sonapikkus) %>% {cor(.$sosa, .$tosa)} sonad %>% select(where(is.numeric)) sonaliigid=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/korpus/doksonaliigid.txt") sonaliigid %>% select(where(is.numeric)) tabel=sonaliigid %>% select(where(is.numeric)) %>% cor() tabel[1, 2] tabel[1, ] tabel["A", ] tabel["V", ] sort(tabel["V", ]) colnames(tabel) tabel %>% as_tibble() %>% .$V t2=tabel %>% as_tibble() t2$sonaliik=colnames(tabel) t2 t2 %>% select(V, sonaliik) %>% arrange(desc(V)) arvulised=select(sonaliigid, -kood, -kokku) arvulised/sonaliigid$kokku osakaalud <- sonaliigid %>% filter(kokku>0) %>% select(-kood) %>% {./.$kokku} %>% select(-kokku) osakaalud cor(osakaalud) #Võtke välja verbiga seotud korrelatsioonid osakaaludest ja järjestage cor(osakaalud) %>% as_tibble() %>% mutate(sonaliik=colnames(.)) %>% select(V, sonaliik) %>% arrange(-V) dokmeta=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/korpus/dokmeta.txt") sonaliigidmeta=dokmeta %>% inner_join(sonaliigid, by=c("kood"="kood")) #Järjestage sõnaliikide korrelatsioonid tegusõnaga eestikeelsetel tekstidel #Järjestage sõnaliikide osakaalu korrelatsioonid tegusõnaga eestikeelsetel tekstidel sonaliigidmeta %>% filter(tekstikeel=="eesti") %>% select(where(is.numeric)) sonaliigidmeta %>% filter(tekstikeel=="eesti") %>% select(A:X) koikV=t2 %>% select(V, sonaliik) %>% arrange(desc(V)) eestiV=sonaliigidmeta %>% filter(tekstikeel=="eesti") %>% select(A:X) %>% cor() %>% as_tibble() %>% mutate(sonaliik=colnames(.)) %>% select(sonaliik, V) %>% arrange(-V) eestiV %>% mutate(reanr=row_number()) #Pange mõlemale verbijärjestuste andmestikule külge rea number #Ühendage üheks tabeliks kokku #Arvutage, mitme koha võrra ja kuhu suunda erineb vastava sõnaliigi koht #Lisage korrelatsioonikordaja erinevus eestiVRN=eestiV %>% mutate(reanr=row_number()) koikVRN=koikV %>% mutate(reanr=row_number()) eestiVRN %>% inner_join(koikVRN, by=c("sonaliik"="sonaliik")) eestiVRN %>% inner_join(koikVRN, by=c("sonaliik"="sonaliik")) %>% mutate(kohavahe=reanr.y-reanr.x, osakaaluvahe=V.y-V.x) #Võrrelge teiste sõnaliikide suhtelise sageduse sarnasust nimisõnaga (S) #eestikeelsete tekstide B1 ja B2 keeletasemete vahel eestiB1=sonaliigidmeta %>% filter(tekstikeel=="eesti", keeletase=="B1", kokku>0) eestiB2=sonaliigidmeta %>% filter(tekstikeel=="eesti", keeletase=="B2", kokku>0) eestiB1k=eestiB1 %>% select_if(is.numeric) %>% {./.$kokku} %>% select(-kokku) %>% cor() %>% as_tibble() %>% mutate(sonaliik=colnames(.)) %>% select(sonaliik, S) %>% arrange(-S) %>% mutate(reanr=row_number()) eestiB2k=eestiB2 %>% select_if(is.numeric) %>% {./.$kokku} %>% select(-kokku) %>% cor() %>% as_tibble() %>% mutate(sonaliik=colnames(.)) %>% select(sonaliik, S) %>% arrange(-S) %>% mutate(reanr=row_number()) eestiB1k %>% inner_join(eestiB2k, by=c("sonaliik"="sonaliik")) %>% mutate(kohavahe=reanr.y-reanr.x, korrvahe=S.y-S.x)