library(tidyverse) ngramid=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/korpus/ngram3.txt") dokmeta=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/korpus/dokmeta.txt") pikk=ngramid %>% group_by(kood, ngram3) %>% summarise(kogus=n()) lai=pikk %>% spread(ngram3, kogus, fill=0) koodid=lai$kood lai$kood=NULL #summad=colSums(lai) #lai[,names(summad[summad>500])] #table(summad) uuritavad=lai[,head(order(colSums(-lai)), 25)] d=dist(uuritavad) asukohad=cmdscale(d, k=2) asukohad=as_tibble(asukohad) #abilugemine asukohad=read_csv("http://minitorn.tlu.ee/~jaagup/kool/java/kursused/17/r/naited/asukohad.txt") asukohad %>% ggplot(aes(V1, V2))+geom_count() asukohad$kood=koodid dokmeta %>% inner_join(asukohad) %>% ggplot(aes(V1, V2, col=keeletase)) + geom_count() dokmeta %>% inner_join(asukohad) %>% ggplot(aes(V1, V2, col=tekstikeel)) + geom_count() dokmeta %>% inner_join(asukohad) %>% ggplot(aes(V1, V2, col=tekstikeel)) + geom_count() + facet_wrap(~keeletase) #Koostage sama uuring nõnda, et vaatluse alla võetakse vaid #A(1, 2) ning B(1, 2) tasemega tekstid #Näidake siis kujunenud asukohad lai=dokmeta %>% filter(grepl("[AB]", keeletase)) %>% inner_join(ngramid) %>% group_by(kood, ngram3) %>% summarise(kogus=n()) %>% spread(ngram3, kogus, fill=0) koodid=lai$kood lai$kood=NULL uuritavad=lai[,head(order(colSums(-lai)), 15)] d=dist(uuritavad) asukohad=cmdscale(d, k=2) asukohad=as_tibble(asukohad) asukohad %>% ggplot(aes(V1, V2))+geom_count() asukohad$kood=koodid dokmeta %>% inner_join(asukohad) %>% ggplot(aes(V1, V2, col=keeletase)) + geom_count()