library(tidyverse) andmed=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/korpus/dokkoik.txt") count(andmed) andmed$keeletase andmed %>% group_by(keeletase) %>% summarise(kogus=n()) andmed %>% group_by(keeletase) %>% summarise(kogus=n()) %>% arrange(-kogus) andmed %>% filter(keeletase %in% c("A", "B")) %>% group_by(keeletase) %>% summarise(keskpikkus=mean(tahti)) andmed %>% filter(keeletase %in% c("A", "B")) %>% ggplot(aes(tahti))+geom_histogram() andmed %>% filter(keeletase %in% c("A", "B")) %>% ggplot(aes(keeletase, tahti))+geom_boxplot() andmed %>% filter(keeletase %in% c("A", "B")) %>% filter(tahti<5000) %>% ggplot(aes(tahti, fill=keeletase))+geom_histogram() andmed %>% filter(keeletase %in% c("A", "B")) %>% filter(tahti<5000) %>% ggplot(aes(tahti, fill=keeletase))+geom_boxplot() andmed %>% filter(keeletase=="A") %>% .$tahti t.test(andmed %>% filter(keeletase=="A") %>% .$tahti) t.test(andmed %>% filter(keeletase=="A", tahti<5000) %>% .$tahti) t.test(andmed %>% filter(keeletase=="A") %>% .$tahti, conf.level=0.9999) t.test(andmed %>% filter(keeletase=="A") %>% .$tahti, mu=1000) t.test(andmed %>% filter(keeletase=="A") %>% sample_n(50) %>% .$tahti, mu=1000) t.test(andmed %>% filter(keeletase=="A") %>% .$tahti, andmed %>% filter(keeletase=="B") %>% .$tahti) t.test(andmed %>% filter(keeletase=="A") %>% sample_n(50) %>% .$tahti, andmed %>% filter(keeletase=="B") %>% sample_n(50) %>% .$tahti) t.test(andmed %>% filter(keeletase=="C") %>% .$sonu, andmed %>% filter(keeletase=="B") %>% .$sonu) andmed %>% filter(keeletase=="A") %>% summarise(kA=mean(A), kD=mean(D)) andmed %>% filter(keeletase=="A") %>% .$A andmed %>% filter(keeletase=="A") %>% .$D t.test(andmed %>% filter(keeletase=="A") %>% .$A, andmed %>% filter(keeletase=="A") %>% .$D) t.test(andmed %>% filter(keeletase=="A") %>% .$A, andmed %>% filter(keeletase=="A") %>% .$D, paired = TRUE) andmed2=andmed %>% sample_n(80) t.test(andmed2 %>% filter(keeletase=="A") %>% .$A, andmed2 %>% filter(keeletase=="A") %>% .$D) t.test(andmed %>% filter(keeletase=="A") %>% .$tahti, andmed %>% filter(keeletase=="A") %>% .$sonu, alternative="greater") #tähti tekstis keskmiselt on vähemalt 1026 võrra rohkem kui sõnu andmed2 = andmed %>% filter(S>0, V>0) %>% mutate(Sosakaal=S/kokku, Vosakaal=V/kokku, svsuhe=S/V) andmed2 %>% na.omit() %>% group_by(emakeel) %>% summarise(kesksvsuhe=mean(svsuhe)) t.test(andmed2 %>% filter(emakeel=="soome") %>% .$svsuhe, andmed2 %>% filter(emakeel=="ukraina") %>% .$svsuhe) t.test(andmed2 %>% filter(emakeel=="soome") %>% .$Vosakaal, andmed2 %>% filter(emakeel=="vene") %>% .$Vosakaal) t.test(andmed2 %>% filter(keeletase=="A2") %>% .$Sosakaal, andmed2 %>% filter(keeletase=="B1") %>% .$Sosakaal) t.test(andmed2 %>% filter(keeletase=="B1") %>% .$Sosakaal, andmed2 %>% filter(keeletase=="B2") %>% .$Sosakaal) t.test(andmed2 %>% filter(keeletase=="B1") %>% .$Sosakaal, andmed2 %>% filter(keeletase=="C1") %>% .$Sosakaal) t.test(andmed2$Sosakaal) sum(andmed2$S) sum(andmed2$kokku) prop.test(sum(andmed2$S), sum(andmed2$kokku)) andmed2$Sosakaal %>% hist() andmed2 %>% ggplot(aes(Sosakaal, kokku)) + geom_point() andmed %>% group_by(keeletase) %>% summarise(asum=sum(A), ssum=sum(S), vsum=sum(V)) andmed %>% group_by(keeletase) %>% summarise(asum=sum(A), ssum=sum(S), vsum=sum(V)) %>% select(-keeletase) %>% chisq.test() andmed %>% filter(keeletase %in% c("A", "B", "C")) %>% group_by(keeletase) %>% summarise(asum=sum(A), ssum=sum(S), vsum=sum(V)) %>% select(-keeletase) %>% chisq.test()