library(tidyverse) ounad=read_csv("http://www.tlu.ee/~jaagup/andmed/muu/ounad/antoonovka2.txt") ounad %>% ggplot(aes(august, september)) + geom_point() ounad %>% ggplot(aes(august, september)) + geom_point() + xlim(c(0, 10)) + ylim(c(0, 10)) + geom_smooth(method='lm') lm(september~august, data=ounad) summary(lm(september~august, data=ounad)) predict(lm(september~august, data=ounad), tibble(august=c(2,3,4))) #Koostage tibble uute õunadiameetritega augustis #Arvutage kõrvale ennustatavad diameetrid septembris #Kuvage need õunad xy-joonisel uuritavad=tibble(august=rnorm(10, 4, 2)) uuritavad mudel=lm(september~august, data=ounad) uuritavad$september=predict(mudel, uuritavad) uuritavad uuritavad %>% ggplot(aes(august, september))+ ggtitle("Ennustus") + xlab("augusti diameeter")+ geom_point() + theme(plot.title=element_text(hjust=0.5)) ounad=read_csv("http://www.tlu.ee/~jaagup/andmed/muu/ounad/antoonovka3.txt") #Koostage joonis, kus ühel teljel on õunte diameetri kasvu suurus augustist septembrini ning #teisel teljel septembrist oktoobrini ounad %>% ggplot(aes(september-august, oktoober-september)) + geom_point() ounad %>% ggplot(aes(september-august, oktoober-september)) + geom_point() + geom_smooth() ounad %>% mutate(vahe1=september-august, vahe2=oktoober-september) %>% colMeans() ounad %>% mutate(vahe1=september-august, vahe2=oktoober-september) %>% select(vahe1, vahe2) -> vahed vahed lm(vahe2~vahe1, data=vahed) summary(lm(vahe2~vahe1, data=vahed)) ounad lm(oktoober~august+september, data=ounad) summary(lm(oktoober~august+september, data=ounad)) uuritavad=tibble(august=rnorm(10, 4, 1.5)) uuritavad$september=uuritavad$august+runif(10, 0.5, 1) uuritavad mudel=lm(oktoober~august+september, data=ounad) uuritavad$oktoober=predict(mudel, uuritavad) uuritavad ounad=read_csv("http://www.tlu.ee/~jaagup/andmed/muu/ounad/liivi_antoonovka_aug_sept_1000.txt") #Kuvage õunad XY-joonisele, sordi järgi eri värvi ounad %>% ggplot(aes(x=august, y=september, color=ounasort)) + geom_point() ounad %>% filter(ounasort=="Antoonovka") %>% ggplot(aes(ounasort, august)) + geom_boxplot() arvud=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/korpus/dokarvud.txt") dokmeta=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/korpus/dokmeta.txt") #Leidke kuni 18-aastaste autorite tekstide tähtede arvu summa #Joonistage karpdiagramm teksti tähtede arvu jaotusega str(arvud %>% inner_join(dokmeta)) arvud %>% inner_join(dokmeta) %>% filter(vanus=="kuni18") %>% .$tahti %>% sum() arvud %>% inner_join(dokmeta) %>% ggplot(aes(vanus, tahti)) + geom_boxplot() arvud %>% inner_join(dokmeta) %>% filter(vanus=="kuni18") %>% filter(tahti>0) %>% ggplot(aes(vanus, tahti)) + geom_boxplot() arvud %>% inner_join(dokmeta) %>% filter(vanus=="kuni18") %>% filter(tahti>0) %>% .$tahti %>% min() #Püüdke leida seos või selle puudumine teksti tähtede arvu ning üle kümnetäheliste #sõnade protsendi vahel. #Pakkuge predicti abili üle kümnetäheliste sõnade protsent 20 juhuslikult valitud #teksti juures ning näidake kõrvale ka tegelikke väärtusi arvud %>% ggplot(aes(tahti, kymnejarohkemtahelistepr)) + geom_point() mean(arvud$kymnejarohkemtahelistepr) arvud %>% ggplot(aes(tahti, kymnejarohkemtahelistepr)) + geom_point()+ geom_hline(yintercept = mean(arvud$kymnejarohkemtahelistepr)) lm(kymnejarohkemtahelistepr~tahti, data=arvud) summary(lm(kymnejarohkemtahelistepr~tahti, data=arvud)) sample(arvud$tahti, 20) uuritav=sample_n(arvud, 20) mudel=lm(kymnejarohkemtahelistepr~tahti, data=arvud) uuritav$uusprotsent=predict(mudel, uuritav) uuritav %>% select(tahti, kymnejarohkemtahelistepr, uusprotsent) -> tulemus tulemus tulemus %>% mutate(vaheuuega=abs(kymnejarohkemtahelistepr-uusprotsent), vahekeskmisega=abs(kymnejarohkemtahelistepr-mean(arvud$kymnejarohkemtahelistepr))) tulemus %>% mutate(vaheuuega=abs(kymnejarohkemtahelistepr-uusprotsent), vahekeskmisega=abs(kymnejarohkemtahelistepr-mean(arvud$kymnejarohkemtahelistepr))) %>% summarise(uuesumma=sum(vaheuuega), keskmisesumma=sum(vahekeskmisega))