---
title: '8'
output: html_document
---
```{r}
library(tidyverse)
ounad=read_csv("http://www.tlu.ee/~jaagup/andmed/muu/ounad/antoonovka2.txt")
ounad %>% ggplot(aes(august, september)) + geom_point()
ounad %>% ggplot(aes(august, september)) + geom_point() +
xlim(c(0, 10)) + ylim(c(0, 10)) + geom_smooth(method='lm')
lm(september~august, data=ounad)
summary(lm(september~august, data=ounad))
predict(lm(september~august, data=ounad), tibble(august=c(2,3,4)))
#Koostage tibble uute õunadiameetritega augustis
#Arvutage kõrvale ennustatavad diameetrid septembris
#Kuvage need õunad xy-joonisel
uuritavad=tibble(august=rnorm(10, 4, 2))
uuritavad
mudel=lm(september~august, data=ounad)
uuritavad$september=predict(mudel, uuritavad)
uuritavad
uuritavad %>% ggplot(aes(august, september))+ ggtitle("Ennustus") +
xlab("augusti diameeter")+ geom_point() +
theme(plot.title=element_text(hjust=0.5))
ounad=read_csv("http://www.tlu.ee/~jaagup/andmed/muu/ounad/antoonovka3.txt")
#Koostage joonis, kus ühel teljel on õunte diameetri kasvu suurus augustist septembrini ning
#teisel teljel septembrist oktoobrini
ounad %>% ggplot(aes(september-august, oktoober-september)) + geom_point()
ounad %>% ggplot(aes(september-august, oktoober-september)) + geom_point() +
geom_smooth()
ounad %>% mutate(vahe1=september-august, vahe2=oktoober-september) %>%
colMeans()
ounad %>% mutate(vahe1=september-august, vahe2=oktoober-september) %>%
select(vahe1, vahe2) -> vahed
vahed
lm(vahe2~vahe1, data=vahed)
summary(lm(vahe2~vahe1, data=vahed))
ounad
lm(oktoober~august+september, data=ounad)
summary(lm(oktoober~august+september, data=ounad))
uuritavad=tibble(august=rnorm(10, 4, 1.5))
uuritavad$september=uuritavad$august+runif(10, 0.5, 1)
uuritavad
mudel=lm(oktoober~august+september, data=ounad)
uuritavad$oktoober=predict(mudel, uuritavad)
uuritavad
ounad=read_csv("http://www.tlu.ee/~jaagup/andmed/muu/ounad/liivi_antoonovka_aug_sept_1000.txt")
#Kuvage õunad XY-joonisele, sordi järgi eri värvi
ounad %>% ggplot(aes(x=august, y=september, color=ounasort)) + geom_point()
ounad %>% filter(ounasort=="Antoonovka") %>% ggplot(aes(ounasort, august)) + geom_boxplot()
arvud=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/korpus/dokarvud.txt")
dokmeta=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/korpus/dokmeta.txt")
#Leidke kuni 18-aastaste autorite tekstide tähtede arvu summa
#Joonistage karpdiagramm teksti tähtede arvu jaotusega
str(arvud %>% inner_join(dokmeta))
arvud %>% inner_join(dokmeta) %>% filter(vanus=="kuni18") %>% .$tahti %>% sum()
arvud %>% inner_join(dokmeta) %>% ggplot(aes(vanus, tahti)) + geom_boxplot()
arvud %>% inner_join(dokmeta) %>% filter(vanus=="kuni18") %>% filter(tahti>0) %>%
ggplot(aes(vanus, tahti)) + geom_boxplot()
arvud %>% inner_join(dokmeta) %>% filter(vanus=="kuni18") %>% filter(tahti>0) %>%
.$tahti %>% min()
#Püüdke leida seos või selle puudumine teksti tähtede arvu ning üle kümnetäheliste
#sõnade protsendi vahel.
#Pakkuge predicti abili üle kümnetäheliste sõnade protsent 20 juhuslikult valitud
#teksti juures ning näidake kõrvale ka tegelikke väärtusi
arvud %>% ggplot(aes(tahti, kymnejarohkemtahelistepr)) + geom_point()
mean(arvud$kymnejarohkemtahelistepr)
arvud %>% ggplot(aes(tahti, kymnejarohkemtahelistepr)) + geom_point()+
geom_hline(yintercept = mean(arvud$kymnejarohkemtahelistepr))
lm(kymnejarohkemtahelistepr~tahti, data=arvud)
summary(lm(kymnejarohkemtahelistepr~tahti, data=arvud))
sample(arvud$tahti, 20)
uuritav=sample_n(arvud, 20)
mudel=lm(kymnejarohkemtahelistepr~tahti, data=arvud)
uuritav$uusprotsent=predict(mudel, uuritav)
uuritav %>% select(tahti, kymnejarohkemtahelistepr, uusprotsent) -> tulemus
tulemus
tulemus %>% mutate(vaheuuega=abs(kymnejarohkemtahelistepr-uusprotsent),
vahekeskmisega=abs(kymnejarohkemtahelistepr-mean(arvud$kymnejarohkemtahelistepr)))
tulemus %>% mutate(vaheuuega=abs(kymnejarohkemtahelistepr-uusprotsent),
vahekeskmisega=abs(kymnejarohkemtahelistepr-mean(arvud$kymnejarohkemtahelistepr))) %>%
summarise(uuesumma=sum(vaheuuega), keskmisesumma=sum(vahekeskmisega))
```
```{r}
```