library(tidyverse)
## Loading tidyverse: ggplot2
## Loading tidyverse: tibble
## Loading tidyverse: tidyr
## Loading tidyverse: readr
## Loading tidyverse: purrr
## Loading tidyverse: dplyr
## Conflicts with tidy packages ----------------------------------------------
## filter(): dplyr, stats
## lag():    dplyr, stats
 library(stringr)
 dokmeta=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/korpus/dokmeta.txt")
## Parsed with column specification:
## cols(
##   kood = col_character(),
##   korpus = col_character(),
##   tekstikeel = col_character(),
##   tekstityyp = col_character(),
##   elukoht = col_character(),
##   taust = col_character(),
##   vanus = col_character(),
##   sugu = col_character(),
##   emakeel = col_character(),
##   kodukeel = col_character(),
##   keeletase = col_character(),
##   haridus = col_character(),
##   abivahendid = col_character()
## )
 dokarvud=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/korpus/dokarvud.txt")
## Parsed with column specification:
## cols(
##   kood = col_character(),
##   tahti = col_integer(),
##   sonu = col_integer(),
##   lauseid = col_integer(),
##   vigu = col_integer(),
##   veatyype = col_integer(),
##   kolmetahelistepr = col_double(),
##   viietahelistepr = col_double(),
##   kymnejarohkemtahelistepr = col_double(),
##   kahesonalistepr = col_double(),
##   kolmesonalistepr = col_double(),
##   kuuekuni9sonalistepr = col_double(),
##   kymnekuni20sonalistepr = col_double()
## )
 dokmeta %>% filter(emakeel %in% c("soome", "rootsi"))
## # A tibble: 393 x 13
##                     kood    korpus tekstikeel tekstityyp elukoht   taust
##                    <chr>     <chr>      <chr>      <chr>   <chr>   <chr>
##  1 doc_104580264060_item cFOoRQekA      eesti        muu   soome teenist
##  2 doc_104580264061_item cFOoRQekA      eesti      essee   soome teenist
##  3 doc_104580264062_item cFOoRQekA      eesti      essee   soome teenist
##  4 doc_104580264063_item cFOoRQekA      eesti      essee   soome teenist
##  5 doc_104580264064_item cFOoRQekA      eesti      essee   soome teenist
##  6 doc_104580264065_item cFOoRQekA      eesti   harjutus   soome teenist
##  7 doc_104580264066_item cFOoRQekA      eesti        muu   soome teenist
##  8 doc_104580264067_item cFOoRQekA      eesti        muu   soome teenist
##  9 doc_104580264068_item cFOoRQekA      eesti        muu   soome teenist
## 10 doc_104580264069_item cFOoRQekA      eesti      batoo   soome teenist
## # ... with 383 more rows, and 7 more variables: vanus <chr>, sugu <chr>,
## #   emakeel <chr>, kodukeel <chr>, keeletase <chr>, haridus <chr>,
## #   abivahendid <chr>
 dokmeta %>% filter(is.na(emakeel))
## # A tibble: 8,576 x 13
##                     kood    korpus tekstikeel tekstityyp elukoht taust
##                    <chr>     <chr>      <chr>      <chr>   <chr> <chr>
##  1 doc_104580264035_item cFqPphvYi      eesti       <NA>    <NA>  <NA>
##  2 doc_104580264037_item cFqPphvYi      eesti       <NA>    <NA>  <NA>
##  3 doc_104580264045_item cFqPphvYi      eesti    amtkiri idaviru    op
##  4 doc_104580264047_item cFqPphvYi      eesti    amtkiri idaviru    op
##  5 doc_104580264083_item cFOoRQekA      eesti       <NA>    <NA>  <NA>
##  6 doc_112308112647_item cFOoRQekA      eesti       <NA>    <NA>  <NA>
##  7 doc_112308112652_item cFOoRQekA      eesti       <NA>    <NA>  <NA>
##  8 doc_127940413007_item clWmOIrLa      eesti       <NA>    <NA>  <NA>
##  9 doc_130786734615_item cYDRkpymb      eesti       <NA>    <NA>  <NA>
## 10 doc_151461948919_item clWmOIrLa      eesti       <NA> tallinn  <NA>
## # ... with 8,566 more rows, and 7 more variables: vanus <chr>, sugu <chr>,
## #   emakeel <chr>, kodukeel <chr>, keeletase <chr>, haridus <chr>,
## #   abivahendid <chr>
 dokmeta %>% filter(!is.na(emakeel))
## # A tibble: 4,148 x 13
##                     kood    korpus tekstikeel tekstityyp elukoht taust
##                    <chr>     <chr>      <chr>      <chr>   <chr> <chr>
##  1 doc_100636852915_item cFOoRQekA      eesti      essee idaviru    op
##  2 doc_100636852916_item cFOoRQekA      eesti        muu idaviru    op
##  3 doc_100636852917_item cFOoRQekA      eesti      essee idaviru    op
##  4   doc_1010138197_item cFOoRQekA      eesti        muu tallinn  ylop
##  5   doc_1010138198_item cFOoRQekA      eesti        muu tallinn  ylop
##  6   doc_1010138199_item cFOoRQekA      eesti        muu tallinn  ylop
##  7   doc_1010138200_item cFOoRQekA      eesti        muu tallinn  ylop
##  8 doc_101672866015_item cFOoRQekA      eesti   referaat tallinn  ylop
##  9 doc_104580264036_item cFqPphvYi      eesti      essee tallinn    op
## 10 doc_104580264038_item cFqPphvYi      eesti      essee   tartu    op
## # ... with 4,138 more rows, and 7 more variables: vanus <chr>, sugu <chr>,
## #   emakeel <chr>, kodukeel <chr>, keeletase <chr>, haridus <chr>,
## #   abivahendid <chr>
 dokmeta[complete.cases(dokmeta), ]
## # A tibble: 2,828 x 13
##                     kood    korpus tekstikeel tekstityyp elukoht taust
##                    <chr>     <chr>      <chr>      <chr>   <chr> <chr>
##  1 doc_100636852915_item cFOoRQekA      eesti      essee idaviru    op
##  2 doc_100636852916_item cFOoRQekA      eesti        muu idaviru    op
##  3 doc_100636852917_item cFOoRQekA      eesti      essee idaviru    op
##  4   doc_1010138197_item cFOoRQekA      eesti        muu tallinn  ylop
##  5   doc_1010138198_item cFOoRQekA      eesti        muu tallinn  ylop
##  6   doc_1010138199_item cFOoRQekA      eesti        muu tallinn  ylop
##  7   doc_1010138200_item cFOoRQekA      eesti        muu tallinn  ylop
##  8 doc_101672866015_item cFOoRQekA      eesti   referaat tallinn  ylop
##  9 doc_104580264036_item cFqPphvYi      eesti      essee tallinn    op
## 10 doc_104580264038_item cFqPphvYi      eesti      essee   tartu    op
## # ... with 2,818 more rows, and 7 more variables: vanus <chr>, sugu <chr>,
## #   emakeel <chr>, kodukeel <chr>, keeletase <chr>, haridus <chr>,
## #   abivahendid <chr>
 dokmeta %>% inner_join(dokarvud) %>% group_by(emakeel) %>% filter(rank(sonu)<3) %>% 
    select(emakeel, sonu) %>% arrange(emakeel)
## Joining, by = "kood"
## # A tibble: 28 x 2
## # Groups:   emakeel [16]
##      emakeel  sonu
##        <chr> <int>
##  1     eesti    36
##  2     eesti    22
##  3   inglise    14
##  4   inglise    12
##  5     jidis  1685
##  6 katalaani     4
##  7      lati   204
##  8      lati   259
##  9     leedu   150
## 10     leedu   160
## # ... with 18 more rows
 dokmeta %>% select(-tekstikeel)
## # A tibble: 12,724 x 12
##                     kood    korpus tekstityyp elukoht taust  vanus  sugu
##                    <chr>     <chr>      <chr>   <chr> <chr>  <chr> <chr>
##  1 doc_100636852915_item cFOoRQekA      essee idaviru    op kuni18 naine
##  2 doc_100636852916_item cFOoRQekA        muu idaviru    op kuni18 naine
##  3 doc_100636852917_item cFOoRQekA      essee idaviru    op kuni18 naine
##  4   doc_1010138197_item cFOoRQekA        muu tallinn  ylop kuni26 naine
##  5   doc_1010138198_item cFOoRQekA        muu tallinn  ylop kuni26 naine
##  6   doc_1010138199_item cFOoRQekA        muu tallinn  ylop kuni26 naine
##  7   doc_1010138200_item cFOoRQekA        muu tallinn  ylop kuni26 naine
##  8 doc_101672866015_item cFOoRQekA   referaat tallinn  ylop kuni26 naine
##  9 doc_104580264035_item cFqPphvYi       <NA>    <NA>  <NA>   <NA>  <NA>
## 10 doc_104580264036_item cFqPphvYi      essee tallinn    op kuni18  mees
## # ... with 12,714 more rows, and 5 more variables: emakeel <chr>,
## #   kodukeel <chr>, keeletase <chr>, haridus <chr>, abivahendid <chr>
 dokmeta %>% select(-c(tekstikeel, elukoht))
## # A tibble: 12,724 x 11
##                     kood    korpus tekstityyp taust  vanus  sugu emakeel
##                    <chr>     <chr>      <chr> <chr>  <chr> <chr>   <chr>
##  1 doc_100636852915_item cFOoRQekA      essee    op kuni18 naine    vene
##  2 doc_100636852916_item cFOoRQekA        muu    op kuni18 naine    vene
##  3 doc_100636852917_item cFOoRQekA      essee    op kuni18 naine    vene
##  4   doc_1010138197_item cFOoRQekA        muu  ylop kuni26 naine    vene
##  5   doc_1010138198_item cFOoRQekA        muu  ylop kuni26 naine    vene
##  6   doc_1010138199_item cFOoRQekA        muu  ylop kuni26 naine    vene
##  7   doc_1010138200_item cFOoRQekA        muu  ylop kuni26 naine    vene
##  8 doc_101672866015_item cFOoRQekA   referaat  ylop kuni26 naine    vene
##  9 doc_104580264035_item cFqPphvYi       <NA>  <NA>   <NA>  <NA>    <NA>
## 10 doc_104580264036_item cFqPphvYi      essee    op kuni18  mees    vene
## # ... with 12,714 more rows, and 4 more variables: kodukeel <chr>,
## #   keeletase <chr>, haridus <chr>, abivahendid <chr>
 dokmeta %>% select(vanus:kodukeel)
## # A tibble: 12,724 x 4
##     vanus  sugu emakeel kodukeel
##     <chr> <chr>   <chr>    <chr>
##  1 kuni18 naine    vene     vene
##  2 kuni18 naine    vene     vene
##  3 kuni18 naine    vene     vene
##  4 kuni26 naine    vene     vene
##  5 kuni26 naine    vene     vene
##  6 kuni26 naine    vene     vene
##  7 kuni26 naine    vene     vene
##  8 kuni26 naine    vene     vene
##  9   <NA>  <NA>    <NA>     <NA>
## 10 kuni18  mees    vene     vene
## # ... with 12,714 more rows
 dokmeta %>% select(ends_with("keel"))
## # A tibble: 12,724 x 3
##    tekstikeel emakeel kodukeel
##         <chr>   <chr>    <chr>
##  1      eesti    vene     vene
##  2      eesti    vene     vene
##  3      eesti    vene     vene
##  4      eesti    vene     vene
##  5      eesti    vene     vene
##  6      eesti    vene     vene
##  7      eesti    vene     vene
##  8      eesti    vene     vene
##  9      eesti    <NA>     <NA>
## 10      eesti    vene     vene
## # ... with 12,714 more rows
 dokmeta %>% select(matches("^ko"))
## # A tibble: 12,724 x 3
##                     kood    korpus kodukeel
##                    <chr>     <chr>    <chr>
##  1 doc_100636852915_item cFOoRQekA     vene
##  2 doc_100636852916_item cFOoRQekA     vene
##  3 doc_100636852917_item cFOoRQekA     vene
##  4   doc_1010138197_item cFOoRQekA     vene
##  5   doc_1010138198_item cFOoRQekA     vene
##  6   doc_1010138199_item cFOoRQekA     vene
##  7   doc_1010138200_item cFOoRQekA     vene
##  8 doc_101672866015_item cFOoRQekA     vene
##  9 doc_104580264035_item cFqPphvYi     <NA>
## 10 doc_104580264036_item cFqPphvYi     vene
## # ... with 12,714 more rows
 dokmeta %>% select(contains("ko"))
## # A tibble: 12,724 x 4
##                     kood    korpus elukoht kodukeel
##                    <chr>     <chr>   <chr>    <chr>
##  1 doc_100636852915_item cFOoRQekA idaviru     vene
##  2 doc_100636852916_item cFOoRQekA idaviru     vene
##  3 doc_100636852917_item cFOoRQekA idaviru     vene
##  4   doc_1010138197_item cFOoRQekA tallinn     vene
##  5   doc_1010138198_item cFOoRQekA tallinn     vene
##  6   doc_1010138199_item cFOoRQekA tallinn     vene
##  7   doc_1010138200_item cFOoRQekA tallinn     vene
##  8 doc_101672866015_item cFOoRQekA tallinn     vene
##  9 doc_104580264035_item cFqPphvYi    <NA>     <NA>
## 10 doc_104580264036_item cFqPphvYi tallinn     vene
## # ... with 12,714 more rows
 dokmeta %>% select(emakeel, kodukeel, everything())
## # A tibble: 12,724 x 13
##    emakeel kodukeel                  kood    korpus tekstikeel tekstityyp
##      <chr>    <chr>                 <chr>     <chr>      <chr>      <chr>
##  1    vene     vene doc_100636852915_item cFOoRQekA      eesti      essee
##  2    vene     vene doc_100636852916_item cFOoRQekA      eesti        muu
##  3    vene     vene doc_100636852917_item cFOoRQekA      eesti      essee
##  4    vene     vene   doc_1010138197_item cFOoRQekA      eesti        muu
##  5    vene     vene   doc_1010138198_item cFOoRQekA      eesti        muu
##  6    vene     vene   doc_1010138199_item cFOoRQekA      eesti        muu
##  7    vene     vene   doc_1010138200_item cFOoRQekA      eesti        muu
##  8    vene     vene doc_101672866015_item cFOoRQekA      eesti   referaat
##  9    <NA>     <NA> doc_104580264035_item cFqPphvYi      eesti       <NA>
## 10    vene     vene doc_104580264036_item cFqPphvYi      eesti      essee
## # ... with 12,714 more rows, and 7 more variables: elukoht <chr>,
## #   taust <chr>, vanus <chr>, sugu <chr>, keeletase <chr>, haridus <chr>,
## #   abivahendid <chr>
 dokmeta %>% rename(keelekorpus=korpus) 
## # A tibble: 12,724 x 13
##                     kood keelekorpus tekstikeel tekstityyp elukoht taust
##                    <chr>       <chr>      <chr>      <chr>   <chr> <chr>
##  1 doc_100636852915_item   cFOoRQekA      eesti      essee idaviru    op
##  2 doc_100636852916_item   cFOoRQekA      eesti        muu idaviru    op
##  3 doc_100636852917_item   cFOoRQekA      eesti      essee idaviru    op
##  4   doc_1010138197_item   cFOoRQekA      eesti        muu tallinn  ylop
##  5   doc_1010138198_item   cFOoRQekA      eesti        muu tallinn  ylop
##  6   doc_1010138199_item   cFOoRQekA      eesti        muu tallinn  ylop
##  7   doc_1010138200_item   cFOoRQekA      eesti        muu tallinn  ylop
##  8 doc_101672866015_item   cFOoRQekA      eesti   referaat tallinn  ylop
##  9 doc_104580264035_item   cFqPphvYi      eesti       <NA>    <NA>  <NA>
## 10 doc_104580264036_item   cFqPphvYi      eesti      essee tallinn    op
## # ... with 12,714 more rows, and 7 more variables: vanus <chr>,
## #   sugu <chr>, emakeel <chr>, kodukeel <chr>, keeletase <chr>,
## #   haridus <chr>, abivahendid <chr>
 dokmeta %>% arrange(desc(tekstityyp))
## # A tibble: 12,724 x 13
##                     kood    korpus tekstikeel    tekstityyp elukoht
##                    <chr>     <chr>      <chr>         <chr>   <chr>
##  1 doc_213943985076_item cFOoRQekA      eesti ymberjutustus tallinn
##  2 doc_478101780755_item cwUSEqQLt      eesti ymberjutustus idaviru
##  3 doc_478101780756_item cwUSEqQLt      eesti ymberjutustus tallinn
##  4 doc_478101780758_item cwUSEqQLt      eesti ymberjutustus idaviru
##  5 doc_491521501803_item cFOoRQekA      eesti ymberjutustus tallinn
##  6 doc_491521501905_item cFOoRQekA      eesti ymberjutustus idaviru
##  7 doc_516622545503_item cFOoRQekA      eesti ymberjutustus tallinn
##  8  doc_51880851204_item cFOoRQekA      eesti ymberjutustus tallinn
##  9 doc_681992022005_item cFOoRQekA      eesti ymberjutustus idaviru
## 10 doc_681992022006_item cFOoRQekA      eesti ymberjutustus idaviru
## # ... with 12,714 more rows, and 8 more variables: taust <chr>,
## #   vanus <chr>, sugu <chr>, emakeel <chr>, kodukeel <chr>,
## #   keeletase <chr>, haridus <chr>, abivahendid <chr>
   dokmeta %>% mutate(vanuseots=str_sub(vanus, start=str_length(vanus)-1)) %>% select(vanus, vanuseots)
## # A tibble: 12,724 x 2
##     vanus vanuseots
##     <chr>     <chr>
##  1 kuni18        18
##  2 kuni18        18
##  3 kuni18        18
##  4 kuni26        26
##  5 kuni26        26
##  6 kuni26        26
##  7 kuni26        26
##  8 kuni26        26
##  9   <NA>      <NA>
## 10 kuni18        18
## # ... with 12,714 more rows
 dokarvud %>% summarise(sonadearv=sum(sonu), tekste=n(), lausetearve=n_distinct(lauseid)) 
## # A tibble: 1 x 3
##   sonadearv tekste lausetearve
##       <int>  <int>       <int>
## 1   3488961  12724         206
 dokarvud %>% inner_join(dokmeta) %>% group_by(keeletase) %>% summarise(sonadearv=sum(sonu))
## Joining, by = "kood"
## # A tibble: 10 x 2
##    keeletase sonadearv
##        <chr>     <int>
##  1         A    250522
##  2        A1        76
##  3        A2     48742
##  4         B    304363
##  5        B1    120059
##  6        B2    104183
##  7         C    188176
##  8        C1    111435
##  9        C2    110109
## 10      <NA>   2251296
 dokarvud %>% inner_join(dokmeta) %>% group_by(keeletase, kodukeel) %>% summarise(sonadearv=sum(sonu))
## Joining, by = "kood"
## # A tibble: 62 x 3
## # Groups:   keeletase [?]
##    keeletase kodukeel sonadearv
##        <chr>    <chr>     <int>
##  1         A   hebrea         5
##  2         A  inglise     15603
##  3         A     lati       259
##  4         A     muud      8615
##  5         A    saksa      3658
##  6         A    soome      6944
##  7         A  ukraina      1556
##  8         A   ungari       675
##  9         A     vene    213087
## 10         A     <NA>       120
## # ... with 52 more rows
 dokarvud %>% mutate(sonukokku=sum(sonu), osa=sonu/sonukokku) %>% select(kood, sonu, sonukokku, osa)
## # A tibble: 12,724 x 4
##                     kood  sonu sonukokku          osa
##                    <chr> <int>     <int>        <dbl>
##  1 doc_100636852915_item   181   3488961 5.187791e-05
##  2 doc_100636852916_item   101   3488961 2.894845e-05
##  3 doc_100636852917_item   128   3488961 3.668714e-05
##  4   doc_1010138197_item   559   3488961 1.602196e-04
##  5   doc_1010138198_item   565   3488961 1.619393e-04
##  6   doc_1010138199_item   570   3488961 1.633724e-04
##  7   doc_1010138200_item   550   3488961 1.576401e-04
##  8 doc_101672866015_item  6181   3488961 1.771588e-03
##  9 doc_104580264035_item     0   3488961 0.000000e+00
## 10 doc_104580264036_item   414   3488961 1.186600e-04
## # ... with 12,714 more rows
 #Näidake iga teksti juures, kui suure osa moodustab selle teksti sõnade arv selle keeletaseme sõnade üldarvust
 dokarvud %>% inner_join(dokmeta) %>% group_by(keeletase) %>% mutate(sonukeeletasemes=sum(sonu), osakeeletasemes=sonu/sonukeeletasemes) %>% select(kood, keeletase, sonukeeletasemes, osakeeletasemes, sonu)
## Joining, by = "kood"
## # A tibble: 12,724 x 5
## # Groups:   keeletase [10]
##                     kood keeletase sonukeeletasemes osakeeletasemes  sonu
##                    <chr>     <chr>            <int>           <dbl> <int>
##  1 doc_100636852915_item         B           304363    0.0005946846   181
##  2 doc_100636852916_item         B           304363    0.0003318406   101
##  3 doc_100636852917_item         B           304363    0.0004205505   128
##  4   doc_1010138197_item         A           250522    0.0022313410   559
##  5   doc_1010138198_item         B           304363    0.0018563360   565
##  6   doc_1010138199_item         A           250522    0.0022752493   570
##  7   doc_1010138200_item         A           250522    0.0021954160   550
##  8 doc_101672866015_item         C           188176    0.0328469093  6181
##  9 doc_104580264035_item      <NA>          2251296    0.0000000000     0
## 10 doc_104580264036_item        C1           111435    0.0037151703   414
## # ... with 12,714 more rows
dokarvud %>% select(kood, tahti, sonu) %>% gather("tunnus", "vaartus", -1) %>% arrange(kood)
## # A tibble: 25,448 x 3
##                     kood tunnus vaartus
##                    <chr>  <chr>   <int>
##  1 doc_100636852915_item  tahti    1156
##  2 doc_100636852915_item   sonu     181
##  3 doc_100636852916_item  tahti     661
##  4 doc_100636852916_item   sonu     101
##  5 doc_100636852917_item  tahti     936
##  6 doc_100636852917_item   sonu     128
##  7   doc_1010138197_item  tahti    4146
##  8   doc_1010138197_item   sonu     559
##  9   doc_1010138198_item  tahti    4145
## 10   doc_1010138198_item   sonu     565
## # ... with 25,438 more rows
dokarvud %>% select(kood, tahti, sonu, lauseid) %>% gather("tunnus", "vaartus", -1) %>%  ggplot(aes(tunnus, vaartus, group=kood)) + geom_line()

dokarvud %>% select(-kood) %>% apply(2, FUN=mean)
##                    tahti                     sonu                  lauseid 
##              1823.510138               274.203159                34.924238 
##                     vigu                 veatyype         kolmetahelistepr 
##                 4.713062                 2.168736                 8.148317 
##          viietahelistepr kymnejarohkemtahelistepr          kahesonalistepr 
##                13.620839                 8.641552                 9.363294 
##         kolmesonalistepr     kuuekuni9sonalistepr   kymnekuni20sonalistepr 
##                 8.148810                35.315100                24.045754
dokarvud %>% select(-kood) %>% apply(1, FUN=max) %>% head()
## [1] 1156  661  936 4146 4145 4215
dokarvud %>% select(-kood) %>% apply(c(1, 2), FUN=function(arv){arv/2}) %>% head()
##       tahti  sonu lauseid vigu veatyype kolmetahelistepr viietahelistepr
## [1,]  578.0  90.5     7.0 19.5     11.0            6.355           7.460
## [2,]  330.5  50.5     3.0  9.5      5.5            5.000           6.500
## [3,]  468.0  64.0     6.0 11.0      7.5            6.870           5.725
## [4,] 2073.0 279.5    41.5 24.5      7.5            3.040           6.530
## [5,] 2072.5 282.5    40.0 31.0     13.0            2.830           6.815
## [6,] 2107.5 285.0    42.0 22.0      8.0            2.895           6.580
##      kymnejarohkemtahelistepr kahesonalistepr kolmesonalistepr
## [1,]                    2.490               0            0.000
## [2,]                    4.000               0            0.000
## [3,]                    6.485               0            4.545
## [4,]                    5.100               0            0.625
## [5,]                    4.865               0            0.665
## [6,]                    5.435               0            0.625
##      kuuekuni9sonalistepr kymnekuni20sonalistepr
## [1,]               18.750                 37.500
## [2,]               10.000                 50.000
## [3,]               18.180                 22.725
## [4,]               16.250                  8.125
## [5,]               18.000                  7.990
## [6,]               16.875                  8.750
class(dokarvud %>% select(-kood) %>% lapply(FUN=mean))
## [1] "list"
class(dokarvud %>% select(-kood) %>% apply(2, FUN=mean))
## [1] "numeric"
class(dokarvud %>% select(-kood) %>% sapply(FUN=mean))
## [1] "numeric"
tapply(dokmeta$elukoht, dokmeta$elukoht, FUN=length)
##   idaviru inglismaa     leedu       muu  saksamaa     soome   tallinn 
##      3531        46        22       384        62       321      4586 
##     tartu    ungari 
##        83         5
runif(1, 150, 170)
## [1] 154.6675
rnorm(1, 160, 10)
## [1] 165.018
hist(runif(100000, 150, 170))

hist(rnorm(100000, 160, 10))

plot(density(runif(100000, 150, 170)))

plot(density(rnorm(100000, 160, 10)))

punif(160, 150, 170)
## [1] 0.5
punif(155, 150, 170)
## [1] 0.25
punif(165, 150, 170)
## [1] 0.75
punif(195, 150, 170)
## [1] 1
pnorm(195, 160, 10)
## [1] 0.9997674
pnorm(160, 160, 10)
## [1] 0.5
pnorm(170, 160, 10)
## [1] 0.8413447
qunif(0.75, 150, 170)
## [1] 165
#Leidke ühtlase jaotuse kohal väärtus, millest väiksemad on 95% mõõtmistest
qunif(0.95, 150, 170)
## [1] 169
#Leidke 160 sd 10 normaaljaotuse korral väärtus, millest väiksemad on 95 mõõtmistest
qnorm(0.95, 160, 10)
## [1] 176.4485
dokmeta %>% inner_join(dokarvud) %>% ggplot(aes(tahti, lauseid, color=keeletase))+geom_point()+facet_wrap(~keeletase)
## Joining, by = "kood"

dokmeta %>% inner_join(dokarvud) %>% mutate(vanus=factor(levels=c("kuni18", "kuni26", "kuni40", "41plus"), vanus))%>% ggplot(aes(tahti, lauseid, color=keeletase))+geom_point()+facet_grid(vanus~keeletase)
## Joining, by = "kood"