library(tidyverse)
## Loading tidyverse: ggplot2
## Loading tidyverse: tibble
## Loading tidyverse: tidyr
## Loading tidyverse: readr
## Loading tidyverse: purrr
## Loading tidyverse: dplyr
## Conflicts with tidy packages ----------------------------------------------
## filter(): dplyr, stats
## lag(): dplyr, stats
library(stringr)
dokmeta=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/korpus/dokmeta.txt")
## Parsed with column specification:
## cols(
## kood = col_character(),
## korpus = col_character(),
## tekstikeel = col_character(),
## tekstityyp = col_character(),
## elukoht = col_character(),
## taust = col_character(),
## vanus = col_character(),
## sugu = col_character(),
## emakeel = col_character(),
## kodukeel = col_character(),
## keeletase = col_character(),
## haridus = col_character(),
## abivahendid = col_character()
## )
dokarvud=read_csv("http://www.tlu.ee/~jaagup/andmed/keel/korpus/dokarvud.txt")
## Parsed with column specification:
## cols(
## kood = col_character(),
## tahti = col_integer(),
## sonu = col_integer(),
## lauseid = col_integer(),
## vigu = col_integer(),
## veatyype = col_integer(),
## kolmetahelistepr = col_double(),
## viietahelistepr = col_double(),
## kymnejarohkemtahelistepr = col_double(),
## kahesonalistepr = col_double(),
## kolmesonalistepr = col_double(),
## kuuekuni9sonalistepr = col_double(),
## kymnekuni20sonalistepr = col_double()
## )
dokmeta %>% filter(emakeel %in% c("soome", "rootsi"))
## # A tibble: 393 x 13
## kood korpus tekstikeel tekstityyp elukoht taust
## <chr> <chr> <chr> <chr> <chr> <chr>
## 1 doc_104580264060_item cFOoRQekA eesti muu soome teenist
## 2 doc_104580264061_item cFOoRQekA eesti essee soome teenist
## 3 doc_104580264062_item cFOoRQekA eesti essee soome teenist
## 4 doc_104580264063_item cFOoRQekA eesti essee soome teenist
## 5 doc_104580264064_item cFOoRQekA eesti essee soome teenist
## 6 doc_104580264065_item cFOoRQekA eesti harjutus soome teenist
## 7 doc_104580264066_item cFOoRQekA eesti muu soome teenist
## 8 doc_104580264067_item cFOoRQekA eesti muu soome teenist
## 9 doc_104580264068_item cFOoRQekA eesti muu soome teenist
## 10 doc_104580264069_item cFOoRQekA eesti batoo soome teenist
## # ... with 383 more rows, and 7 more variables: vanus <chr>, sugu <chr>,
## # emakeel <chr>, kodukeel <chr>, keeletase <chr>, haridus <chr>,
## # abivahendid <chr>
dokmeta %>% filter(is.na(emakeel))
## # A tibble: 8,576 x 13
## kood korpus tekstikeel tekstityyp elukoht taust
## <chr> <chr> <chr> <chr> <chr> <chr>
## 1 doc_104580264035_item cFqPphvYi eesti <NA> <NA> <NA>
## 2 doc_104580264037_item cFqPphvYi eesti <NA> <NA> <NA>
## 3 doc_104580264045_item cFqPphvYi eesti amtkiri idaviru op
## 4 doc_104580264047_item cFqPphvYi eesti amtkiri idaviru op
## 5 doc_104580264083_item cFOoRQekA eesti <NA> <NA> <NA>
## 6 doc_112308112647_item cFOoRQekA eesti <NA> <NA> <NA>
## 7 doc_112308112652_item cFOoRQekA eesti <NA> <NA> <NA>
## 8 doc_127940413007_item clWmOIrLa eesti <NA> <NA> <NA>
## 9 doc_130786734615_item cYDRkpymb eesti <NA> <NA> <NA>
## 10 doc_151461948919_item clWmOIrLa eesti <NA> tallinn <NA>
## # ... with 8,566 more rows, and 7 more variables: vanus <chr>, sugu <chr>,
## # emakeel <chr>, kodukeel <chr>, keeletase <chr>, haridus <chr>,
## # abivahendid <chr>
dokmeta %>% filter(!is.na(emakeel))
## # A tibble: 4,148 x 13
## kood korpus tekstikeel tekstityyp elukoht taust
## <chr> <chr> <chr> <chr> <chr> <chr>
## 1 doc_100636852915_item cFOoRQekA eesti essee idaviru op
## 2 doc_100636852916_item cFOoRQekA eesti muu idaviru op
## 3 doc_100636852917_item cFOoRQekA eesti essee idaviru op
## 4 doc_1010138197_item cFOoRQekA eesti muu tallinn ylop
## 5 doc_1010138198_item cFOoRQekA eesti muu tallinn ylop
## 6 doc_1010138199_item cFOoRQekA eesti muu tallinn ylop
## 7 doc_1010138200_item cFOoRQekA eesti muu tallinn ylop
## 8 doc_101672866015_item cFOoRQekA eesti referaat tallinn ylop
## 9 doc_104580264036_item cFqPphvYi eesti essee tallinn op
## 10 doc_104580264038_item cFqPphvYi eesti essee tartu op
## # ... with 4,138 more rows, and 7 more variables: vanus <chr>, sugu <chr>,
## # emakeel <chr>, kodukeel <chr>, keeletase <chr>, haridus <chr>,
## # abivahendid <chr>
dokmeta[complete.cases(dokmeta), ]
## # A tibble: 2,828 x 13
## kood korpus tekstikeel tekstityyp elukoht taust
## <chr> <chr> <chr> <chr> <chr> <chr>
## 1 doc_100636852915_item cFOoRQekA eesti essee idaviru op
## 2 doc_100636852916_item cFOoRQekA eesti muu idaviru op
## 3 doc_100636852917_item cFOoRQekA eesti essee idaviru op
## 4 doc_1010138197_item cFOoRQekA eesti muu tallinn ylop
## 5 doc_1010138198_item cFOoRQekA eesti muu tallinn ylop
## 6 doc_1010138199_item cFOoRQekA eesti muu tallinn ylop
## 7 doc_1010138200_item cFOoRQekA eesti muu tallinn ylop
## 8 doc_101672866015_item cFOoRQekA eesti referaat tallinn ylop
## 9 doc_104580264036_item cFqPphvYi eesti essee tallinn op
## 10 doc_104580264038_item cFqPphvYi eesti essee tartu op
## # ... with 2,818 more rows, and 7 more variables: vanus <chr>, sugu <chr>,
## # emakeel <chr>, kodukeel <chr>, keeletase <chr>, haridus <chr>,
## # abivahendid <chr>
dokmeta %>% inner_join(dokarvud) %>% group_by(emakeel) %>% filter(rank(sonu)<3) %>%
select(emakeel, sonu) %>% arrange(emakeel)
## Joining, by = "kood"
## # A tibble: 28 x 2
## # Groups: emakeel [16]
## emakeel sonu
## <chr> <int>
## 1 eesti 36
## 2 eesti 22
## 3 inglise 14
## 4 inglise 12
## 5 jidis 1685
## 6 katalaani 4
## 7 lati 204
## 8 lati 259
## 9 leedu 150
## 10 leedu 160
## # ... with 18 more rows
dokmeta %>% select(-tekstikeel)
## # A tibble: 12,724 x 12
## kood korpus tekstityyp elukoht taust vanus sugu
## <chr> <chr> <chr> <chr> <chr> <chr> <chr>
## 1 doc_100636852915_item cFOoRQekA essee idaviru op kuni18 naine
## 2 doc_100636852916_item cFOoRQekA muu idaviru op kuni18 naine
## 3 doc_100636852917_item cFOoRQekA essee idaviru op kuni18 naine
## 4 doc_1010138197_item cFOoRQekA muu tallinn ylop kuni26 naine
## 5 doc_1010138198_item cFOoRQekA muu tallinn ylop kuni26 naine
## 6 doc_1010138199_item cFOoRQekA muu tallinn ylop kuni26 naine
## 7 doc_1010138200_item cFOoRQekA muu tallinn ylop kuni26 naine
## 8 doc_101672866015_item cFOoRQekA referaat tallinn ylop kuni26 naine
## 9 doc_104580264035_item cFqPphvYi <NA> <NA> <NA> <NA> <NA>
## 10 doc_104580264036_item cFqPphvYi essee tallinn op kuni18 mees
## # ... with 12,714 more rows, and 5 more variables: emakeel <chr>,
## # kodukeel <chr>, keeletase <chr>, haridus <chr>, abivahendid <chr>
dokmeta %>% select(-c(tekstikeel, elukoht))
## # A tibble: 12,724 x 11
## kood korpus tekstityyp taust vanus sugu emakeel
## <chr> <chr> <chr> <chr> <chr> <chr> <chr>
## 1 doc_100636852915_item cFOoRQekA essee op kuni18 naine vene
## 2 doc_100636852916_item cFOoRQekA muu op kuni18 naine vene
## 3 doc_100636852917_item cFOoRQekA essee op kuni18 naine vene
## 4 doc_1010138197_item cFOoRQekA muu ylop kuni26 naine vene
## 5 doc_1010138198_item cFOoRQekA muu ylop kuni26 naine vene
## 6 doc_1010138199_item cFOoRQekA muu ylop kuni26 naine vene
## 7 doc_1010138200_item cFOoRQekA muu ylop kuni26 naine vene
## 8 doc_101672866015_item cFOoRQekA referaat ylop kuni26 naine vene
## 9 doc_104580264035_item cFqPphvYi <NA> <NA> <NA> <NA> <NA>
## 10 doc_104580264036_item cFqPphvYi essee op kuni18 mees vene
## # ... with 12,714 more rows, and 4 more variables: kodukeel <chr>,
## # keeletase <chr>, haridus <chr>, abivahendid <chr>
dokmeta %>% select(vanus:kodukeel)
## # A tibble: 12,724 x 4
## vanus sugu emakeel kodukeel
## <chr> <chr> <chr> <chr>
## 1 kuni18 naine vene vene
## 2 kuni18 naine vene vene
## 3 kuni18 naine vene vene
## 4 kuni26 naine vene vene
## 5 kuni26 naine vene vene
## 6 kuni26 naine vene vene
## 7 kuni26 naine vene vene
## 8 kuni26 naine vene vene
## 9 <NA> <NA> <NA> <NA>
## 10 kuni18 mees vene vene
## # ... with 12,714 more rows
dokmeta %>% select(ends_with("keel"))
## # A tibble: 12,724 x 3
## tekstikeel emakeel kodukeel
## <chr> <chr> <chr>
## 1 eesti vene vene
## 2 eesti vene vene
## 3 eesti vene vene
## 4 eesti vene vene
## 5 eesti vene vene
## 6 eesti vene vene
## 7 eesti vene vene
## 8 eesti vene vene
## 9 eesti <NA> <NA>
## 10 eesti vene vene
## # ... with 12,714 more rows
dokmeta %>% select(matches("^ko"))
## # A tibble: 12,724 x 3
## kood korpus kodukeel
## <chr> <chr> <chr>
## 1 doc_100636852915_item cFOoRQekA vene
## 2 doc_100636852916_item cFOoRQekA vene
## 3 doc_100636852917_item cFOoRQekA vene
## 4 doc_1010138197_item cFOoRQekA vene
## 5 doc_1010138198_item cFOoRQekA vene
## 6 doc_1010138199_item cFOoRQekA vene
## 7 doc_1010138200_item cFOoRQekA vene
## 8 doc_101672866015_item cFOoRQekA vene
## 9 doc_104580264035_item cFqPphvYi <NA>
## 10 doc_104580264036_item cFqPphvYi vene
## # ... with 12,714 more rows
dokmeta %>% select(contains("ko"))
## # A tibble: 12,724 x 4
## kood korpus elukoht kodukeel
## <chr> <chr> <chr> <chr>
## 1 doc_100636852915_item cFOoRQekA idaviru vene
## 2 doc_100636852916_item cFOoRQekA idaviru vene
## 3 doc_100636852917_item cFOoRQekA idaviru vene
## 4 doc_1010138197_item cFOoRQekA tallinn vene
## 5 doc_1010138198_item cFOoRQekA tallinn vene
## 6 doc_1010138199_item cFOoRQekA tallinn vene
## 7 doc_1010138200_item cFOoRQekA tallinn vene
## 8 doc_101672866015_item cFOoRQekA tallinn vene
## 9 doc_104580264035_item cFqPphvYi <NA> <NA>
## 10 doc_104580264036_item cFqPphvYi tallinn vene
## # ... with 12,714 more rows
dokmeta %>% select(emakeel, kodukeel, everything())
## # A tibble: 12,724 x 13
## emakeel kodukeel kood korpus tekstikeel tekstityyp
## <chr> <chr> <chr> <chr> <chr> <chr>
## 1 vene vene doc_100636852915_item cFOoRQekA eesti essee
## 2 vene vene doc_100636852916_item cFOoRQekA eesti muu
## 3 vene vene doc_100636852917_item cFOoRQekA eesti essee
## 4 vene vene doc_1010138197_item cFOoRQekA eesti muu
## 5 vene vene doc_1010138198_item cFOoRQekA eesti muu
## 6 vene vene doc_1010138199_item cFOoRQekA eesti muu
## 7 vene vene doc_1010138200_item cFOoRQekA eesti muu
## 8 vene vene doc_101672866015_item cFOoRQekA eesti referaat
## 9 <NA> <NA> doc_104580264035_item cFqPphvYi eesti <NA>
## 10 vene vene doc_104580264036_item cFqPphvYi eesti essee
## # ... with 12,714 more rows, and 7 more variables: elukoht <chr>,
## # taust <chr>, vanus <chr>, sugu <chr>, keeletase <chr>, haridus <chr>,
## # abivahendid <chr>
dokmeta %>% rename(keelekorpus=korpus)
## # A tibble: 12,724 x 13
## kood keelekorpus tekstikeel tekstityyp elukoht taust
## <chr> <chr> <chr> <chr> <chr> <chr>
## 1 doc_100636852915_item cFOoRQekA eesti essee idaviru op
## 2 doc_100636852916_item cFOoRQekA eesti muu idaviru op
## 3 doc_100636852917_item cFOoRQekA eesti essee idaviru op
## 4 doc_1010138197_item cFOoRQekA eesti muu tallinn ylop
## 5 doc_1010138198_item cFOoRQekA eesti muu tallinn ylop
## 6 doc_1010138199_item cFOoRQekA eesti muu tallinn ylop
## 7 doc_1010138200_item cFOoRQekA eesti muu tallinn ylop
## 8 doc_101672866015_item cFOoRQekA eesti referaat tallinn ylop
## 9 doc_104580264035_item cFqPphvYi eesti <NA> <NA> <NA>
## 10 doc_104580264036_item cFqPphvYi eesti essee tallinn op
## # ... with 12,714 more rows, and 7 more variables: vanus <chr>,
## # sugu <chr>, emakeel <chr>, kodukeel <chr>, keeletase <chr>,
## # haridus <chr>, abivahendid <chr>
dokmeta %>% arrange(desc(tekstityyp))
## # A tibble: 12,724 x 13
## kood korpus tekstikeel tekstityyp elukoht
## <chr> <chr> <chr> <chr> <chr>
## 1 doc_213943985076_item cFOoRQekA eesti ymberjutustus tallinn
## 2 doc_478101780755_item cwUSEqQLt eesti ymberjutustus idaviru
## 3 doc_478101780756_item cwUSEqQLt eesti ymberjutustus tallinn
## 4 doc_478101780758_item cwUSEqQLt eesti ymberjutustus idaviru
## 5 doc_491521501803_item cFOoRQekA eesti ymberjutustus tallinn
## 6 doc_491521501905_item cFOoRQekA eesti ymberjutustus idaviru
## 7 doc_516622545503_item cFOoRQekA eesti ymberjutustus tallinn
## 8 doc_51880851204_item cFOoRQekA eesti ymberjutustus tallinn
## 9 doc_681992022005_item cFOoRQekA eesti ymberjutustus idaviru
## 10 doc_681992022006_item cFOoRQekA eesti ymberjutustus idaviru
## # ... with 12,714 more rows, and 8 more variables: taust <chr>,
## # vanus <chr>, sugu <chr>, emakeel <chr>, kodukeel <chr>,
## # keeletase <chr>, haridus <chr>, abivahendid <chr>
dokmeta %>% mutate(vanuseots=str_sub(vanus, start=str_length(vanus)-1)) %>% select(vanus, vanuseots)
## # A tibble: 12,724 x 2
## vanus vanuseots
## <chr> <chr>
## 1 kuni18 18
## 2 kuni18 18
## 3 kuni18 18
## 4 kuni26 26
## 5 kuni26 26
## 6 kuni26 26
## 7 kuni26 26
## 8 kuni26 26
## 9 <NA> <NA>
## 10 kuni18 18
## # ... with 12,714 more rows
dokarvud %>% summarise(sonadearv=sum(sonu), tekste=n(), lausetearve=n_distinct(lauseid))
## # A tibble: 1 x 3
## sonadearv tekste lausetearve
## <int> <int> <int>
## 1 3488961 12724 206
dokarvud %>% inner_join(dokmeta) %>% group_by(keeletase) %>% summarise(sonadearv=sum(sonu))
## Joining, by = "kood"
## # A tibble: 10 x 2
## keeletase sonadearv
## <chr> <int>
## 1 A 250522
## 2 A1 76
## 3 A2 48742
## 4 B 304363
## 5 B1 120059
## 6 B2 104183
## 7 C 188176
## 8 C1 111435
## 9 C2 110109
## 10 <NA> 2251296
dokarvud %>% inner_join(dokmeta) %>% group_by(keeletase, kodukeel) %>% summarise(sonadearv=sum(sonu))
## Joining, by = "kood"
## # A tibble: 62 x 3
## # Groups: keeletase [?]
## keeletase kodukeel sonadearv
## <chr> <chr> <int>
## 1 A hebrea 5
## 2 A inglise 15603
## 3 A lati 259
## 4 A muud 8615
## 5 A saksa 3658
## 6 A soome 6944
## 7 A ukraina 1556
## 8 A ungari 675
## 9 A vene 213087
## 10 A <NA> 120
## # ... with 52 more rows
dokarvud %>% mutate(sonukokku=sum(sonu), osa=sonu/sonukokku) %>% select(kood, sonu, sonukokku, osa)
## # A tibble: 12,724 x 4
## kood sonu sonukokku osa
## <chr> <int> <int> <dbl>
## 1 doc_100636852915_item 181 3488961 5.187791e-05
## 2 doc_100636852916_item 101 3488961 2.894845e-05
## 3 doc_100636852917_item 128 3488961 3.668714e-05
## 4 doc_1010138197_item 559 3488961 1.602196e-04
## 5 doc_1010138198_item 565 3488961 1.619393e-04
## 6 doc_1010138199_item 570 3488961 1.633724e-04
## 7 doc_1010138200_item 550 3488961 1.576401e-04
## 8 doc_101672866015_item 6181 3488961 1.771588e-03
## 9 doc_104580264035_item 0 3488961 0.000000e+00
## 10 doc_104580264036_item 414 3488961 1.186600e-04
## # ... with 12,714 more rows
#Näidake iga teksti juures, kui suure osa moodustab selle teksti sõnade arv selle keeletaseme sõnade üldarvust
dokarvud %>% inner_join(dokmeta) %>% group_by(keeletase) %>% mutate(sonukeeletasemes=sum(sonu), osakeeletasemes=sonu/sonukeeletasemes) %>% select(kood, keeletase, sonukeeletasemes, osakeeletasemes, sonu)
## Joining, by = "kood"
## # A tibble: 12,724 x 5
## # Groups: keeletase [10]
## kood keeletase sonukeeletasemes osakeeletasemes sonu
## <chr> <chr> <int> <dbl> <int>
## 1 doc_100636852915_item B 304363 0.0005946846 181
## 2 doc_100636852916_item B 304363 0.0003318406 101
## 3 doc_100636852917_item B 304363 0.0004205505 128
## 4 doc_1010138197_item A 250522 0.0022313410 559
## 5 doc_1010138198_item B 304363 0.0018563360 565
## 6 doc_1010138199_item A 250522 0.0022752493 570
## 7 doc_1010138200_item A 250522 0.0021954160 550
## 8 doc_101672866015_item C 188176 0.0328469093 6181
## 9 doc_104580264035_item <NA> 2251296 0.0000000000 0
## 10 doc_104580264036_item C1 111435 0.0037151703 414
## # ... with 12,714 more rows
dokarvud %>% select(kood, tahti, sonu) %>% gather("tunnus", "vaartus", -1) %>% arrange(kood)
## # A tibble: 25,448 x 3
## kood tunnus vaartus
## <chr> <chr> <int>
## 1 doc_100636852915_item tahti 1156
## 2 doc_100636852915_item sonu 181
## 3 doc_100636852916_item tahti 661
## 4 doc_100636852916_item sonu 101
## 5 doc_100636852917_item tahti 936
## 6 doc_100636852917_item sonu 128
## 7 doc_1010138197_item tahti 4146
## 8 doc_1010138197_item sonu 559
## 9 doc_1010138198_item tahti 4145
## 10 doc_1010138198_item sonu 565
## # ... with 25,438 more rows
dokarvud %>% select(kood, tahti, sonu, lauseid) %>% gather("tunnus", "vaartus", -1) %>% ggplot(aes(tunnus, vaartus, group=kood)) + geom_line()
dokarvud %>% select(-kood) %>% apply(2, FUN=mean)
## tahti sonu lauseid
## 1823.510138 274.203159 34.924238
## vigu veatyype kolmetahelistepr
## 4.713062 2.168736 8.148317
## viietahelistepr kymnejarohkemtahelistepr kahesonalistepr
## 13.620839 8.641552 9.363294
## kolmesonalistepr kuuekuni9sonalistepr kymnekuni20sonalistepr
## 8.148810 35.315100 24.045754
dokarvud %>% select(-kood) %>% apply(1, FUN=max) %>% head()
## [1] 1156 661 936 4146 4145 4215
dokarvud %>% select(-kood) %>% apply(c(1, 2), FUN=function(arv){arv/2}) %>% head()
## tahti sonu lauseid vigu veatyype kolmetahelistepr viietahelistepr
## [1,] 578.0 90.5 7.0 19.5 11.0 6.355 7.460
## [2,] 330.5 50.5 3.0 9.5 5.5 5.000 6.500
## [3,] 468.0 64.0 6.0 11.0 7.5 6.870 5.725
## [4,] 2073.0 279.5 41.5 24.5 7.5 3.040 6.530
## [5,] 2072.5 282.5 40.0 31.0 13.0 2.830 6.815
## [6,] 2107.5 285.0 42.0 22.0 8.0 2.895 6.580
## kymnejarohkemtahelistepr kahesonalistepr kolmesonalistepr
## [1,] 2.490 0 0.000
## [2,] 4.000 0 0.000
## [3,] 6.485 0 4.545
## [4,] 5.100 0 0.625
## [5,] 4.865 0 0.665
## [6,] 5.435 0 0.625
## kuuekuni9sonalistepr kymnekuni20sonalistepr
## [1,] 18.750 37.500
## [2,] 10.000 50.000
## [3,] 18.180 22.725
## [4,] 16.250 8.125
## [5,] 18.000 7.990
## [6,] 16.875 8.750
class(dokarvud %>% select(-kood) %>% lapply(FUN=mean))
## [1] "list"
class(dokarvud %>% select(-kood) %>% apply(2, FUN=mean))
## [1] "numeric"
class(dokarvud %>% select(-kood) %>% sapply(FUN=mean))
## [1] "numeric"
tapply(dokmeta$elukoht, dokmeta$elukoht, FUN=length)
## idaviru inglismaa leedu muu saksamaa soome tallinn
## 3531 46 22 384 62 321 4586
## tartu ungari
## 83 5
runif(1, 150, 170)
## [1] 154.6675
rnorm(1, 160, 10)
## [1] 165.018
hist(runif(100000, 150, 170))
hist(rnorm(100000, 160, 10))
plot(density(runif(100000, 150, 170)))
plot(density(rnorm(100000, 160, 10)))
punif(160, 150, 170)
## [1] 0.5
punif(155, 150, 170)
## [1] 0.25
punif(165, 150, 170)
## [1] 0.75
punif(195, 150, 170)
## [1] 1
pnorm(195, 160, 10)
## [1] 0.9997674
pnorm(160, 160, 10)
## [1] 0.5
pnorm(170, 160, 10)
## [1] 0.8413447
qunif(0.75, 150, 170)
## [1] 165
#Leidke ühtlase jaotuse kohal väärtus, millest väiksemad on 95% mõõtmistest
qunif(0.95, 150, 170)
## [1] 169
#Leidke 160 sd 10 normaaljaotuse korral väärtus, millest väiksemad on 95 mõõtmistest
qnorm(0.95, 160, 10)
## [1] 176.4485
dokmeta %>% inner_join(dokarvud) %>% ggplot(aes(tahti, lauseid, color=keeletase))+geom_point()+facet_wrap(~keeletase)
## Joining, by = "kood"
dokmeta %>% inner_join(dokarvud) %>% mutate(vanus=factor(levels=c("kuni18", "kuni26", "kuni40", "41plus"), vanus))%>% ggplot(aes(tahti, lauseid, color=keeletase))+geom_point()+facet_grid(vanus~keeletase)
## Joining, by = "kood"