--- title: "tekstidmds" output: html_document --- ```r tekst="Juku tuli kooli" strsplit(tekst, "")[[1]] ``` ``` ## [1] "J" "u" "k" "u" " " "t" "u" "l" "i" " " "k" "o" "o" "l" "i" ``` ```r table(strsplit(tekst, "")[[1]]) ``` ``` ## ## i J k l o t u ## 2 2 1 2 2 2 1 3 ``` ```r library(tidyverse) ``` ``` ## -- Attaching packages ----------------------------------------------------- tidyverse 1.2.1 -- ``` ``` ## ggplot2 3.0.0 purrr 0.2.5 ## tibble 1.4.2 dplyr 0.7.6 ## tidyr 0.8.1 stringr 1.3.1 ## readr 1.1.1 forcats 0.3.0 ``` ``` ## -- Conflicts -------------------------------------------------------- tidyverse_conflicts() -- ## x dplyr::filter() masks stats::filter() ## x dplyr::lag() masks stats::lag() ``` ```r str_split(tekst, "") ``` ``` ## [[1]] ## [1] "J" "u" "k" "u" " " "t" "u" "l" "i" " " "k" "o" "o" "l" "i" ``` ```r unique(str_split(tekst, "")[[1]]) ``` ``` ## [1] "J" "u" "k" " " "t" "l" "i" "o" ``` ```r tibble(taht=str_split(tekst, "")[[1]]) ``` ``` ## # A tibble: 15 x 1 ## taht ## ## 1 J ## 2 u ## 3 k ## 4 u ## 5 " " ## 6 t ## 7 u ## 8 l ## 9 i ## 10 " " ## 11 k ## 12 o ## 13 o ## 14 l ## 15 i ``` ```r tibble(taht=str_split(str_to_lower(tekst), "")[[1]]) %>% group_by(taht) %>% summarise(kogus=n()) %>% arrange(-kogus) ``` ``` ## # A tibble: 8 x 2 ## taht kogus ## ## 1 u 3 ## 2 " " 2 ## 3 i 2 ## 4 k 2 ## 5 l 2 ## 6 o 2 ## 7 j 1 ## 8 t 1 ``` ```r read_file("http://minitorn.tlu.ee/~jaagup/kool/java/kursused/18/r/juhend.txt") ``` ``` ## [1] "Kursusel tulemuse kirja saamiseks tarvilik\r\n\r\n* Märksõnade paarid filmi andmebaasis 13.09\r\n* Arvutused + joonis filmiandmestiku põhjal 04.10\r\n* Võrgustiku uuring filmiandmestiku põhjal 18.10\r\n* Jaotused ja tõenäosusfunktsioonid 18.10\r\n* Rühmade arvulised võrdlused (T-test ja ANOVA) 08.11\r\n* Shiny interaktiivsed joonised filmibaasi põhjal 15.11\r\n\r\nSelgitusi\r\n\r\n* Märksõnade paarid filmi andmebaasis \r\n\r\nFilmirühma (näiteks etteantud aastakümnes tehtud filmide) puhul sama filmi juures koos kasutatud märksõnade paarid järjestatuna paaride sageduse järgi\r\n\r\n\r\n* Arvutused + joonis filmiandmestiku põhjal \r\n\r\nKeerukus vastavalt võimetele. Võib olla ülevaade ühe tabeli \r\nandmete põhjal, aga põnevad avastused alati oodatud. \r\nVäljund soovitavalt R Markdowni abil\r\n\r\n* Võrgustiku uuring filmiandmestiku põhjal\r\n\r\nNäiteid: märksõnade koosesinemine, filmid ja festivalid, \r\nnäitlejad ja filmid, ajatelg.\r\nVaja katsetada, kuidas andmehulka piirata, et tulemus loetav oleks\r\nTemaatiline esitlus (2-5 minutit) + seletus, kuidas see koostati\r\n\r\n* Jaotused ja tõenäosusfunktsioonid\r\n\r\nNormaaljaotus, binoomjaotus, poisooni jaotus\r\nrnorm, pnorm, qnorm, pbinom, ppois\r\n\r\n* Rühmade arvulised võrdlused (T-test ja ANOVA)\r\n\r\nSoovitavalt keeleandmestiku põhjal. Andmestiku üldine tutvustus arvude ja jooniste abil.\r\nKahe arvukogumi võrdlus T-testi abil, juurde seletavad laused\r\nJaotuse sõltuvus rühmast ANOVA abil, juurde seletavad laused, karpdiagramm\r\nVõimalusel MANOVA\r\nEsitus soovitavalt R Markdowni abil loodud HTML-leht\r\n\r\n* Shiny interaktiivsed joonised filmibaasi põhjal\r\n\r\nKasutaja sisestusest/valikust sõltuvad joonised Shiny veebilehel\r\n\r\n\r\njaagup@tlu.ee" ``` ```r #Järjestage veebifailis olevad tähed sageduse järgi ``` ```r tekst= read_file("http://minitorn.tlu.ee/~jaagup/kool/java/kursused/18/r/juhend.txt") tibble(taht=str_split(str_to_lower(tekst), "")[[1]]) %>% group_by(taht) %>% summarise(kogus=n()) %>% arrange(-kogus) ``` ``` ## # A tibble: 46 x 2 ## taht kogus ## ## 1 " " 259 ## 2 a 152 ## 3 i 118 ## 4 s 112 ## 5 e 110 ## 6 t 96 ## 7 u 84 ## 8 l 75 ## 9 d 71 ## 10 o 61 ## # ... with 36 more rows ``` ```r list.files("d:/r/1115/uuritavad") ``` ``` ## [1] "juhend_r.txt" "juhend_veebiraamistikud.txt" ## [3] "Puu2.java" "Puu4.java" ``` ```r tahtedeSagedused <- function(failinimi){ tekst= read_file(failinimi) vastus=tibble(taht=str_split(str_to_lower(tekst), "")[[1]]) %>% group_by(taht) %>% summarise(kogus=n()) return (vastus) } print(tahtedeSagedused("d:/r/1115/uuritavad/Puu2.java")) ``` ``` ## # A tibble: 49 x 2 ## taht kogus ## ## 1 - 1 ## 2 " " 130 ## 3 "\n" 31 ## 4 "\"" 2 ## 5 ( 38 ## 6 ) 38 ## 7 * 1 ## 8 , 20 ## 9 . 32 ## 10 ; 16 ## # ... with 39 more rows ``` ```r kaust="d:/r/1115/uuritavad/" tabel1=tahtedeSagedused(paste(kaust, "Puu2.java", sep="")) tabel2=tahtedeSagedused(paste(kaust, "juhend_r.txt", sep="")) colnames(tabel2)=c("taht", "juhend_r.txt") tabel1 %>% full_join(tabel2, by="taht") %>% replace(., is.na(.), 0) ``` ``` ## # A tibble: 59 x 3 ## taht kogus juhend_r.txt ## ## 1 - 1 5 ## 2 " " 130 259 ## 3 "\n" 31 0 ## 4 "\"" 2 0 ## 5 ( 38 4 ## 6 ) 38 4 ## 7 * 1 12 ## 8 , 20 16 ## 9 . 32 12 ## 10 ; 16 0 ## # ... with 49 more rows ``` ```r # tabel1 %>% left_join(tabel2 %>% rename(juhend_r=kogus), by="taht") ``` ```r kaust="d:/r/1115/uuritavad/" failinimed=list.files(kaust) koos=tahtedeSagedused(paste(kaust, failinimed[1], sep="")) colnames(koos)=c("taht", failinimed[1]) for(failinimi in failinimed[2:length(failinimed)]){ tabel=tahtedeSagedused(paste(kaust, failinimi, sep="")) colnames(tabel)=c("taht", failinimi) koos=koos %>% full_join(tabel, by="taht") } koos=koos %>% replace(., is.na(.), 0) print(koos) ``` ``` ## # A tibble: 63 x 5 ## taht juhend_r.txt juhend_veebiraamistikud.txt Puu2.java Puu4.java ## ## 1 - 5 3 1 2 ## 2 " " 259 262 130 380 ## 3 "\r\n" 47 29 0 0 ## 4 ( 4 0 38 77 ## 5 ) 4 0 38 77 ## 6 * 12 5 1 2 ## 7 , 16 4 20 46 ## 8 . 12 22 32 52 ## 9 / 1 2 0 8 ## 10 : 1 4 0 3 ## # ... with 53 more rows ``` ```r arvud=koos %>% select(-taht) t(arvud) ``` ``` ## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] ## juhend_r.txt 5 259 47 4 4 12 16 12 1 ## juhend_veebiraamistikud.txt 3 262 29 0 0 5 4 22 2 ## Puu2.java 1 130 0 38 38 1 20 32 0 ## Puu4.java 2 380 0 77 77 2 46 52 8 ## [,10] [,11] [,12] [,13] [,14] [,15] [,16] ## juhend_r.txt 1 1 3 6 11 1 1 ## juhend_veebiraamistikud.txt 4 1 0 13 35 9 5 ## Puu2.java 0 0 0 13 10 12 11 ## Puu4.java 3 0 3 47 34 15 10 ## [,17] [,18] [,19] [,20] [,21] [,22] [,23] ## juhend_r.txt 1 2 3 1 152 14 71 ## juhend_veebiraamistikud.txt 4 1 2 5 114 20 40 ## Puu2.java 1 2 0 2 46 4 21 ## Puu4.java 8 9 0 0 125 27 63 ## [,24] [,25] [,26] [,27] [,28] [,29] [,30] ## juhend_r.txt 110 16 12 23 118 40 41 ## juhend_veebiraamistikud.txt 140 4 14 8 128 15 66 ## Puu2.java 36 7 13 11 45 7 4 ## Puu4.java 153 9 32 31 119 22 34 ## [,31] [,32] [,33] [,34] [,35] [,36] [,37] ## juhend_r.txt 75 54 59 61 22 1 48 ## juhend_veebiraamistikud.txt 52 47 54 52 21 0 54 ## Puu2.java 14 8 39 18 49 0 17 ## Puu4.java 89 26 95 87 86 0 65 ## [,38] [,39] [,40] [,41] [,42] [,43] [,44] ## juhend_r.txt 112 96 84 43 2 25 12 ## juhend_veebiraamistikud.txt 85 86 49 33 0 9 9 ## Puu2.java 30 30 24 6 8 0 0 ## Puu4.java 103 98 85 32 18 0 0 ## [,45] [,46] [,47] [,48] [,49] [,50] [,51] ## juhend_r.txt 8 3 0 0 0 0 0 ## juhend_veebiraamistikud.txt 2 1 1 1 2 12 0 ## Puu2.java 0 9 0 1 10 0 31 ## Puu4.java 0 14 0 1 28 0 81 ## [,52] [,53] [,54] [,55] [,56] [,57] [,58] ## juhend_r.txt 0 0 0 0 0 0 0 ## juhend_veebiraamistikud.txt 0 0 0 0 0 0 0 ## Puu2.java 2 16 1 1 7 7 4 ## Puu4.java 8 45 1 1 16 16 22 ## [,59] [,60] [,61] [,62] [,63] ## juhend_r.txt 0 0 0 0 0 ## juhend_veebiraamistikud.txt 0 0 0 0 0 ## Puu2.java 1 1 11 0 0 ## Puu4.java 1 4 10 3 1 ``` ```r koos$taht ``` ``` ## [1] "-" " " "\r\n" "(" ")" "*" "," "." "/" ":" ## [11] "@" "+" "0" "1" "2" "3" "4" "5" "8" "9" ## [21] "a" "b" "d" "e" "f" "g" "h" "i" "j" "k" ## [31] "l" "m" "n" "o" "p" "q" "r" "s" "t" "u" ## [41] "v" "w" "õ" "ä" "ü" "y" "6" "7" "c" "ö" ## [51] "\n" "\"" ";" "[" "]" "{" "}" "=" ">" "z" ## [61] "x" "" "" ``` ```r failiandmed=t(arvud) failiandmed ``` ``` ## [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] ## juhend_r.txt 5 259 47 4 4 12 16 12 1 ## juhend_veebiraamistikud.txt 3 262 29 0 0 5 4 22 2 ## Puu2.java 1 130 0 38 38 1 20 32 0 ## Puu4.java 2 380 0 77 77 2 46 52 8 ## [,10] [,11] [,12] [,13] [,14] [,15] [,16] ## juhend_r.txt 1 1 3 6 11 1 1 ## juhend_veebiraamistikud.txt 4 1 0 13 35 9 5 ## Puu2.java 0 0 0 13 10 12 11 ## Puu4.java 3 0 3 47 34 15 10 ## [,17] [,18] [,19] [,20] [,21] [,22] [,23] ## juhend_r.txt 1 2 3 1 152 14 71 ## juhend_veebiraamistikud.txt 4 1 2 5 114 20 40 ## Puu2.java 1 2 0 2 46 4 21 ## Puu4.java 8 9 0 0 125 27 63 ## [,24] [,25] [,26] [,27] [,28] [,29] [,30] ## juhend_r.txt 110 16 12 23 118 40 41 ## juhend_veebiraamistikud.txt 140 4 14 8 128 15 66 ## Puu2.java 36 7 13 11 45 7 4 ## Puu4.java 153 9 32 31 119 22 34 ## [,31] [,32] [,33] [,34] [,35] [,36] [,37] ## juhend_r.txt 75 54 59 61 22 1 48 ## juhend_veebiraamistikud.txt 52 47 54 52 21 0 54 ## Puu2.java 14 8 39 18 49 0 17 ## Puu4.java 89 26 95 87 86 0 65 ## [,38] [,39] [,40] [,41] [,42] [,43] [,44] ## juhend_r.txt 112 96 84 43 2 25 12 ## juhend_veebiraamistikud.txt 85 86 49 33 0 9 9 ## Puu2.java 30 30 24 6 8 0 0 ## Puu4.java 103 98 85 32 18 0 0 ## [,45] [,46] [,47] [,48] [,49] [,50] [,51] ## juhend_r.txt 8 3 0 0 0 0 0 ## juhend_veebiraamistikud.txt 2 1 1 1 2 12 0 ## Puu2.java 0 9 0 1 10 0 31 ## Puu4.java 0 14 0 1 28 0 81 ## [,52] [,53] [,54] [,55] [,56] [,57] [,58] ## juhend_r.txt 0 0 0 0 0 0 0 ## juhend_veebiraamistikud.txt 0 0 0 0 0 0 0 ## Puu2.java 2 16 1 1 7 7 4 ## Puu4.java 8 45 1 1 16 16 22 ## [,59] [,60] [,61] [,62] [,63] ## juhend_r.txt 0 0 0 0 0 ## juhend_veebiraamistikud.txt 0 0 0 0 0 ## Puu2.java 1 1 11 0 0 ## Puu4.java 1 4 10 3 1 ``` ```r dist(failiandmed) ``` ``` ## juhend_r.txt juhend_veebiraamistikud.txt ## juhend_veebiraamistikud.txt 99.05554 ## Puu2.java 278.61263 255.13330 ## Puu4.java 236.17578 235.90888 ## Puu2.java ## juhend_veebiraamistikud.txt ## Puu2.java ## Puu4.java 366.51876 ``` ```r asukohad=cmdscale(dist(failiandmed), 2 ) class(asukohad) ``` ``` ## [1] "matrix" ``` ```r plot(asukohad) ``` ```r as_tibble(asukohad) %>% add_column(fnimed=rownames(asukohad)) %>% ggplot(aes(V1, V2, label=fnimed)) + geom_text() ```