--- title: "tekstidmds" output: html_document --- ```{r} tekst="Juku tuli kooli" strsplit(tekst, "")[[1]] table(strsplit(tekst, "")[[1]]) ``` ```{r} library(tidyverse) str_split(tekst, "") unique(str_split(tekst, "")[[1]]) tibble(taht=str_split(tekst, "")[[1]]) ``` ```{r} tibble(taht=str_split(str_to_lower(tekst), "")[[1]]) %>% group_by(taht) %>% summarise(kogus=n()) %>% arrange(-kogus) ``` ```{r} read_file("http://minitorn.tlu.ee/~jaagup/kool/java/kursused/18/r/juhend.txt") #Järjestage veebifailis olevad tähed sageduse järgi ``` ```{r} tekst= read_file("http://minitorn.tlu.ee/~jaagup/kool/java/kursused/18/r/juhend.txt") tibble(taht=str_split(str_to_lower(tekst), "")[[1]]) %>% group_by(taht) %>% summarise(kogus=n()) %>% arrange(-kogus) ``` ```{r} list.files("d:/r/1115/uuritavad") ``` ```{r} tahtedeSagedused <- function(failinimi){ tekst= read_file(failinimi) vastus=tibble(taht=str_split(str_to_lower(tekst), "")[[1]]) %>% group_by(taht) %>% summarise(kogus=n()) return (vastus) } print(tahtedeSagedused("d:/r/1115/uuritavad/Puu2.java")) ``` ```{r} kaust="d:/r/1115/uuritavad/" tabel1=tahtedeSagedused(paste(kaust, "Puu2.java", sep="")) tabel2=tahtedeSagedused(paste(kaust, "juhend_r.txt", sep="")) colnames(tabel2)=c("taht", "juhend_r.txt") tabel1 %>% full_join(tabel2, by="taht") %>% replace(., is.na(.), 0) # tabel1 %>% left_join(tabel2 %>% rename(juhend_r=kogus), by="taht") ``` ```{r} kaust="d:/r/1115/uuritavad/" failinimed=list.files(kaust) koos=tahtedeSagedused(paste(kaust, failinimed[1], sep="")) colnames(koos)=c("taht", failinimed[1]) for(failinimi in failinimed[2:length(failinimed)]){ tabel=tahtedeSagedused(paste(kaust, failinimi, sep="")) colnames(tabel)=c("taht", failinimi) koos=koos %>% full_join(tabel, by="taht") } koos=koos %>% replace(., is.na(.), 0) print(koos) ``` ```{r} arvud=koos %>% select(-taht) t(arvud) koos$taht failiandmed=t(arvud) failiandmed dist(failiandmed) asukohad=cmdscale(dist(failiandmed), 2 ) class(asukohad) plot(asukohad) as_tibble(asukohad) %>% add_column(fnimed=rownames(asukohad)) %>% ggplot(aes(V1, V2, label=fnimed)) + geom_text() ``` ```{r} asukohad=cmdscale(dist(scale(failiandmed)), 2 ) as_tibble(asukohad) %>% add_column(fnimed=rownames(asukohad)) %>% ggplot(aes(V1, V2, label=fnimed)) + geom_text() ``` ```{r} failiandmed=t(scale(arvud)) asukohad=cmdscale(dist(failiandmed), 2 ) as_tibble(asukohad) %>% add_column(fnimed=rownames(asukohad)) %>% ggplot(aes(V1, V2, label=fnimed)) + geom_text() ``` ```{r} tahtedeSagedused <- function(failinimi){ tekst= read_file(failinimi) vastus=tibble(taht=str_split(str_to_lower(tekst), "")[[1]]) %>% group_by(taht) %>% summarise(kogus=n()) return (vastus) } kaust="d:/r/1115/uuritavad2/" failinimed=list.files(kaust) koos=tahtedeSagedused(paste(kaust, failinimed[1], sep="")) colnames(koos)=c("taht", failinimed[1]) for(failinimi in failinimed[2:length(failinimed)]){ tabel=tahtedeSagedused(paste(kaust, failinimi, sep="")) colnames(tabel)=c("taht", failinimi) koos=koos %>% full_join(tabel, by="taht") } koos=koos %>% replace(., is.na(.), 0) print(koos) arvud=koos %>% select(-taht) failiandmed=t(scale(arvud)) asukohad=cmdscale(dist(failiandmed), 2 ) as_tibble(asukohad) %>% add_column(fnimed=rownames(asukohad)) %>% ggplot(aes(V1, V2, label=fnimed)) + geom_text() ``` ```{r} tekst="Juku tuli kooli" substring(tekst, 1, 2) for(koht in 1:nchar(tekst)-1){ print(substring(tekst, koht, koht+1)) } sapply(1:(nchar(tekst)-1), function(koht){substring(tekst, koht, koht+1)}) ``` ```{r} paarideSagedused <- function(failinimi){ print(failinimi) tekst= read_file(failinimi) paarid=sapply(1:(nchar(tekst)-1), function(koht){substring(tekst, koht, koht+1)}) vastus=tibble(taht=paarid) %>% group_by(taht) %>% summarise(kogus=n()) return (vastus) } kaust="d:/r/1115/uuritavad2/" failinimed=list.files(kaust) koos=paarideSagedused(paste(kaust, failinimed[1], sep="")) colnames(koos)=c("taht", failinimed[1]) for(failinimi in failinimed[2:length(failinimed)]){ tabel=paarideSagedused(paste(kaust, failinimi, sep="")) colnames(tabel)=c("taht", failinimi) koos=koos %>% full_join(tabel, by="taht") } koos=koos %>% replace(., is.na(.), 0) print(koos) arvud=koos %>% select(-taht) failiandmed=t(scale(arvud)) asukohad=cmdscale(dist(failiandmed), 2 ) as_tibble(asukohad) %>% add_column(fnimed=rownames(asukohad)) %>% ggplot(aes(V1, V2, label=fnimed)) + geom_text() ``` ```{r} ``` ```{r} ``` ```{r} ``` ```{r} ``` ```{r} ```