iris skaleeritud=scale(iris[, 1:4]) plot(skaleeritud[,3:4], col=iris$Species) library(caret) round(runif(10, 1, 150)) #kümme juhustlikku täisarvu vahemikus 1-150 treeningunumbrid=round(runif(100, 1, 150)) treeningandmed=iris[treeningunumbrid, ] uuringunumbrid=setdiff(1:150, treeningunumbrid) #need, mis ei ole treeningus treeningunumbrid uuringunumbrid uuringuandmed=iris[uuringunumbrid, ] library(class) vastus1=knn(treeningandmed[, 1:4], uuringuandmed[, 1:4], treeningandmed[,5], k = 3) vastus1 uuringuandmed[, 5] table(vastus1, uuringuandmed[, 5]) head(treeningandmed) setdiff(1:10, 1:5) setwd("d:/jaagup/xmltark/masinope") list.files("kood") library(readr) for (fnimi in list.files("kood")){ sisu=read_file(paste("kood",fnimi, sep="/")) sapply(letters, function(t){str_count(sisu, t)}) #print(sisu) } setwd("d:/jaagup/xmltark/masinope") library(stringr) koodisagedused=t(sapply(list.files("kood"), function(fnimi){ sisu=read_file(paste("kood",fnimi, sep="/")) sapply(letters, function(t){str_count(sisu, t)}) })) koodisagedused uudistesagedused=t(sapply(list.files("uudised"), function(fnimi){ sisu=read_file(paste("uudised",fnimi, sep="/")) sapply(letters, function(t){str_count(sisu, t)}) })) uudistesagedused koos=as.data.frame(rbind(koodisagedused, uudistesagedused)) koos[, 1:5] koos$tyyp="uudis" koos[1:nrow(koodisagedused), "tyyp"]="kood" koos knn(koos[, 1:26], koodisagedused, koos[, "tyyp"], k=2) knn(koos[, 1:26], koodisagedused, koos[, "tyyp"], k=2) #Lisage kolmas kataloog segatüüpi tekstidega, #vaata, mille puhul pakutakse õigesti, et kas tegemist uudise või koodiga class(koos) library(stringr) str_count("tere", "e") sapply(letters, function(t){str_count("tere", t)})