ls() #rm(list=ls()) library(tidyverse) ukpildid=filter(NA_Flickr2_ANALYSED, `owner/username`=="The National Archives UK") head(ukpildid) nrow(ukpildid) nrow(NA_Flickr2_ANALYSED) colnames(ukpildid) atulbad=grep("author$", grep("tag", colnames(ukpildid), value=TRUE), value=TRUE) pildinr=ukpildid$id[1] autorid=unname(t(ukpildid[ukpildid$id==pildinr, atulbad])[, 1]) autorid=autorid[!is.na(autorid)] t1=tibble(a=autorid, p=pildinr) for(nr in 2:length(ukpildid$id)){ autorid=unname(t(ukpildid[ukpildid$id==ukpildid$id[nr], atulbad])[, 1]) autorid=autorid[!is.na(autorid)] t2=tibble(a=autorid, p=ukpildid$id[nr]) t1=rbind(t1, t2) print(nr) } t1 nrow(t1) table(t1) head(t1, 30) write_csv(t1, file.choose()) hist(table(t1$a)) sagedused=as.data.frame(table(t1$a)) sagedused[order(sagedused$Freq),] sagedused[order(sagedused$Freq),]$Freq table(sagedused[order(sagedused$Freq),]$Freq) #Näita iga pildi kohta, mitu korda seda on tagitud #Järjesta tulemused sageduse järjekorras # Püüa leitud sagedusi iseloomustada arrange(as_tibble(table(t1$p)), desc(n)) pildisagedused=t1$p %>% table() %>% as_tibble() %>% arrange(desc(n)) pildisagedused table(cut(pildisagedused$n, c(0, 10, 30, 100))) #Looge sarnased rühmad ka autorite sageduste kohta table(cut(as.data.frame(table(t1$a))$Freq, c(0, 10, 100, 1000, 1000000))) table(cut(as.data.frame(table(t1$a))$Freq, 5)) #t1 - kõik pildid ja tagid #seosed - tagid, kus ei osale rahvusarhiiv 31575009@N05 seosed=filter(t1, a!='31575009@N05') seosed table(seosed$p) %>% as_tibble() %>% arrange(desc(n)) pildinr="3047457325" autorid=seosed %>% filter(p==pildinr) %>% select(a) %>% unique() %>% .$a seosed %>% filter(a %in% autorid) %>% filter(p!=pildinr) %>% .$p %>% unique() autorid length(unique(seosed$p)) #Mõtted järgmiseks tunniks Saame lisaks kätte tagide sisud pildi_id, tagi_autor, tagi_content, content-sõnade uuring autor-content paar? Autori eripära Kui autoritel kattub üks tag, kas kattuvad ka teised?