from collections import defaultdict import urllib.request vasak=defaultdict(int) parem=defaultdict(int) ryhmasonad=set() vasakud=defaultdict(int) paremad=defaultdict(int) puuduvad=defaultdict(int) kogupuuduvad=defaultdict(int) molemad=defaultdict(int) ryhmitatuid=defaultdict(int) sonukokku=0 for rida in open("Andmed/noun_hypernyms_estwn_2.3.2.txt", encoding="utf-8"): m=rida.strip().split("<") vasak[m[0]]+=1 parem[m[1]]+=1 koos=set(vasak.keys()).intersection(set(parem.keys())) m0=urllib.request.urlopen("https://minitorn.tlu.ee/~jaagup/oma/too/23/05/word2vec/vastused/jaotus1000_marksonad.txt").read().decode("utf-8").split("\n") for nr in range(1000): for sona in m0[nr*3+1].strip().split(): ryhmasonad.add(sona) fnimeloend="Eri_Klas_files.txt" fkataloog="C:/jaagup/22/bfmkeel/tekstid_syntaks/" fnimed=[fnimi.strip() for fnimi in open(fnimeloend, encoding="utf-8").readlines()] for fnimi in fnimed: print(fnimi) fread=open(fkataloog+"s"+fnimi, encoding="utf-8").readlines() for rida in fread: sonukokku+=1 lemma=rida.split(";")[3].replace("_", "").replace("=", "") kogupuudu=True puudu=True if lemma in vasak: vasakud[lemma]+=1 puudu=False if lemma in parem: paremad[lemma]+=1 puudu=False if puudu: puuduvad[lemma]+=1 if sona in ryhmasonad: ryhmitatuid[lemma]+=1 elif puudu: kogupuuduvad[lemma]+=1 f2=open("hyperkogused.txt", "w", encoding="utf-8") print("puuduvad ", puuduvad, file=f2) print("kogupuuduvad ", kogupuuduvad, file=f2) print("vasakud ", vasakud, file=f2) print("paremad ", paremad, file=f2) print("ryhmitatud ", ryhmitatuid, file=f2) print("puuduvaid ", sum(puuduvad.values()), file=f2) print("kogupuuduvaid ", sum(kogupuuduvad.values()), file=f2) print("vasakuid ", sum(vasakud.values()), file=f2) print("paremaid ", sum(paremad.values()), file=f2) print("rühmitatuid ", sum(ryhmitatuid.values()), file=f2) print("sõnu kokku ", sonukokku, file=f2) f2.close()