import json import stanza protsendipiir=10 sisendtekstifail="/home/juku/oma/23/06/m2-corpus-main/test/margendusega/A2.txt" with open("/home/juku/oma/23/03/kolmikud/v2/osakaalud_koik_ees.txt") as f1: osakaalud_ees=json.load(f1) with open("/home/juku/oma/23/03/kolmikud/v2/osakaalud_koik_taga.txt") as f1: osakaalud_taga=json.load(f1) sisend=open(sisendtekstifail, encoding="utf-8").readlines() sisend=[rida.strip() for rida in sisend] nlp=stanza.Pipeline(lang="et", processors="tokenize,pos") parandused=[] for rida in sisend[:30]: if rida.startswith("S "): print(rida) kolmikud=[] parandused=[] dok=nlp(rida[2:]) jada="".join([sona.xpos for sona in dok.sentences[0].words])+"$" koht=0 print(jada) while koht=0 and jada[abi]=='Z': abi-=1 if abi>=0: ees=jada[abi] alguskoht=abi else: ees="^" alguskoht=0 kommentaar="-" eesprotsent=0 if kolmik in osakaalud_ees: if ees in osakaalud_ees[kolmik]: eesprotsent=osakaalud_ees[kolmik][ees][1] else: kommentaar+=" puuduv eeskontekst" else: kommentaar+=" puuduv eeskonteksti kolmik" kolmikud.append([alguskoht, kolmikuots, eesprotsent