import pandas as pd
sonaliigid=pd.read_csv("http://www.tlu.ee/~jaagup/andmed/keel/sonaliikide_lyhendid.txt");
sonad=pd.read_csv("http://www.tlu.ee/~jaagup/andmed/keel/lambipirn_sonad_lemmad_sonaliigid.txt")
dfkogused=pd.DataFrame(sonad.groupby("postags").postags.count())
dfkogused["liik"]=dfkogused.index
koos=sonaliigid.merge(dfkogused, left_on="liigilyhend", right_on="liik", how="left").fillna(0)
koos["postags"]=100*koos["postags"]/len(sonad.index) #iga liigi esinemise protsent
print(koos[["liigikirjeldus", "postags"]])


#Arvutage sõnaliikide protsendid ka Kungla rahva laulus
#http://www.tlu.ee/~jaagup/andmed/keel/kunglarahvas_sonad_lemmad_sonaliigid.txt