Veinid Aluseks andmestik http://archive.ics.uci.edu/ml/machine-learning-databases/wine/ * Koosta XY-diagramm alkoholi ja õunhappe sisalduse järgi, värvi andmed klassiti (1. tulp) eri värvi. * Hierarhilise klasteranalüüsi abil näita, millised tunnused käivad rohkem koos, millised vähem. Pööra andmestik ning näita, millised veinid on omavahel andmete järgi sarnasemad. * Ära kasuta klassi numbrit võrdlemisel. Vali tase, kus on hierarhilisel klasteranalüüsil jäänud kolm rühma. Pane igale veinile külge rühmatunnus. Koosta sagedustabel, millisest klassist veinidest mitu millisesse rühma sattus. Arvutid Aluseks andmestik http://archive.ics.uci.edu/ml/machine-learning-databases/cpu-performance/ * Leia suurim mälumaht tootja kaupa, kuva arvudena ja joonisena * Multidimensionaalse skaleerimise abil paiguta seadmed tasandile. Näita välja tootjate nimed. * Hierarhilise klasteranalüüsi abil näita, millised tunnused on omavahel rohkem seotud, millised vähem. Koosta samasugune võrdluspuu seadmete omavahelise sarnasuse kohta. Andmete näitamiseks liiga suure hulga puhul vali eri tunnuste järgi alamosi. Sõnad väljaannetes Aluseks andmestik http://archive.ics.uci.edu/ml/machine-learning-databases/bag-of-words/ * Koosta sagedustabel, näitamaks iga väljaande kohta, mitu millise pikkusega erinevat sõna on vastava väljaande loendis. * Kuva sõnapikkuste jaotus väljaannete kaupa joonisel kõrvutiste karpdiagrammidena. * Leia iga sõna kohta, mitmes väljaandes seda kasutatakse, järjesta arvu järgi. Koosta väljaannete kohta XY-joonis, kus ühel teljel on teistes väljaannetes mitte kasutatud sõnade arv väljaande juures ning teisel teljel levinumate esituhandes olevate kasutatud sõnade arv. Taimede paiknemine Aluseks andmestik http://archive.ics.uci.edu/ml/machine-learning-databases/plants/ * Järjesta taimed kasvupiirkondade arvu järgi. Kuva jaotus karpdiagrammina. * Järjesta kasvupiirkonnad taimeliikide arvu järgi. Koosta XML-fail, kus iga piirkonna kohta kirjas seal kasvavad taimed. * Valitud piirkonna kohta näidatakse histogrammina, kui mitmes piirkonnas iga valitud piirkonna liik veel kasvab. Nisuseemnete sort Aluseks andmestik http://archive.ics.uci.edu/ml/datasets/seeds * Kuva XY-joonisel iga seeme vastavalt pindalale ja ümbermõõdule, sort (viimane tulp) erista värvi järgi. * Tee andmestikule peakomponentide analüüs, näita, kui mitme tunnusega on võimalik 80% seemnete mõõdetavatest andmetest esitada. Kas ja millised tunnused omavahel grupeeruvad. * Eralda 2/3 andmetest treeningandmestikuna, kasuta ülejäänud 1/3 testandmestikuna. Lase testandmestiku seemnete sort hinnata knn lähinaabrite algoritmi abil. Mitme seemne sort mitmest arvatakse õigesti? Rämpssõnumid Aluseks andmestik http://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection * Kuva spam- ja ham-tekstide puhul, kui palju sümboleid on tähed ja kui palju mittetähed (2x2 tabel) * Kuva tekstide asukoht XY-joonisel. Ühel teljel on numbrite osakaal, teisel muude mittetähtede osakaal. Värvus vastavalt teksti liigile. * Koosta sõnasageduste loetelu kumbagi liiki tekstide puhul. Too välja sõnad, mis üht tüüpi tekstides on palju levinumad kui teistes