Tulemuse saamiseks tarvilik kursuses Digihumanitaaria tehnoloogiad sügissemestril 2017 * TLÜ üksuste töötajate andmete võrdlus 15.09 * Tekstide otsimine ja asendamine regulaaravaldistega 22.09 * Tekstifaili uuring ja kokkuvõtte loomine käsureal 29.09 * Pythoni abil lause uuring 06.10 * Pythoni abil faili uuring 13.10 * DataFrame abil faili uuring 20.10 * Seotud andmete uuring 03.11 * Tutvus SQL-andmebaasiga 10.11 * Filmibaasist seotud päringud koos arvutustega 17.11 * Päring SQL-andmebaasist koos töötlusega pythonis 24.11 * Alampäringud, tulemus uues tabelis 01.12 * Git 08.12 Selgitusi * TLÜ üksuste töötajate andmete võrdlus Eraldage kahe TLÜ üksuse kohta veebilehelt isikute nimed Püüdke nimeloendi järgi kindlaks teha, kui palju on kummaski üksuses mehi, kui palju naisi. Pange oma tegevus punktidena kirja Koostage üksuse andmete võrdlemiseks paar erinevusi näitavat lauset * Tekstide otsimine ja asendamine regulaaravaldistega Tutvu tunni näidetega ning katseta mitmesuguste regulaaravaldistega lihtsamast keerulisema poole. Märgi punktidega üles, kuidas tulemuseni jõudsid ning mida miski tähendab. * Tekstifaili uuring ja kokkuvõtte loomine käsureal Tutvu tunni näidetega. Koosta fail kümnekonna linnanimega ning katseta käsklusi. Koosta või otsi CSV-fail (nt. http://www.tlu.ee/~jaagup/andmed/ilm/harkutund.txt) Järjesta ja filtreeri andmeid Loo väike skript andmetest kokkuvõtte tegemiseks. Muuda algandmeid ning kontrolli, et skript töötab ka nende põhjal õigesti * Pythoni abil lause uuring + Kuva autonumber + Kuva autonumbri tähtede osa + Koosta rida semikoolonitega eraldatud autonumbritest Kuva, mitu autonumbrit on real Kuva esimene autonumber Kuva viimane autonumber + Koosta lause, kus sees on autonumbrid Korja need sealt re.findall'i abil massiivi + Kuva massiivist välja vaid autonumbrite numbrite osad + Kuva massiivist komaga eraldatud loetellu autonumbrite tähtede osad Loe uude massiivi tähtede osad tähestikulises järjekorras Kuva tagurpidi järjestatult + Katseta omaloodud lausest regulaaravaldise järgi andmete leidmist ja nende abil arvutamist. * Pythoni abil faili uuring Koosta tekstifail tuttavate andmetega (nt. eesnimi, pikkus, synniaasta, sugu) Leia programmi abil failist mitmesuguseid väärtusi nt * inimeste arv * pikkuste summa * sugude kaupa pikkuste summa * DataFrame abil faili uuring Otsi või koosta uuritav csv-andmestik Näiteid ka http://www.tlu.ee/~jaagup/andmed Loe andmed sisse Kuva lõike andmetest Järjesta, filtreeri Arvuta uus tulp olemasolevate andmete põhjal Püüa leida andmetest tulemus, mis kohe välja ei paista * Seotud andmete uuring Loe sisse andmed kahest allikast, nii et neil on üks ühine ja korduv tunnus Kirjuta tulemus tekstifaili Loenda korduvusi, paiguta need tagasi tavalisse DataFrame Võrdle andmestikke või ühe andmestiku alamosi omavahel * Tutvus SQL-andmebaasiga Vaata/katseta tunnis tehtud näiteid Loo omale veel üks uus tabel, lisa mõned andmed Järjesta ja filtreeri tulemusi, loenda koguseid eraldi ja rühmade kaupa Tutvu filmide andmebaasiga Tee arusaadav ülevaade ühest tabelist leitud andmete põhjal Tee arusaadav ülevaade mitmest tabelist leitud andmete põhjal http://minitorn.tlu.ee/~jaagup/kool/java/kursused/17/dt/naited/tund8/filmibaasiskeem.png * Filmibaasist seotud päringud koos arvutustega Tutvu ühe tabeliga, kuva ja filtreeri sealseid andmeid Lisa teine tabel juurde, püüa näidata arusaadavaid tulemusi Püüa leida vastus veidi keerukamale küsimusele - nt. filmipikkuste summa filmitootja kaupa * Päring SQL-andmebaasist koos töötlusega Pythonis Lihtne päring koos väljundi kuvamisega Arvutus ja/või andmete puhastamine Pythoni abil * Alampäringud, tulemus uues tabelis Kasuta päringu tulemust uue päringu sisendiks Salvesta päringu tulemus uude tabelisse. Hoolitse, et oleks vähemasti üks korduv tunnus (nt. aasta) Leia gruppide kaupa summa, kogus, suurim Salvesta väärtus muutujasse, kuva see ning kasuta päringus Kasuta alampäringut väärtuse asendajana Proovi tööle panna rekursiivne alampäring (iga aasta kohta keskmisest suuremad) * Git https://campus.datacamp.com/courses/introduction-to-git-for-data-science Tehke kogu kursus veebis läbi Seletamisel klassi ees- peatükid 1, 2 - uksepoolne rida peatükid 3, 4 - keskmine rida peatükk 5 - seinapoolne rida