Tečaj "Podatkovni inženir" - tečaj 95.000 rub. iz delavnice Yandex, usposabljanje 6,5 mesecev, datum: 11. december 2023.
Miscellanea / / November 30, 2023
Za praktične razvijalce
Naučite se zgraditi infrastrukturo za delo s podatki in sistematizirajte svoje znanje, da ga boste lahko uporabili v trenutni vlogi ali pa se usmerite v podatkovnega inženirja.
Za ambiciozne podatkovne inženirje
Strukturiranje znanja: poleg jasne teorije bo veliko prakse. Pridobili boste izkušnje pri delu na projektih – to vam bo pomagalo zgraditi portfelj, izstopati od drugih kandidatov in se ne boste izgubili v resničnem delu.
Strokovnjaki in analitiki podatkovne znanosti
Obvladajte veščine, ki vam bodo pomagale pri učinkovitejšem obvladovanju nalog: zgradite podatkovne kanale, oblikujte izložbe, zgradite ETL in zbirajte neobdelane podatke v velikih količinah.
Posodabljanje podatkovnega modela
1 modul 2 tedna
Podjetje vas še naprej poglablja v svoje procese. Podatki, s katerimi ste delali, so bili posodobljeni, zato morate spremeniti podatkovni model.
V tem tečaju boste:
- razumeti, kako podjetje gradi bazo podatkov;
- posodobiti strukturo obstoječe baze podatkov v skladu z novimi zahtevami poslovanja;
- pripraviti nove predstavitve in metrike za analitike in menedžerje.
Tehnologije in orodja:
- PostgreSQL
+1 projekt v portfelju
Zgradite podatkovno trgovino s postopnim nalaganjem za analizo občinstva spletne trgovine.
DWH: revizija podatkovnega modela
Modul 2 3 tedne
Podjetje raste, podatkovna arhitektura postaja kompleksnejša. Dobite nalogo - optimizirati procese s podatki.
V tem tečaju boste:
- razmislite o procesu prehoda s stare sheme podatkovne baze na novo ob zmanjšanju poslovnih izgub (razporeditev brez izpadov);
- pripraviti migracijo podatkov;
- upoštevajte morebitne težave in oblikujte možnost za povrnitev sprememb;
- implementirati novo strukturo baze podatkov in jo prilagoditi obstoječim procesom okoli podatkov.
Tehnologije in orodja:
- PosgreSQL
- Python
+1 projekt v portfelju
Podatkovni model boste uredili in podatke preselili znotraj trenutnega pomnilnika spletne trgovine.
ETL: avtomatizacija priprave podatkov
Modul 3 3 tedne
Zdaj veste skoraj vse o podatkovnem skladišču podjetja. Čas je, da ponovno razmislimo o procesih ETL.
V tem tečaju boste:
- avtomatizirati podatkovni cevovod;
- konfigurirajte samodejno nalaganje podatkov iz virov;
- naučijo se redno in postopoma nalagati podatke v podatkovno bazo.
Tehnologije in orodja:
- Python
- Zračni tok
- PostgreSQL
+1 projekt v portfelju
Zgradite cevovod za avtomatizirano prejemanje, obdelavo in nalaganje podatkov iz virov v trgovino za projekt e-trgovine.
Preverjanje kakovosti podatkov
Modul 4 1 teden
Želite biti prepričani, da vaši prvi cevovodi delujejo dobro. Preverjati je treba kakovost podatkov in pravočasno slediti okvaram.
V tem tečaju boste:
- razumejo uporabo metainformacij in dokumentacije;
- oceniti kakovost podatkov.
DWH za več virov
Modul 5 2 tedna
Nadaljujete z raziskovanjem DWH, ker razvoja podjetja in s tem povečevanja količine podatkov ni mogoče ustaviti.
V tem tečaju boste:
- zgraditi DWH iz nič na relacijski DBMS;
- seznaniti se z MongoDB kot virom podatkov.
Tehnologije in orodja:
- PostgreSQL
- MongoDB
+1 projekt v portfelju
Zasnovali in implementirali boste DWH za interni startup.
Analitične baze podatkov
Modul 6 2 tedna
Vse več je specifičnih nestrukturiranih podatkov, ki jih je treba tudi shranjevati in obdelovati. Zato vam bomo predstavili koncept analitičnih baz podatkov na primeru DBMS Vertica.
V tem tečaju boste:
- organizacija skladiščenja študij v Vertici;
- naučite se izvajati osnovne operacije s podatki v Vertici;
- zgraditi enostavno podatkovno skladišče v Vertici.
Tehnologije in orodja:
- Vertica
- PostgreSQL
- Zračni tok
- S3
+1 projekt v portfelju
Z Vertico zgradite DWH za visoko obremenjen nizko strukturiran podatkovni sistem sporočil.
Organizacija Data Lake
Modul 7 4 tedne
Klasične rešitve ne pomagajo pri obvladovanju količine podatkov. Za spopadanje z novimi poslovnimi izzivi boste zgradili in napolnili podatkovno jezero.
V tem tečaju boste:
- razmislite o arhitekturi Data Lake (trans. "podatkovno jezero");
- naučijo se obdelovati podatke v sistemu MPP;
- napolnimo podatkovno jezero s podatki iz virov;
- vadijo obdelavo podatkov z uporabo PySpark in Airflow.
Tehnologije in orodja:
- Hadoop
- MapReduce
- HDFS
- Apache Spark (PySpark)
+1 projekt v portfelju
Zgradite podatkovno jezero in avtomatizirajte nalaganje in obdelavo podatkov v njem.
Pretočna obdelava
Modul 8 3 tedne
Težave z veliko količino podatkov ste premagali, a pojavila se je nova naloga - podjetju morate pomagati pri hitrejšem sprejemanju odločitev. Tukaj boste potrebovali znanje o obdelavi tokovnih podatkov. pretakanje).
V tem tečaju boste:
- upoštevati značilnosti obdelave tokovnih podatkov;
- zgradite svoj lasten pretočni sistem;
- zgraditi trgovino z uporabo podatkov v realnem času.
Tehnologije in orodja:
- Kafka
- Spark Streaming
+1 projekt v portfelju
Razvili boste sistem za obdelavo podatkov v realnem času.
Oblačne tehnologije
Modul 9 3 tedne
Zdaj lahko delate tako z velikimi količinami podatkov kot s tokovi. Ostaja le še avtomatizacija skaliranja sistemov z uporabo storitev v oblaku.
V tem tečaju se boste naučili implementirati že preučene rešitve, vendar v oblaku (na primeru Yandex Cloud).
Tehnologije in orodja:
- Yandex. Oblak
- Kubernetes
- kubectl
- Redis
- PostgreSQL
+1 projekt v portfelju
Razvili boste infrastrukturo za shranjevanje in obdelavo podatkov v oblaku.
Diplomski projekt
Modul 10 3 tedne
Potrdite, da ste se naučili novih veščin.
Tukaj boste morali samostojno izbrati in implementirati rešitve za poslovni problem. To vam bo pomagalo ponovno okrepiti uporabo orodij, ki ste se jih naučili, in svojo neodvisnost.