Inženiring zanesljivosti mesta - tečaj 65.000 rub. iz Slurma, usposabljanje, datum 1. januar 2024.
Miscellanea / / November 29, 2023
LJUDEM
Inženir SRE je lahko operativni inženir ali razvijalec. Med intenzivnim tečajem boste veliko vadili, pridobljena znanja in spretnosti pa lahko prilagodite in implementirate na katerem koli področju.
PODJETJE
SRE rešuje iste težave kot DevOps: poveča hitrost izdajanja novih funkcij in izboljša procese znotraj ekipe. Toda glavna naloga SRE je zagotoviti stabilnost in zanesljivost storitev, pri čemer so izključene situacije, ko se uporabniki pritožujejo zaradi napak, inženirji pa imajo zelene urnike.
Gradimo:
Naše spletno mesto za usposabljanje je sestavljeno iz več mikrostoritev. Združuje podatke o predstavah, cenah in prostih sedežih iz vseh kinematografov, prikazuje najave filmov, omogoča izbiro kina, predstave, dvorane in prostora, rezervacijo in plačilo vstopnic.
Za to stran bomo oblikovali SLO, SLI, SLA kazalnike, razvili arhitekturo in infrastrukturo, ki jih bo podpirala, vzpostavili monitoring in alarmiranje.
Napake razvijalcev, okvare infrastrukture, naval obiskovalcev in napadi DoS vodijo do poslabšanja SLO.
Analiziramo stabilnost, proračun napak, prakso testiranja, upravljanje prekinitev in operativno obremenitev.
Zgodila se je nesreča. Storitev za obdelavo plačil ne deluje. Kako ukrepati, da v najkrajšem možnem času obnovite funkcionalnost?
Organiziramo delo reševalne ekipe: vključevanje sodelavcev, obveščanje deležnikov, določanje prioritet. Usposabljamo se za delo pod pritiskom v izjemno omejenih časovnih razmerah.
Oglejmo si pristop k mestu z vidika SRE. Analiziramo incidente (vzroke nastanka, potek odprave). Odločamo se, da jih preprečimo naprej: izboljšamo nadzor, spremenimo arhitekturo, pristop k razvoju in delovanju ter regulativo. Avtomatiziramo procese.
— Imamo na desetine zgrajenih infrastruktur in na stotine pisnih cevovodov CI/CD,
— certificirani skrbnik Kubernetes,
— avtor več tečajev o Kubernetes in DevOps,
— Redni predavatelj na ruskih in mednarodnih IT konferencah.
1. DAN: Uvodna seja AMA
Razpravljali bomo o ciljih in ciljih tečaja ter vam povedali, kaj je SRE in ga razdelili v ekipe.
Otvoritev 2 teoretičnih tem:
Tema 1: Spremljanje
- Zakaj je potrebno spremljanje?
- Percentili
- Opozorilo
- Opazljivost
Tema 2: Teorija SRE
- SLO, SLI, SLA
- Vzdržljivost
- Napaka v proračunu
2. DAN: analiza praks in primerov
Praksa: Izdelava osnovne nadzorne plošče in nastavitev potrebnih opozoril
Praksa: Dodajanje SLO/SLI + opozoril na nadzorno ploščo
Praksa: Prvo nalaganje sistema
Rešitev 1. primera: odvisnost na nižji stopnji.
V velikem sistemu je veliko soodvisnih storitev, ki ne delujejo vedno enako dobro. Še posebej moteče je, ko je vaša služba v redu, sosednja, od katere ste odvisni, pa občasno pokvari.
Izobraževalni projekt se bo znašel v točno teh pogojih, vi pa boste poskrbeli, da bo še vedno produciral kakovost na najvišji možni ravni.
3. DAN: Seja AMA, odgovori na vprašanja
Odpre se dostop do 2. teoretičnega modula:
Reševanje problemov okolja in arhitekture
Drugi modul je zgrajen okoli reševanja dveh primerov: odvisnosti navzgor in arhitekturnih problemov. Govorci bodo govorili o obvladovanju incidentov, pravilih za gasilsko brigado in delu z obdukcijo ter ponudili predloge, ki jih lahko uporabite v svoji ekipi.
Tema 3: Upravljanje incidentov
- Inženiring odpornosti
- Kako nastane gasilska četa
- Kako učinkovita je vaša ekipa pri incidentu?
- 7 pravil za vodjo incidenta
- 5 pravil za gasilca
- HiPPO - mnenje najbolje plačane osebe. Vodja komunikacij
TTema 4: Orodja Varrum in upravljanje opozoril.
Najboljše prakse drugih podjetij pri organizaciji obvladovanja incidentov.
4. DAN: analiza praks in primerov
Rešitev za 2. primer: odvisnost navzgor.
Eno je, ko si odvisen od servisa z nizkim SLO. Druga stvar je, ko je vaša storitev enaka za druge dele sistema. To se zgodi, če merila ocenjevanja niso dosledna: na primer odgovorite na zahtevo v eni sekundi in jo smatrate za uspešno, vendar odvisna storitev čaka le 500 po moskovskem času in odide z napako.
V primeru bomo razpravljali o pomenu usklajevanja metrik in se naučili gledati na kakovost skozi oči naročnika.
Rešitev primera 3: težave z bazo podatkov.
Baza podatkov je lahko tudi vir težav. Če na primer ne spremljate releja replikacije, bo replika zastarela in aplikacija bo vrnila stare podatke. Poleg tega je odpravljanje napak v takšnih primerih še posebej težavno: zdaj so podatki nedosledni, po nekaj sekundah pa niso več dosledni in ni jasno, kaj je vzrok težave.
Skozi ohišje boste občutili vso bolečino odpravljanja napak in se naučili, kako preprečiti takšne težave.
Praksa: O prejšnjem primeru napišemo postmortem in se o njem pogovorimo z govorci.
5. DAN: Seja AMA, odgovori na vprašanja
Seja AMA in odgovori na vprašanja o prejšnjih temah.
Odpre se dostop do 3. teoretičnega modula:
Zaščita prometa in izpusti kanarčkov
V tretjem modulu bomo analizirali primer, ki je posvečen problemu okolja (podrobna bo analiza Zdravja Preverjanje), korak za korakom pa bomo tudi analizirali, kako implementirati SRE v podjetja in spoznali izkušnje podjetij, v katerih delajo govorci. intenzivno
Tema 5: Zdravstveni pregled
- Pregled zdravja v Kubernetesu
- Ali naša storitev še živi?
- Exec sonde
- InitialDelaySeconds
- Sekundarno zdravstveno pristanišče
- Sidecar Health Server
- Sonda brez glave
- Strojna sonda
Tema 6: Metode uvajanja
Tema 7: Uvajanje projekta SRE
Velika podjetja pogosto oblikujejo ločeno ekipo SRE, ki za podporo prevzame storitve drugih oddelkov. Vendar ni vsaka storitev pripravljena za sprejem v podporo. Povedali vam bomo, katere zahteve mora izpolnjevati. Govorci bodo delili tudi svoje izkušnje, kako so implementirali SRE in kakšne napake so delali.
6. DAN: analiza praks in primerov
Rešitev primera 4: problem okolja, ni mogoče kupiti vstopnic.
Naloga Healthchecka je zaznati pokvarjeno storitev in blokirati promet do nje. In če mislite, da je za to dovolj, da storitvi pošljete zahtevo z rootom in prejmete odgovor, potem vi motite se: tudi če se storitev odzove, to ne zagotavlja njenega delovanja - lahko pride do težav v okolici.
V tem primeru se boste naučili, kako konfigurirati pravilno Healthcheck in preprečiti, da bi promet šel tja, kjer ga ni mogoče obdelati.
Povzemanje