V ApiTree se zaměřujeme na vývoj aplikací na míru, konzultace a rádi sdílíme své zkušenosti. 🤝 Naší silnou stránkou je samostatnost, smysl pro detail, a hluboké technické know-how. Máme roky praxe s robustními systémy v bankovnictví, pojišťovnictví, energetice, telekomunikacích, ale i v dalších odvětví.
Pro revoluční startup se sídlem v New Yorku a Tel Avivu hledáme Site Reliability Engineera, který bude pomáhat při vývoji průkopnické interní platformy pro správu talentů, která změnila HR tech průmysl a nyní pomáhá některým z největších a nejvíce inovativních společností na světě stát se připravenými na budoucnost.
Klíčové odpovědnosti:
Řízení incidentů:
- Vedení řízení incidentů od jejich zjištění až po vyřešení, zajištění včasné komunikace a minimalizace dopadu na zákazníky.
- Koordinace spolupráce s pohotovostními týmy (DevOps a R&D) při řešení kritických problémů a poskytování rychlých řešení.
- Působení jako manažer incidentů během velkých událostí, poskytování aktualizací a zajištění dodržování zavedených protokolů pro řízení incidentů.
Root Cause Analýza
- Provádění analýzy (RCA) po incidentech a vytváření zpráv s doporučeními pro zlepšení.
Monitoring a upozorňování:
- Zlepšování a údržba systémů pro monitoring a upozorňování v reálném čase, aby bylo možné včas odhalit problémy na platformách.
- Spolupráce s vývojovými a DevOps týmy na zlepšení viditelnosti systémů a zvýšení přehlednosti.
Automatizace:
- Identifikace opakujících se úkolů v procesu řízení incidentů a jejich automatizace pro snížení manuálního zásahu a zkrácení doby odezvy.
- Implementace nástrojů a procesů pro zlepšení odolnosti systému a snížení četnosti incidentů.
Kvalifikace:
- Prokazatelné zkušenosti v oblasti Site Reliability Engineering nebo podobné roli se zaměřením na řízení incidentů.
- Silné porozumění protokolům pro reakci na incidenty, analýze kořenových příčin a procesům po incidentu.
- Zkušenosti s nástroji pro monitorování a upozorňování, jako jsou Prometheus, Grafana, Coralogix nebo jejich ekvivalenty.
- Znalost správy cloudů (výhodou je AWS) a hluboké porozumění praktikám škálování a spolehlivosti.
- Znalost CI/CD pipeline a nástrojů pro automatizaci (např. Jenkins, Terraform, Github Actions).
- Silné komunikační dovednosti, schopnost jasně formulovat technické problémy jak technickým, tak netechnickým zainteresovaným stranám.
- Zkušenosti s prací v pohotovostním režimu a vedením zásahů při incidentech.
- Výborná angličtina, schopnost plynulé komunikace s kolegy v zahraničí.
Zaujalo tě to? Neváhej nás kontaktovat!👋
Kateřina, ApiTree