Senior Site Reliability Engineer (m/w/d)

External

Flipapp · Berlin, Germany

Full-timeRemote3w ago

ArgoCDAzureCI/CDGrafanaIstioKubernetes

Cover Letter Connect

Prepare for this interview

Elite

AI-generated questions, company research, and talking points tailored to this role

Benefits

Remote work options

Additional Information

Empower every employee. Our mission is to be the world's most used AI employee experience platform by changing the way frontline employees work. Flip ist die führende KI-gestützte Employee Experience Platform für Frontline Worker. Wir revolutionieren, wie die Menschen arbeiten, die die Welt am Laufen halten - in Retail, Manufacturing und Logistics. Eine App. Ein Touch. Alles, was sie brauchen. Unsere Mission: Connect every employee to everything they need in one touch. Stellenbeschreibung Als Senior Site Reliability Engineer in unserem Platform Squad übernimmst du die End-to-End-Verantwortung für kritische Reliability-Bereiche und treibst die technische Ausrichtung innerhalb des Squads voran. Du leitest Architektur-Entscheidungen auf unserer Plattform, mentorst Teammitglieder und legst die Messlatte für Zuverlässigkeit innerhalb des Teams kontinuierlich höher. Diese Rolle ist für Engineers mit einer nachgewiesenen Erfolgsbilanz beim Aufbau und Betrieb von hochverfügbaren High-Throughput-Systemen gedacht, die technische Ownership auf Senior-Level und echten Impact durch tiefgehende Engineering-Arbeit in einem eng vernetzten, klar definierten Team suchen. Was dich bei uns erwartet Co-Owner der Architektur: Hilf dabei, die Architektur und Weiterentwicklung unserer Cloud-Infrastruktur auf Azure und unserer Kubernetes-Cluster voranzutreiben - konzipiert für hohen Durchsatz und höchste Verfügbarkeit - um Flips schnelles globales Wachstum zu unterstützen. Die Resilience-Strategie vorantreiben: Definiere unseren Ansatz für globales Skalieren, Zero-Downtime-Deployments, Rollback-Mechanismen sowie Disaster Recovery und stelle sicher, dass die Plattform rund um die Uhr verfügbar bleibt. Unseren Observability-Stack weiterentwickeln: Optimiere unseren LGTM-Stack (Loki, Grafana, Tempo, Mimir) zu einem Fundament, dem unsere Engineers vertrauen können. Unsere IaC-Plattform verbessern: Du eliminierst Routineaufwand an der Quelle und machst unsere Infrastruktur für die Engineering-Teams zu einem echten Self-Service. Führung bei Incidents: Du übernimmst eine führende Rolle bei größeren Plattform-Störungen, leitest sachliche Fehleranalysen (Blameless Post-Mortems) und wandelst Erkenntnisse in dauerhafte Verbesserungen um. Mentoring innerhalb des Squads: Coache Teammitglieder, leite RFCs und Design-Reviews im Team und hilf Engineers dabei, sich zu stärkeren SREs zu entwickeln. Unsere Roadmap gestalten: Arbeite partnerschaftlich mit deinem Squad zusammen, um die Richtung der Plattform zu definieren. Was du mitbringst Wir suchen einen Hands-on, SaaS-orientierten Senior Site Reliability Engineer, der Skalierbarkeit und Zuverlässigkeit als erstklassiges Produktmerkmal behandelt. Must-Have Qualifikationen 5+ Jahre Hands-on-Erfahrung als Site Reliability Engineer (SRE), Platform Engineer, DevOps Engineer, Infrastructure Engineer, Cloud Engineer oder Backend Engineer mit starkem Infrastruktur-Fokus. Nachgewiesene Erfolgsbilanz beim Aufbau und Betrieb von hochverfügbaren High-Throughput-Systemen in der Produktion. Tiefe Erfahrung auf Produktionsniveau mit Kubernetes auf einem der gängigen Hyperscaler. Fundierte Erfahrung mit modernen Observability-Stacks (z. B. Prometheus, Mimir, VictoriaMetrics, Dash0, Loki, ELK) und eine klare Sichtweise auf SLIs, SLOs und Error Budgets. Solide Software-Development-Skills in Go (stark bevorzugt, da unser IaC auf Pulumi in Go läuft) oder Python. Hands-on-Erfahrung mit Infrastructure as Code (Pulumi, OpenTofu, Terraform) und GitOps (z. B. ArgoCD) + CI/CD Pipeline-Design. Nachgewiesene Fähigkeit, komplexe Infrastruktur-Initiativen vom Design bis zur Produktion zu leiten - einschließlich des Schreibens von RFCs und des Vorantreibens von Architektur-Entscheidungen in deinem Team. Erfahrung im Mentoring von Engineers und darin, das technische Niveau innerhalb eines Teams anzuheben. Souveräne End-to-End-Verantwortung bei kritischen Störungen und die Fähigkeit, daraus gewonnene Erkenntnisse in nachhaltige technische Verbesserungen zu überführen. Starke Kommunikationsfähigkeiten und verhandlungssicheres Englisch. Bereitschaft zur Teilnahme an Rufbereitschaften (On-Call), um die Zuverlässigkeit unserer Plattform zu gewährleisten. Nice-to-Have Qualifikationen Rollout von produktionsreifen API-Gateways mit Gateway API (z. B. Envoy Gateway). Betrieb von Multi-Cluster Service Meshes (z. B. Cilium, Linkerd, Istio). Deployment und Wartung von Kubernetes Operatoren (z. B. Strimzi, CNPG). Betrieb von hochverfügbarem PostgreSQL in der Produktion. Das bieten wir dir Work-Mode: Wir sind remote-first und geben dir damit die Flexibilität, von zu Hause aus zu arbeiten. Gleichzeitig schätzen wir den Mehrwert der persönlichen Zusammenarbeit sehr. Je nach Rolle nimmst du gelegentlich an Team-Events, Workshops oder Meetings in unseren Büros in Berlin oder Stuttgart teil - selbstverständlich immer mit ausreichend Vorlauf. Das genaue Verhältnis besprechen wir transparent während deines Bewerbungs

Your Match

How well this role fits your profile.

Company Intel

What employees say

Worked at flipapp? Share your experience

Interested in this role?

Apply on the company's website.

Cover Letter Connect