Lead Site Reliability Engineer
vor 2 Wochen
Our Platform Engineering Team in Düsseldorf is looking for YOU
Unser Platform Engineering Team in Düsseldorf sucht Dich
Deine Aufgaben- Verantwortung für Zuverlässigkeit: Definiere und steuere SLOs/SLIs, Fehlerbudgets und "Golden Signals" für latenzkritische Algo-Trading-Dienste. Leite Incident-Response-Prozesse und Nachanalysen in einer "blameless" (nicht schuldzuweisenden) Kultur
- Produktionsarchitektur: Entwirf und entwickle geo-redundante Architekturen mit Active-Active- bzw. Active-Passive-Topologien über Regionen und Verfügbarkeitszonen hinweg – einschließlich Failover, Datenreplikation und Notfallwiederherstellung (RTO/RPO)
- Kubernetes in großem Maßstab: Entwirf, sichere und betreibe AKS-basierte Multi-Cluster-Umgebungen (Multi-Tenant, Multi-Region) – einschließlich Netzwerk, Sicherheit, Autoscaling, Node-Pools und Upgrade-Strategien
- Infrastructure as Code: Verantworte Terraform-Blueprints und Ansible-Automatisierungen – von Basis-Images bis zu Cluster-Add-ons – und sorge für idempotente, richtliniengesicherte und nachvollziehbare Änderungen
- Automatisierung & Effizienz: Baue Progressive-Delivery-Pipelines (Blue/Green, Canary) mit kontrollierten Rollouts und automatischen Rollbacks für Trading-Microservices, Adapter, Marktdaten- und Ausführungs-Gateways auf
- Observability & Performance: Implementiere End-to-End-Tracing (OpenTelemetry), Metriken, Logs und synthetische Probes. Führe Kapazitätsplanung, Performance-Tests und Optimierungen von p99/p999-Latenzen durch
- Runtime-Sicherheit: Setze Laufzeitsicherheit, Secret-Management, Image-Hygiene und Compliance-Kontrollen durch – integriert nach dem "Shift-Left"-Prinzip in Build- und Deploy-Workflows
- Algo-Trading-Runtime: Betreibe und optimiere Deltix-basierte Komponenten (Timebase DB, Ember, Strategy Server) in containerisierten, hochverfügbaren Setups. Übernimm die Verantwortung für die zugehörigen Helm-Charts
- Zusammenarbeit & Führung: Betreue und führe SREs, DevOps- und Entwickler*innen, leite Design-Reviews und stimme dich mit den Bereichen Platform, Security und Trading über Prioritäten und Roadmaps ab
- Innovation: Fördere eine Kultur der Innovation, bleibe auf dem neuesten Stand der Technologie und integriere sinnvolle Neuerungen in den Handelsbereich
- Du hast einen Abschluss in Informatik, Mathematik, Ingenieurwesen oder einem verwandten Fachgebiet
- Du hast mehr als 10 Jahre Erfahrung in SRE-, Plattform- oder Infrastruktur-Rollen
- Du hast praktische Erfahrung im Betrieb komplexer, latenzkritischer Algo-Trading- oder marktbezogener Systeme in Produktionsumgebungen
- Du hast mindestens 3 Jahre Erfahrung als DevOps- oder SRE-Engineer mit einem klaren Fokus auf Observability
- Du hast mindestens 3 Jahre Erfahrung als Softwareentwickler*in
- Du bist Expert*in in Kubernetes (bevorzugt AKS), einschließlich Cluster-Lebenszyklus, Netzwerk (CNI, Ingress, eBPF), HPA/VPA, Node-Autoscaling, PodDisruptionBudgets und Upgrades ohne Downtime
- Du hast tiefgehende Erfahrung mit Azure, einschließlich VNet-Design, Private Link/Endpoints, Peering, Routing, Managed Identity/Entra ID, Key Vault, Storage, Azure Monitor/Log Analytics, Front Door/Traffic Manager, Load Balancers, App Gateway und API Management
- Du beherrschst Terraform auf Expertenniveau – mit modularen Designs, State Management, Workspaces, Policies (OPA/Sentinel) und Pipeline-Integration
- Du kennst dich mit Containern und Software-Lieferketten aus – inklusive Docker/OCI, Image-Scanning und -Signierung, SBOMs und reproduzierbaren Builds
- Du bist vertraut mit Observability-Tools wie Prometheus und Grafana, beherrschst das Design von Alerts, OpenTelemetry-Tracing sowie Log-Pipelines und Aufbewahrungsstrategien
- Du hast praktische Erfahrung mit dem Betrieb und Tuning von Deltix-Komponenten (z. B. TimeBase, QuantOffice, Ember) in containerisierten, hochverfügbaren Umgebungen
- Du besitzt fundierte Kenntnisse in Netzwerktechnologien (L4/L7, TLS/mTLS, DNS, BGP-Grundlagen), Linux-Interna und Performance-Tuning für latenzkritische Services
- Du hast nachweisliche Erfahrung mit geo-redundanten Architekturen sowie der Planung und Durchführung von Disaster-Recovery-Tests
- Du kennst dich mit Marktdatenverteilung (Multicast/Unicast), FIX/OUCH/ITCH-Protokollen und Exchange-Connectivity aus
- Du bist sicher im Umgang mit GitHub Actions (oder ähnlichen CI/CD-Tools) und mindestens einer Programmiersprache wie Python oder C# für Tools und Diagnosen
- Du verfügst über ausgezeichnete Kommunikationsfähigkeiten und kannst durch Fachkompetenz und Einfluss führen
- Du sprichst fließend Englisch; Deutschkenntnisse sind von Vorteil
-
Lead Backend Engineer
vor 1 Woche
Düsseldorf, Nordrhein-Westfalen, Deutschland Dyflexis Vollzeit 96.000 € - 120.000 € pro JahrThe road to 'infrastructure nirvana' is often paved with project post-mortems. But frankly, we got tired of that approach and adopted a more humane way. At Dyflexis, we work in six-week cycles of deep focus, followed by two weeks to refine, reflect, and prepare for what's next. No sprints that -surprise- turn into marathons. No backlog novels, no stand-up...
-
Lead Software Engineer
vor 1 Woche
Düsseldorf, Nordrhein-Westfalen, Deutschland LeasingMarkt Vollzeit 80.000 € - 120.000 € pro JahrAbout Us At , we bring customers and dealers together to make car leasing more accessible, transparent, and efficient. With over 1,000 partner dealerships and nearly 2 million users across the DACH region and the Netherlands, we've become Germany's #1 leasing platform. To keep growing and driving innovation in the mobility space, we're looking for a Lead...
-
Lead Software Engineer
Vor 2 Tagen
Düsseldorf, Nordrhein-Westfalen, Deutschland LeasingMarkt Vollzeit 80.000 € - 120.000 € pro JahrAbout UsAt, we bring customers and dealers together to make car leasing more accessible, transparent, and efficient. With over 1,000 partner dealerships and nearly2 million usersacross the DACH region and the Netherlands, we've becomeGermany's #1 leasing platform. To keep growing and driving innovation in the mobility space, we're looking for aLead Software...
-
Site Engineer
vor 1 Woche
Düsseldorf, Deutschland DIGITAL REALTY VollzeitYour RoleAs a Site Engineer (f/m/d), you will provide engineering support for monitoring, planned servicing and corrective maintenance on a range of critical data center infrastructure and associated equipment. You will manage routine plant inspections, act as a first-line response and ensure that all work is done in line with relevant regulations and our...
-
Site Engineer
vor 1 Woche
Düsseldorf, Nordrhein-Westfalen, Deutschland Digital Realty Global Vollzeit 40.000 € - 60.000 € pro JahrDescriptionYour RoleAs a Site Engineer (f/m/d), you will provide engineering support for monitoring, planned servicing and corrective maintenance on a range of critical data center infrastructure and associated equipment. You will manage routine plant inspections, act as a first-line response and ensure that all work is done in line with relevant...
-
Test Engineer
vor 3 Wochen
Düsseldorf, Deutschland Intellias VollzeitWe are looking for a skilled Driver and preferably a combination of skills of Driver and Middle Manual Test Engineer with a clear understanding of SDLC and testing theory. Seasoned in testing practice with good investigation skills to join our team in its work on IVI automotive project on-site. The client is willing to have the driver on-site (with QA...
-
Field Application Engineer, DACH
vor 2 Wochen
Düsseldorf, Deutschland Pylontech VollzeitCompany OverviewPylontech is a leading global provider of Battery Energy Storage Systems (BESS), renowned for its innovative solutions in the energy storage sector. Established in 2009 and headquartered in Shanghai, China, Pylontech has become a prominent player in the industry, delivering over 4.5 GWh of energy storage capacity across more than 80 countries...
-
Quality Engineer
Vor 7 Tagen
Düsseldorf, Nordrhein-Westfalen, Deutschland Mane Contract Services Vollzeit 60.000 € - 90.000 € pro JahrRole OverviewWe are seeking a highly motivatedQuality Engineerto support the delivery of mission-critical data centre projects. The successful candidate will ensure that all construction and installation works meet the required technical, regulatory, and client quality standards. This role plays a key part in driving a right-first-time culture across all...
-
Cloud Operations Engineer
vor 1 Tag
Düsseldorf, Deutschland NICE VollzeitAt NiCE, we don’t limit our challenges. We challenge our limits. Always. We’re ambitious. We’re game changers. And we play to win. We set the highest standards and execute beyond them. And if you’re like us, we can offer you the ultimate career opportunity that will light a fire within you.So, what’s the role all about?We’re seeking a Cloud...
-
Director of Reliability Services
vor 2 Wochen
Düsseldorf, Deutschland Signode VollzeitSignode, a global leader in packaging solutions, is seeking a dynamic **Director of Reliability Services - Europe** to lead its combined European service organization, encompassing strapping, wrapping, case sealing, and tool service technician teams. In this role, you will unify and optimize these teams to deliver cohesive, best-in-class service across the...