Site Reliability Engineer

vor 18 Stunden


Berlin, Berlin, Deutschland IONOS SE Vollzeit

Bei IONOS arbeitest Du bei dem führenden europäischen Anbieter von Cloud-Infrastruktur, Cloud-Services und Hosting-Dienstleistungen partnerschaftlich mit unterschiedlichen Teams zusammen. Wir bieten Dir eine Perspektive in einer der zukunftssichersten Branchen. Uns zeichnen offene Arbeitsstrukturen, Duz-Kultur und flache Hierarchien mit unvergleichlichem Team-Spirit aus. Wir sind fest davon überzeugt, dass Job und Spaß vereinbar sind und bieten Dir hierfür das entsprechende Umfeld. Bei ständigem Wachstum sind wir stets auf der Suche nach neuen Kolleginnen und Kollegen. Werde Teil von IONOS und lass uns gemeinsam wachsen.

Wir suchen einen hochqualifizierten und erfahrenen Site Reliability Engineer, der unser Team im 24/7‑Shift unterstützt. Die SRE‑Abteilung L2 betreibt sämtliche IONOS‑Cloud‑IaaS‑ und PaaS‑Dienste. Als Site Reliability Engineer bist Du für die Stabilität, Sicherheit und Performance unserer komplexen, verteilten Systeme verantwortlich. Du arbeitest eng mit den Entwicklungsteams zusammen, um skalierbare und zuverlässige Infrastrukturen zu entwerfen, zu implementieren und zu betreiben sowie Prozesse zu automatisieren und zu optimieren.

Aufgabenbereich
  • Technischer Level‑2‑Support mit direktem Kundenkontakt.
  • Pflege von Monitoring‑, Logging‑ und Alerting‑Lösungen (z. B. Prometheus, Grafana, Loki) zur proaktiven Erkennung von Problemen im Schichtbetrieb und Mitwirkung bei der Lösung komplexer Issues in verteilten Systemen.
  • Fehlersuche in Netzwerken (LAN/WAN/VPN, DNS, DHCP) und Speichersystemen (File/Object/Block); Bereitstellung und Betrieb hochverfügbarer Services auf Linux und Kubernetes (Helm‑Charts).
  • Aufbau und Pflege von Infrastructure‑as‑Code, Automatisierung und Playbooks mit Ansible, Terraform, GitLab CI/CD, Argo CD sowie Skriptsprachen wie Bash, Python und Go.
  • Zusammenarbeit mit Entwicklungsteams zur Verbesserung von Prozessen und Deployments sowie zur reibungslosen Integration neuer Services und Applikationen in unsere Cloud‑ und Kubernetes‑Umgebung.
  • Gewährleistung eines stabilen und sicheren Plattformbetriebs, inklusive End‑to‑End‑Incident‑Management von der ersten Analyse über die Lösung bis hin zur Nachbearbeitung im Rahmen des Problem‑Managements.
Qualifikationen
  • Bereitschaft, in einem 24 × 7‑Schichtmodell zu arbeiten (Nacht‑, Wochenend‑ und Feiertagsdienste) und dabei ein starkes Problem‑Lösungs‑ und Troubleshooting‑Mindset mitzubringen.
  • Mehrjährige Erfahrung als Site Reliability Engineer oder in einer verwandten Rolle (Linux‑Systemadministrator, Platform Engineer, DevOps/Infrastructure Engineer, Full‑Stack‑Developer).
  • Fundierte Kenntnisse in Automatisierungstools (z. B. Ansible, SaltStack), Monitoring‑ und Observability‑Tools (Prometheus, Grafana, Loki) sowie Logging‑ und Alerting‑Lösungen (ELK‑Stack).
  • Erfahrung mit virtualisierten Umgebungen (QEMU/KVM, OpenStack, Proxmox), Cloud‑Storage‑Technologien (File, Object, Block) und sicherer Umgang mit Docker & Kubernetes.
  • Sehr gute Kenntnisse in mindestens einer Programmiersprache oder Skriptsprache (Go, Python, Bash) für Automatisierungs‑ und Monitoring‑Aufgaben.
  • Erfahrung im Code‑Management (Merge‑Conflicts, Feature‑Branches, Merge‑Requests, CI/CD) ist von Vorteil.

Nice‑to‑have:

  • Erfahrung mit RDMA, InfiniBand und RoCE‑Protokollen.
  • Tiefe Kenntnisse in Linux MD RAID (mdadm, sedadm) und LVM.
  • Expertise in Linux‑Performance‑Tuning und Netzwerk‑Stack‑Debugging (ethtool, perf, tcpdump, ibstat, ibtop).
  • Praxis mit S3, Ceph und software‑definierten Netzwerken.
  • Erfahrung mit etablierten Software‑Entwicklungspraktiken (Code‑Reviews, Build‑Prozesse, Packaging, Testing).

Sprachkenntnisse: Fließend in Deutsch und Englisch (mindestens B2 nach dem CEFR‑Standard).

Standort: Berlin

Hinweis: Zum Ende des Bewerbungsprozesses müssen Kandidaten einer Sicherheitsüberprüfung unterzogen werden. Dein Einverständnis dafür wird rechtzeitig im Prozess erfragt.

Benefits
  • Hybrides Arbeitsmodell.
  • Schichtmodell Arbeitszeiten.
  • An einigen Standorten eine bezuschusste Kantine und verschiedene kostenfreie Getränke.
  • Moderne Büroflächen mit sehr guter Verkehrsanbindung.
  • Diverse Mitarbeiterrabatte für Aktivitäten und Produkte.
  • Mitarbeiterevents wie Sommer- und Winterfeiern, sowie Workshops.
  • Zahlreiche Weiterbildungs- und Entwicklungsmöglichkeiten.
  • Verschiedene Gesundheitsangebote, wie Sport- und Gesundheitskurse.
Über IONOS

IONOS ist der führende europäische Digitalisierungs-Partner für kleine und mittlere Unternehmen (KMU). IONOS hat mehr als sechs Millionen Kundinnen und Kunden und ist mit einer weltweit verfügbaren Plattform in 18 Märkten in Europa und Nordamerika aktiv. Mit seinen Web Presence & Productivity-Angeboten agiert das Unternehmen als "One-Stop-Shop" für alle Digitalisierungs-Bedürfnisse - von Domains und Webhosting über klassische Website-Builder und Do-It-Yourself-Lösungen, von E-Commerce bis zu Online-Marketing-Tools. Darüber hinaus bietet IONOS Cloud-Lösungen für Firmen, die im Zuge der Weiterentwicklung ihres Geschäfts in die Cloud wechseln möchten.

Wir wertschätzen Vielfalt und begrüßen alle Bewerbungen – unabhängig von z. B. Geschlecht, Nationalität, ethnischer und sozialer Herkunft, Religion, Behinderung, Alter sowie sexueller Orientierung und Identität, körperlichen Merkmalen, Familienstand oder einem anderen sachfremden Kriterium nach geltendem Recht.


  • Site Reliability Engineer

    vor 23 Stunden


    Berlin, Berlin, Deutschland Glow Beauty On Demand Vollzeit

    About the opportunity We are seeking a Site Reliability Engineer to join the Observability group inside our Platform Engineering domain. Platform Engineering's goal is to provide easy to use, self-service platforms to enable other segments to easily build, deploy and monitor their business applications. And Observability's role in that part of the company...


  • Berlin, Berlin, Deutschland Hirefive Vollzeit 60.000 € - 120.000 € pro Jahr

     Site Reliability Engineer Our growing user base demands cheap, fast and highly available web hosting and we need youto make it possible Join us as a full-time Site Reliability Engineer. This position will offer you personal andprofessional development, startup insights, and the opportunity to be part of one of the mostinspiring deep-tech startups. You...


  • Berlin, Berlin, Deutschland Glow Beauty On Demand Vollzeit

    About the opportunity We are seeking a Senior Site Reliability Engineer to join the Platform Engineering Domain in the AI Platform Team. The mission of Platform Engineering is to provide trusted, performant, self-service platforms that empower product teams to build 'the bank the world loves to use.' The AI Platform team contributes to this mission by...


  • Berlin, Berlin, Deutschland KOMBO Vollzeit 100.000 € - 150.000 € pro Jahr

    Senior Site Reliability Engineer (Database) @KomboBerlin (On-site) · Full-timeTL;DRJoin Kombo as one of our first Database Reliability Engineer. You'll take ownership of our Postgres infrastructure, ensuring performance, scalability, and reliability as we grow.High impact, high autonomy, and the chance to shape Kombo's database reliability practices from...

  • Site Reliability Engineer

    vor 20 Stunden


    Berlin, Berlin, Deutschland IONOS Vollzeit

    Bei IONOS arbeitest Du bei dem führenden europäischen Anbieter von Cloud-Infrastruktur, Cloud-Services und Hosting-Dienstleistungen partnerschaftlich mit unterschiedlichen Teams zusammen. Wir bieten Dir eine Perspektive in einer der zukunftssichersten Branchen. Uns zeichnen offene Arbeitsstrukturen, Duz-Kultur und flache Hierarchien mit unvergleichlichem...


  • Berlin, Berlin, Deutschland Blackfluo Vollzeit 84.000 € - 85.000 € pro Jahr

    Job DescriptionLocation: Full remote, EU timezone (CET +/- 2 hours)Start Date: As soon as possibleLanguages: English requiredWe are looking for a skilled Site Reliability Engineer (SRE) with deep expertise in AWS to help us scale and secure our infrastructure. As an SRE, you will be instrumental in ensuring the reliability, performance, and scalability of...


  • Berlin, Berlin, Deutschland Wire Vollzeit 70.000 € - 95.000 € pro Jahr

    WHO WE ARE We are looking for a Site Reliability Engineer / Systems Engineer to complement our Deployment Operations  Team. In this role, you will build, improve and manage our automations and deployment infrastructure, to ensure the reliability, resilience, availability and observability of our product.Join us at Wire, the leading end-to-end encrypted...


  • Berlin, Berlin, Deutschland Zattoo Vollzeit 80.000 € - 120.000 € pro Jahr

    THE ROLE & THE SRE TEAMAt Zattoo, we're building the TV platform of the future. With our ever-growing demand for unicast TV delivery, we're scaling out our custom-built infrastructure to deliver live and on-demand video at multi-Tbps scale. Because we own the full chain - from ingest, encoding/transcoding, packaging, to delivery - our engineers have the...


  • Berlin, Berlin, Deutschland 1KOMMA5˚ Vollzeit 60.000 € - 120.000 € pro Jahr

    1KOMMA5°We are looking for you as an addition to our tech-team in Berlin, Munich or Hamburg. 1KOMMA5° is building Germany's largest one-stop-shop for sale, installation and services related to solar, heat pumps, electricity and charging infrastructure. And they are all connected Be a part of our missionBecome a part of our mission and learn about our...


  • Berlin, Berlin, Deutschland Zattoo Vollzeit 80.000 € - 120.000 € pro Jahr

    YOUR FUTURE, ON DEMANDThe ideal blend of stability and flexibility. A genuinely human employer that cares for people and the planet. True autonomy to shape what comes next, for us and you. This is the perfect platform to take your career where you want.Back in 2005, we pioneered Europe's first TV streaming service. Today, we're the world's first certified...