SLA / SLO / SLI
SLAs, SLOs und SLIs definieren Verfügbarkeitszusagen, interne Ziele und messbare Indikatoren für die Zuverlässigkeit von IT-Services.
Was sind SLA, SLO und SLI?
Diese drei Begriffe bilden das Fundament moderner Service-Zuverlässigkeit. Sie definieren, messen und kommunizieren, wie zuverlässig ein IT-Service ist – intern für Engineering-Teams und extern gegenüber Kunden und Partnern.
SLI – Service Level Indicator
Ein SLI ist eine konkrete, messbare Metrik, die einen Aspekt der Servicequalität quantifiziert. Beispiele: Verfügbarkeit in Prozent, Antwortzeit in Millisekunden, Fehlerrate pro Anfrage. SLIs sind die Rohdaten, aus denen SLOs abgeleitet werden.
SLO – Service Level Objective
Ein SLO definiert den Zielwert für einen SLI. Beispiel: „99,9 % der Anfragen werden innerhalb von 200 ms beantwortet." SLOs sind interne Ziele, die das Engineering-Team anstrebt. Sie sind bewusst strenger als SLAs, um einen Puffer zu schaffen.
SLA – Service Level Agreement
Ein SLA ist eine vertragliche Vereinbarung zwischen Anbieter und Kunde, die Mindestservicelevels und Konsequenzen bei Nichteinhaltung definiert. SLAs basieren auf SLOs, sind aber rechtlich bindend und enthalten Kompensationsregelungen.
Error Budgets
Das Konzept des Error Budgets ergänzt SLOs: Wenn dein SLO 99,9 % Verfügbarkeit ist, hast du ein Budget von 0,1 % Ausfallzeit. Pro Monat entspricht das etwa 43 Minuten. Solange das Budget nicht aufgebraucht ist, können Teams neue Features deployen. Ist das Budget erschöpft, liegt der Fokus auf Stabilität.
SLIs richtig definieren
- Wähle SLIs, die aus Nutzersicht relevant sind
- Begrenze die Anzahl auf 3–5 pro Service
- Nutze Percentile (P95, P99) statt Durchschnittswerte für Latenzen
- Erfasse SLIs automatisch über Monitoring-Systeme wie Prometheus
SLOs in der Praxis
SLOs sind keine starren Werte, sondern werden iterativ angepasst. Google empfiehlt, mit einem SLO zu starten, das die aktuelle Performance widerspiegelt, und es dann schrittweise zu verschärfen. SLO-Dashboards in Grafana machen den Status für alle Teams transparent.
SLA-Management für den Mittelstand
Für mittelständische Unternehmen ist ein durchdachtes SLA-Management entscheidend: Es schafft Vertrauen bei Kunden, gibt Engineering-Teams klare Prioritäten und ermöglicht datenbasierte Entscheidungen über Feature-Entwicklung vs. Stabilitätsarbeit.
Warum devRocks?
Wir helfen dir, SLIs, SLOs und SLAs zu definieren, die zu deinen Services und Geschäftsanforderungen passen. Von der Metrik-Implementierung über Error-Budget-Policies bis zu SLA-Dashboards bauen wir eine Zuverlässigkeitskultur in deinem Team auf.
Häufig gestellte Fragen zu SLA / SLO / SLI
Für die meisten Webanwendungen ist 99,9 % Verfügbarkeit ein guter Startpunkt. Das erlaubt etwa 43 Minuten Ausfallzeit pro Monat. 99,99 % erfordert deutlich mehr Aufwand und ist nur für geschäftskritische Dienste sinnvoll.
Error Budget = 1 – SLO. Bei einem SLO von 99,9 % ist dein Error Budget 0,1 %. In einem 30-Tage-Monat sind das 43,2 Minuten erlaubte Ausfallzeit.
Interne Teams arbeiten besser mit SLOs statt SLAs. SLOs geben Ziele ohne vertragliche Strafen vor und ermöglichen eine gesunde Balance zwischen Feature-Entwicklung und Zuverlässigkeit.
Prometheus für die Metrikerfassung, Grafana für Dashboards und Alertmanager für Benachrichtigungen sind die Standardkombination. Alternativ bieten Cloud-Dienste wie Datadog integrierte SLO-Features.
Verwandte Begriffe
Passende Leistungen
CI/CD Pipelines
Automatisierte Delivery-Systeme, die Deployment-Zyklen von Wochen auf Minuten reduzieren.
Kubernetes
Container-Orchestrierung im großen Maßstab — wir entwerfen, betreiben und managen produktionsreife Kubernetes-Cluster.
Observability
Full-Stack-Monitoring und Alerting, das Ausfälle vorhersagt, bevor Nutzer betroffen sind.
Interesse geweckt?
Lassen Sie uns über Ihr Projekt sprechen. Wir beraten Sie gerne unverbindlich.
Kontakt aufnehmenZuletzt aktualisiert: April 2026