Service Level Agreements
Transparente Vereinbarungen für maximale Zuverlässigkeit
Version: 1.0.0 | Gültig ab: 01.01.2024
Unsere Service Level Agreements (SLAs) garantieren Ihnen höchste Verfügbarkeit und schnelle Reaktionszeiten. Je nach gewähltem Plan erhalten Sie unterschiedliche SLA-Garantien. Diese SLAs gelten für die Plattform, der Plattform-Services und den Managed Services. Für Anwendungen, die Sie auf der Plattform betreiben, gelten separate Vereinbarungen. Kontaktieren Sie uns für individuelle SLA-Vereinbarungen.
Inhaltsverzeichnis
Teil I: Grundlagen
Dieser Teil definiert den Geltungsbereich der Service Level Agreements und erläutert die wichtigsten Begriffe und Definitionen, die für das Verständnis der nachfolgenden Kapitel erforderlich sind.
1. Geltungsbereich
Diese Service Level Agreements (SLAs) gelten für alle von kloudease bereitgestellten Platform-Services, gewählte Add-Ons und Managed Services. Die SLAs definieren die Verfügbarkeits- und Service-Garantien je nach gewähltem Plan (Starter, Business, Enterprise).
2. Definitionen
Im Rahmen dieser SLAs gelten folgende Definitionen: Availability bezeichnet die Verfügbarkeit der Kubernetes-Plattform und der entsprechenden Platform-Services. Service Hours definieren die Zeiten, in denen Support und Wartungsarbeiten verfügbar sind. Incident Priorität (P1-P4) bestimmt die Reaktions- und Lösungszeiten für Störungen.
Teil II: Verfügbarkeit und Service-Levels
Dieser Teil beschreibt die Verfügbarkeitsgarantien und Service-Zeiten, die je nach gewähltem Plan unterschiedlich ausfallen. Die Verfügbarkeit bezieht sich auf die Kubernetes-Plattform und alle zugehörigen Services.
3. Availability
Die Availability-Garantie bezieht sich auf die Verfügbarkeit der Kubernetes-Plattform und der entsprechenden Platform-Services, gewählte Add-Ons und Managed Services. Geplante Wartungsarbeiten werden mindestens 7 Tage im Voraus angekündigt und finden außerhalb der Geschäftszeiten statt.
| Plan | Availability | Berechnung |
|---|---|---|
| Starter | 99.5% | Monatlich |
| Business | 99.75% | Monatlich |
| Enterprise | 99.9% | Monatlich |
4. Service Zeiten
Die Service Zeiten definieren die Verfügbarkeit unserer Support- und Service-Leistungen. Außerhalb der Service Hours steht das 24/7 Incident Management im Rahmen der SLAs zur Verfügung:
| Plan | Service Zeiten | Stundensatz | Inklusive Stunden/Monat |
|---|---|---|---|
| Starter | Werktage 8 Uhr - 6 Uhr (CET/CEST) |
150€/h | - |
| Business | Werktage 8 Uhr - 6 Uhr (CET/CEST) |
125€/h | 4 monat |
| Enterprise | Werktage 8 Uhr - 6 Uhr (CET/CEST) |
120€/h | 12 monat |
Werktage gelten Mo-Fr ausgenommen öffentliche Feiertage in Deutschland, Hessen.
Teil III: Wartung und Updates
Dieser Teil regelt die Durchführung von Wartungsarbeiten und die Bereitstellung von Updates und Patches. Die Wartungsfenster und Patch-Zyklen variieren je nach Plan und werden transparent kommuniziert.
5. Wartungsfenster
Geplante Wartungsarbeiten werden in definierten Wartungsfenstern durchgeführt, um die Auswirkungen auf Ihre Services zu minimieren:
| Plan | Wartungsfenster | Vorankündigung | Häufigkeit |
|---|---|---|---|
| Starter | Jederzeit, im Rahmen der garantierten Verfügbarkeit | 3 Tage | Nach Bedarf |
| Business | Außerhalb der Service Zeiten | 5 Tage | Nach Bedarf |
| Enterprise | Individuell vereinbart (nach Abstimmung) |
10 Tage | Nach Bedarf |
Hinweis: Notfall-Wartungen können kurzfristig durchgeführt werden, wenn kritische Sicherheitslücken geschlossen werden müssen oder die garantierte Verfügbarkeit gefährdet wird.
6. Patches
Patches werden nach Semantic Versioning (Major, Minor, Patch) und Plan unterschiedlich behandelt:
Semantic Versioning:
- Major (X.0.0): Breaking Changes, neue Features
- Minor (x.Y.0): Neue Features, Backwards-kompatibel
- Patch (x.y.Z): Bugfixes, Sicherheitsupdates
| Plan | Major (X.0.0) | Minor (x.Y.0) | Patch (x.y.Z) |
|---|---|---|---|
| Starter | Nach Absprache | Nach Absprache | Nach Absprache |
| Business | Nach Absprache | Nach Absprache | 15 Service Tage |
| Enterprise | Nach Absprache | 20 Service Tage | 10 Service Tage |
Teil IV: Incident Management und Sicherheit
Dieser Teil definiert die Reaktionszeiten und Bearbeitungsprozesse für Störungen sowie die Behandlung von Sicherheitslücken. Das Incident Management erfolgt nach Prioritäten, und Vulnerabilities werden entsprechend ihrer Schwere klassifiziert.
7. Incident Management
Service Level Objectives definieren die Mean Time To Detect (MTTD), Mean Time To Acknowledge (MTTA) und Mean Time To Repair or Resolve (MTTR) für verschiedene Prioritäten. MTTD ist die durchschnittliche Zeit bis zur Erkennung eines Incidents, MTTA die Zeit bis zur Bestätigung/Reaktion, und MTTR die Zeit bis zur vollständigen Wiederherstellung.
Prioritätsdefinitionen:
- P1 (Kritisch): Vollständiger Ausfall der Plattform, keine Services erreichbar
- P2 (Hoch): Teilausfall, kritische Funktionen betroffen
- P3 (Mittel): Eingeschränkte Funktionalität, Workarounds verfügbar
- P4 (Niedrig): Geringfügige Beeinträchtigungen, keine kritischen Auswirkungen
P1 (Kritisch)
| Plan | MTTD | MTTA | MTTR | Verfügbarkeit |
|---|---|---|---|---|
| Starter | - | - | im Rahmen der garantierten Verfügbarkeit | 24/7 |
| Business | 10min | 1h | 4h | 24/7 |
| Enterprise | 10min | 30min | 2h | 24/7 |
P2 (Hoch)
| Plan | MTTD | MTTA | MTTR | Verfügbarkeit |
|---|---|---|---|---|
| Starter | - | - | im Rahmen der garantierten Verfügbarkeit | 24/7 |
| Business | 20min | 2h | 16h | 24/7 |
| Enterprise | 20min | 1h | 4h | 24/7 |
P3 (Mittel)
| Plan | MTTD | MTTA | MTTR | Verfügbarkeit |
|---|---|---|---|---|
| Starter | - | - | - | während der Service Zeiten |
| Business | - | 1d | - | während der Service Zeiten |
| Enterprise | - | 12h | 3d | während der Service Zeiten |
P4 (Niedrig)
| Plan | MTTD | MTTA | MTTR | Verfügbarkeit |
|---|---|---|---|---|
| Starter | - | - | - | während der Service Zeiten |
| Business | - | - | - | während der Service Zeiten |
| Enterprise | - | 1d | - | während der Service Zeiten |
8. Sicherheitslücken / Vulnerabilities
Sicherheitslücken (CVEs) werden nach ihrem CVSS-Score klassifiziert und entsprechend der Incident-Priorität behandelt:
CVE-Klassifizierung:
- Critical (CVSS 9.0-10.0): Wird als P2 (Hoch) Incident behandelt
- High (CVSS 7.0-8.9): Wird als P3 (Mittel) Incident behandelt
- Medium (CVSS 4.0-6.9): Wird als P4 (Niedrig) Incident behandelt
- Low (CVSS 0.1-3.9): Wird als P4 (Niedrig) Incident behandelt oder nach Planung
| CVE Score | Incident Priorität | Plan | MTTR |
|---|---|---|---|
| Critical (9.0-10.0) | P2 (Hoch) | Starter | im Rahmen der garantierten Verfügbarkeit |
| Business | 16h | ||
| Enterprise | 4h | ||
| High (7.0-8.9) | P3 (Mittel) | Starter | - |
| Business | - | ||
| Enterprise | 3d | ||
| Medium (4.0-6.9) | P4 (Niedrig) | Starter | - |
| Business | - | ||
| Enterprise | - | ||
| Low (0.1-3.9) | P4 (Niedrig) / Nach Planung | Starter | - |
| Business | - | ||
| Enterprise | - |
Teil V: Business Continuity und Datenhaltung
Dieser Teil beschreibt die Maßnahmen zur Gewährleistung der Geschäftskontinuität sowie die Aufbewahrungsfristen für Logs, Metriken und Traces. Die BC/DR-Ziele (Recovery Time Objective, Recovery Point Objective) variieren je nach Plan.
9. BC/DR (Business Continuity / Disaster Recovery)
Die BC/DR-Ziele definieren die Recovery-Zeiten und Datenaufbewahrung:
- RTO (Recovery Time Objective): Maximale Zeit bis zur Wiederherstellung
- RPO (Recovery Point Objective): Maximaler Datenverlust bei Wiederherstellung
- RP (Retention Period): Aufbewahrungsdauer der Backups
| Plan | RTO | RPO | RP |
|---|---|---|---|
| Starter | best-effort | 24h | 30 Tage |
| Business | 4h | 4h | 90 Tage |
| Enterprise | 2h | 2h | 180 Tage |
Hinweis: Die RP (Retention Period) gilt im Rahmen einer GFS (Grandfather-Father-Son) Aufbewahrungsrichtline.
10. Retention (Logs & Metriken)
Die Retention-Periode definiert, wie lange Logs und Metriken gespeichert werden:
| Plan | Logs Retention | Metriken Retention | Traces Retention |
|---|---|---|---|
| Starter | 60 Tage | 60 Tage | - |
| Business | 30 Tage | 90 Tage | 7 Tage |
| Enterprise | 90 Tage | 365 Tage | 30 Tage |
Teil VI: Erweiterte Services
Dieser Teil beschreibt optionale, erweiterte Services wie BYOI (Bring Your Own Infrastructure), individuelle Service Level Objectives und Site Reliability Engineering as a Service. Diese Services stehen je nach Plan zur Verfügung.
11. BYOI (Bring Your Own Infrastructure)
Mit BYOI nutzen Sie Ihre eigene Infrastruktur (On-Premise, Private Cloud oder andere Cloud-Provider) mit vollständigem kloudease-Management.
Verantwortlichkeiten
kloudease verantwortlich:
- • Kubernetes-Plattform Management
- • Plattform-Updates und Wartung
- • Monitoring und Observability
- • Security-Patches für die Plattform
- • Support und Incident Management
Kunde verantwortlich:
- • Bereitstellung der Infrastruktur
- • Infrastruktur-Wartung und Updates
- • Netzwerk-Konfiguration
- • Infrastruktur-Sicherheit
- • Compliance und Governance der Infrastruktur
| Plan | BYOI verfügbar | Hinweis |
|---|---|---|
| Starter | Nein | - |
| Business | Ja | BYOI-Option verfügbar |
| Enterprise | Ja | BYOI-Option verfügbar |
12. Custom SLOs (Service Level Objectives)
Für Enterprise-Kunden bieten wir individuelle Service Level Objectives (SLOs) an, die speziell auf Ihre Anforderungen zugeschnitten sind:
Custom SLO Features:
- • Individuelle MTTR-Ziele für verschiedene Prioritäten
- • Angepasste Availability-Garantien
- • Spezifische Response-Zeiten für Incident Management
- • Maßgeschneiderte BC/DR-Ziele (RTO, RPO, RP)
- • Erweiterte Retention-Zeiten für Logs, Metriken und Traces
- • Individuelle Patch-Zyklen und Wartungsfenster
| Plan | Custom SLOs verfügbar | Hinweis |
|---|---|---|
| Starter | Nein | - |
| Business | Nein | - |
| Enterprise | Ja | Custom SLOs verfügbar |
Kontaktieren Sie uns für individuelle SLO-Vereinbarungen
13. SREaaS (Site Reliability Engineering as a Service)
Mit SREaaS (Site Reliability Engineering as a Service) unterstützen wir Sie ganzheitlich beim zuverlässigen und sicheren Betrieb Ihrer eigenen Applikationen – von Observability bis Incident Management, entlang definierter SLOs:
SREaaS Features:
- • Schnelle Reaktions- und Wiederherstellungszeiten (SLO-basiert) für Applikations-Incidents
- • Übergreifendes Observability, Monitoring und Alerting Ihrer Applikationen
- • Proaktive Fehleranalyse und kontinuierliche Optimierung der Applikationsstabilität
- • Kapazitäts- und Skalierungsmanagement für Applikationen
- • Regelmäßige Incident-Reviews und Postmortem-Analysen
- • Implementierung von Best Practices und Automatisierung im Applikationsbetrieb
| Plan | SREaaS verfügbar | Hinweis |
|---|---|---|
| Starter | Nein | - |
| Business | Nein | - |
| Enterprise | Ja | SREaaS verfügbar |
Kontaktieren Sie uns für individuelle SREaaS-Angebote