1. Blei: Der Ausfall passiert jetzt
Auf November 18, 2025Cloudflare erfährt eine Ausfall auf Systemebene die sich weltweit auf Dienstleistungen auswirken.
Eine große Anzahl von Websites, APIs und Anwendungen, die auf Cloudflare angewiesen sind - von Finanzdienstleistungen bis hin zu sozialen Medien, von Entwicklerplattformen bis hin zu internen Unternehmenstools - stoßen innerhalb eines kurzen Zeitfensters auf Zugriffsunterbrechungen, Auflösungsfehler, Request Timeouts und andere Probleme.
Die Überwachungsdaten zeigen:
- Die Reaktionsfähigkeit der globalen CDN-Edge-Knoten ist um mehr als 70%;
- DNS-Abfragefehlerrate kurzzeitig überschritten 45%;
- In einigen Regionen (u. a. Nordamerika, Europa und Ostasien) kam es fast zu "globalen Zugangsausfällen".
Die offiziellen Teams von Cloudflare arbeiten an der Wiederherstellung, aber dieses Ereignis hat sich zu einer weiteren großen Infrastrukturkrise für das globale Internet im Jahr 2025 entwickelt.
Sie zeigt nicht nur das Konzentrationsrisiko einer einzigen Cloud-Sicherheits- und Beschleunigungsplattform auf, sondern erinnert uns auch erneut daran:
In einer zunehmend vernetzten Welt, der Ausfall eines beliebigen zentralisierten Knotens kann zum Epizentrum eines globalen Internet-Schocks werden.

2. Schlüsselereignisse im Jahr 2025: Eine Reihe von Schocks für die Infrastruktur
Das Jahr 2025 ist kein einzelnes Jahr des Scheiterns, sondern ein konzentrierter Zeitraum mit Risiken für die Internetarchitektur.
Von März bis November kam es bei Cloudflare zu drei größeren Ausfällen.
(1) März 2025: R2-Objektspeicher-Ausfall
- Dauer: 1 Stunde 7 Minuten
- Umfang: Global 100% Schreibausfälle, 35% Leseausfälle
- Unmittelbare Folge: Erfahrung mit mehreren Entwicklerplattformen und Cloud-Datenbanken unterbrochene Datenschreibvorgänge
- Technische Ursache: Blockierung des Speicherindexes + Ausfall des automatischen Wiederherstellungsmechanismus
Wichtige Erkenntnis: Konfigurationsfehler auf der logischen Ebene sind oft zerstörerischer als Hardwarefehler - sie sind schwieriger zu erkennen und zu beheben.
(2) Juni 2025: GCP-Vorfall, der einen globalen kaskadierenden Ausfall auslöst
- Grundlegende Ursache: Globaler Ausfall des Google Cloud Platform (GCP) IAM (Identity and Access Management) Dienstes
- Kaskadierende Kette:
- GCP IAM-Fehler → Authentifizierungs-/Validierungsfehler bei Cloudflare-Diensten
- Ausfall von Cloudflare → ~20% des weltweiten Internetverkehrs unterbrochen
- Zu den betroffenen Diensten gehören: Cursor, Claude, Spotify, Discord, Snapchat, Supabase, etc.
- Dauer: etwa zwei Stunden
Globale Natur: Dieser Vorfall veranschaulicht die Risiken von "Cloud-Plattform-Abhängigkeitsketten" - ein einziger IAM-Ausfall entwickelte sich innerhalb von Stunden zu einem weltweiten Netzwerkschock.
(3) November 2025: Der andauernde Stromausfall
- Manifestationen:
- Anomalien bei der Antwort des Edge-Knotens, Fehler bei DNS-Abfragen, Fehler bei WAF-Richtlinien;
- TLS-Handshake-Unterbrechungen, wobei der HTTPS-Verkehr in einigen Regionen vollständig zum Erliegen kam;
- API-Dienste, Objektspeicher und Cache-Synchronisierung sind in hohem Maße betroffen.
- Vorläufige Analyse:
- Anomalien in der Verteilung der Steuerungsebene, die Routing-Schleifen verursachen;
- Automatische Rollback-Mechanismen wurden nicht rechtzeitig ausgelöst;
- Das globale Lastverteilungssystem ist in eine "Synchronisationsblockade" geraten.
Trend: Tiefe und Ausmaß dieses Ausfalls gehen weit über frühere lokale Ausfälle hinaus - es handelt sich um ein typisches "Full-Stack-Infrastructure-Event".
3. Historischer Rückblick: Entwicklung der Vorfälle bei Cloudflare (2019-2025)
| Zeit | Hauptursache | Dauer | Umfang | Merkmale |
|---|---|---|---|---|
| Juli 2019 | WAF-Regel falsch konfiguriert | 30 Minuten | Global | Fehlerhafter automatischer Push |
| Oktober 2020 | BGP-Routing-Anomalie | Mehrere Stunden | Europa, Asien | Entführung einer externen Route |
| Juni 2022 | Fehler bei der Aktualisierung der Netzwerktopologie eines Rechenzentrums | 1 Stunde | 19 Hauptknotenpunkte | Örtlich begrenzter Zusammenbruch |
| März 2025 | R2 Objektspeicherverriegelung | 1 Stunde 7 Minuten | Global | Vollständige Schreibausfälle |
| Juni 2025 | GCP IAM Kaskadenausfall | ~2 Stunden | Global | Verstärkte Cross-Cloud-Abhängigkeit |
| Nov 2025 | Synchronisierung der globalen Konfiguration fehlgeschlagen | Laufend | Global | Mehrschichtiger systemischer Kollaps |
Einblick in den Trend: Von 2019 bis heute hat sich das Risikoprofil von Cloudflare deutlich von "Einzelfehlern" hin zu "systemischen Zusammenbrüchen der Abhängigkeits-Kette" entwickelt.
4. Analyse der Auswirkungen: Der Dominoeffekt der "unsichtbaren Infrastruktur" des Internets
(1) Unternehmensebene
- SaaS-, Zahlungs- und API-Gateway-Dienste wurden in allen Bereichen unterbrochen;
- Microservice-Kommunikation in Cloud-nativen Architekturen gestört;
- Die Geschäftskontinuität ist stark beeinträchtigt.
(2) Endnutzer-Ebene
- Websites und Anwendungen werden nicht geladen;
- DNS-Auflösungsfehler verursachen "scheinbar tote" Zustände;
- Die Risiken für den Datenschutz und die Sicherheit der Nutzer steigen (aufgrund vorübergehender Rückgriffe auf nicht vertrauenswürdige Knotenpunkte).
(3) Ebene der Industrie
- Finanzsektor: Zahlungsverzögerungen und höhere Ausfallraten bei Aufträgen;
- Inhaltliche Dienstleistungen: Ungültigkeit des CDN-Cache und unterbrochene Videowiedergabe;
- Regierung und Bildung: Öffentliche Portale werden unzugänglich und behindern die Bereitstellung von Informationen.
Das Wesentliche: Ein einziger Ausfall eines Kerndienstes kann einen globalen "Dominoeffekt" in der digitalen Lieferkette auslösen.
5. Grundlegende Ursachen: Konzentration, Komplexität und das zunehmende Risiko der Automatisierung
| Risiko-Typ | Typische Manifestation | Beispiel | Kernproblem |
|---|---|---|---|
| Risiko der Automatisierung | Fehlgeleitete Konfigurationen verbreiten sich schnell | 2019, 2022, März 2025 | Fehlende mehrschichtige Überprüfung |
| Risiko auf der Steuerungsebene | IAM-/Konfigurationssynchronisationsfehler | Jun 2025, Nov 2025 | Unfähigkeit, Fehler lokal zu isolieren |
| Architektonische Zentralisierung | Eine einzige Plattform mit vielen Dienstebenen | Alle Vorfälle | Einzelne Ausfälle werden verstärkt |
| Überwachung und Rollback-Verzögerung | Verspätete Erkennung, langsame Erholung | Mehrere Vorfälle | Fehlen einer automatischen Selbstheilung |
6. Systemische Verteidigungsempfehlungen
(1) Mehrschichtige Redundanz und dezentralisierte Architektur
| Ebene | Strategie | Hinweise zur Umsetzung |
|---|---|---|
| DNS-Schicht | Parallel zu mehreren Anbietern (Cloudflare + Route 53 + NS1) | Automatisierte Gesundheitsprüfungen und gewichtetes Failover |
| CDN-Schicht | Multi-CDN-Aggregation (Cloudflare + Fastly + Akamai) | Dynamische Verkehrslenkung über Anycast |
| Sicherheitsebene | Duale Kontrolle von Cloud- und On-Premise-WAF | Verhinderung der vollständigen Offenlegung bei Ausfall der Cloud-Seite |
| Datenebene | Redundanz über mehrere Regionen und mehrere Clouds hinweg | Automatisierte Backups und regionsübergreifende Wiederherstellung |
(2) Automatisierte Sicherheits- und Stabilitätsbewertung (Penligent-Modell)
Tools wie Sträflich kann dazu verwendet werden:
- Simulieren Sie hohe Last und Knotenausfälle;
- Automatisches Erkennen von Konfigurationsabhängigkeiten und Schleifen;
- Identifizierung von Kopplungsrisiken mit externen Cloud-Diensten;
- Generierung von Echtzeit-"Resilienz-Scores" für die Infrastruktur.
Das Ziel: Verlagerung der Erkennung auf einen früheren Zeitpunkt - Ermöglichung einer "vorausschauenden Verteidigung" und "selbstüberprüfende Architekturen".
(3) Chaos Engineering und Beobachtbarkeit
- Regelmäßige kontrollierte Ausfälle zur Validierung von Selbstheilungsprozessen;
- Erstellung von Echtzeit-Beobachtungsmetriken (Latenz, Paketverluste, Unterbrecherraten);
- Einrichtung eines "Resilienz-Dashboards", um den Zustand der Infrastruktur in die Unternehmens-KPIs einzubinden.
7. Strategische Schlussfolgerungen: Von der "Fehlervermeidung" zur "Prävention des Systemzusammenbruchs"
- Dezentralisierte Verwaltung: Verringerung der Konzentration von kritischen Internetdiensten.
- Rahmen für vertrauenswürdiges Routing: Beschleunigung der Einführung von RPKI und DNSSEC.
- KI-gesteuerte Überprüfung: Nutzen Sie maschinelles Lernen, um riskante Konfigurationsmuster zu erkennen.
- Koalitionen für den Katastrophenschutz: Aufbau von Cloud- und branchenübergreifenden Ressourcenpools für Katastrophenfälle.
8. Schlussfolgerung: Widerstandsfähigkeit ist ein grundlegender Wettbewerbsvorteil für das Internet
Die Abfolge der Vorfälle bei Cloudflare im Jahr 2025 zeigt, dass die Anfälligkeit des Internets nicht mehr nur ein Problem eines einzelnen Unternehmens ist, sondern ein strukturelles Risiko für das gesamte digitale Ökosystem darstellt.
Der künftige Wettbewerb wird nicht allein durch Geschwindigkeit bestimmt, sondern durch die Fähigkeit, sich von Fehlern zu erholen.
Nur durch Dezentralisierung, Multi-Redundanz, automatische Überprüfung und kontinuierliche Katastrophenbereitschaft kann das Internet eine wirklich "selbstheilende Infrastruktur" erreichen. Die anhaltenden Ausfälle von Cloudflare sind mehr als nur eine technische Krise - sie sind eine systemische Warnung vor zentralisierten Internet-Architekturen. Wir müssen das Vertrauen wiederherstellen, die Widerstandsfähigkeit rekonstruieren und die grundlegende Infrastruktur des Internets neu überdenken.
Anhang: Zeitplan für größere Cloudflare-Ausfälle (2019-2025)
| Zeit | Typ | Ursache | Dauer | Umfang |
|---|---|---|---|---|
| 2019.07 | Globaler Ausfall | WAF-Regelfehler | 30 Minuten | Global |
| 2020.10 | BGP-Anomalie | Routing-Fehler | Mehrere Stunden | Europa, Asien |
| 2022.06 | Fehler bei der Aktualisierung der Netzwerktopologie | Ausfall der Konfiguration | 1 Stunde | 19 Städte |
| 2025.03 | R2 Objektspeicherverriegelung | Indexfehler | 1 Stunde 7 Minuten | Global |
| 2025.06 | GCP-Kaskadenausfall | IAM-Anomalie | 2 Stunden | Global |
| 2025.11 | Globale Konfigurationssynchronisation zusammenbrechen | Ausfall der Steuerungsebene | Laufend | Global |
