Bußgeld-Kopfzeile

Analyse des globalen Cloudflare-Ausfalls: Erneute Untersuchung der systemischen Schwachstellen und der Widerstandsfähigkeit der Infrastruktur des globalen Internets

1. Blei: Der Ausfall passiert jetzt

Auf November 18, 2025Cloudflare erfährt eine Ausfall auf Systemebene die sich weltweit auf Dienstleistungen auswirken.
Eine große Anzahl von Websites, APIs und Anwendungen, die auf Cloudflare angewiesen sind - von Finanzdienstleistungen bis hin zu sozialen Medien, von Entwicklerplattformen bis hin zu internen Unternehmenstools - stoßen innerhalb eines kurzen Zeitfensters auf Zugriffsunterbrechungen, Auflösungsfehler, Request Timeouts und andere Probleme.

Die Überwachungsdaten zeigen:

  • Die Reaktionsfähigkeit der globalen CDN-Edge-Knoten ist um mehr als 70%;
  • DNS-Abfragefehlerrate kurzzeitig überschritten 45%;
  • In einigen Regionen (u. a. Nordamerika, Europa und Ostasien) kam es fast zu "globalen Zugangsausfällen".

Die offiziellen Teams von Cloudflare arbeiten an der Wiederherstellung, aber dieses Ereignis hat sich zu einer weiteren großen Infrastrukturkrise für das globale Internet im Jahr 2025 entwickelt.
Sie zeigt nicht nur das Konzentrationsrisiko einer einzigen Cloud-Sicherheits- und Beschleunigungsplattform auf, sondern erinnert uns auch erneut daran:

In einer zunehmend vernetzten Welt, der Ausfall eines beliebigen zentralisierten Knotens kann zum Epizentrum eines globalen Internet-Schocks werden.

ein kleines Update CloudFlare

2. Schlüsselereignisse im Jahr 2025: Eine Reihe von Schocks für die Infrastruktur

Das Jahr 2025 ist kein einzelnes Jahr des Scheiterns, sondern ein konzentrierter Zeitraum mit Risiken für die Internetarchitektur.
Von März bis November kam es bei Cloudflare zu drei größeren Ausfällen.

(1) März 2025: R2-Objektspeicher-Ausfall

  • Dauer: 1 Stunde 7 Minuten
  • Umfang: Global 100% Schreibausfälle, 35% Leseausfälle
  • Unmittelbare Folge: Erfahrung mit mehreren Entwicklerplattformen und Cloud-Datenbanken unterbrochene Datenschreibvorgänge
  • Technische Ursache: Blockierung des Speicherindexes + Ausfall des automatischen Wiederherstellungsmechanismus

Wichtige Erkenntnis: Konfigurationsfehler auf der logischen Ebene sind oft zerstörerischer als Hardwarefehler - sie sind schwieriger zu erkennen und zu beheben.

(2) Juni 2025: GCP-Vorfall, der einen globalen kaskadierenden Ausfall auslöst

  • Grundlegende Ursache: Globaler Ausfall des Google Cloud Platform (GCP) IAM (Identity and Access Management) Dienstes
  • Kaskadierende Kette:
    • GCP IAM-Fehler → Authentifizierungs-/Validierungsfehler bei Cloudflare-Diensten
    • Ausfall von Cloudflare → ~20% des weltweiten Internetverkehrs unterbrochen
    • Zu den betroffenen Diensten gehören: Cursor, Claude, Spotify, Discord, Snapchat, Supabase, etc.
  • Dauer: etwa zwei Stunden

Globale Natur: Dieser Vorfall veranschaulicht die Risiken von "Cloud-Plattform-Abhängigkeitsketten" - ein einziger IAM-Ausfall entwickelte sich innerhalb von Stunden zu einem weltweiten Netzwerkschock.

(3) November 2025: Der andauernde Stromausfall

  • Manifestationen:
    • Anomalien bei der Antwort des Edge-Knotens, Fehler bei DNS-Abfragen, Fehler bei WAF-Richtlinien;
    • TLS-Handshake-Unterbrechungen, wobei der HTTPS-Verkehr in einigen Regionen vollständig zum Erliegen kam;
    • API-Dienste, Objektspeicher und Cache-Synchronisierung sind in hohem Maße betroffen.
  • Vorläufige Analyse:
    • Anomalien in der Verteilung der Steuerungsebene, die Routing-Schleifen verursachen;
    • Automatische Rollback-Mechanismen wurden nicht rechtzeitig ausgelöst;
    • Das globale Lastverteilungssystem ist in eine "Synchronisationsblockade" geraten.

Trend: Tiefe und Ausmaß dieses Ausfalls gehen weit über frühere lokale Ausfälle hinaus - es handelt sich um ein typisches "Full-Stack-Infrastructure-Event".

3. Historischer Rückblick: Entwicklung der Vorfälle bei Cloudflare (2019-2025)

ZeitHauptursacheDauerUmfangMerkmale
Juli 2019WAF-Regel falsch konfiguriert30 MinutenGlobalFehlerhafter automatischer Push
Oktober 2020BGP-Routing-AnomalieMehrere StundenEuropa, AsienEntführung einer externen Route
Juni 2022Fehler bei der Aktualisierung der Netzwerktopologie eines Rechenzentrums1 Stunde19 HauptknotenpunkteÖrtlich begrenzter Zusammenbruch
März 2025R2 Objektspeicherverriegelung1 Stunde 7 MinutenGlobalVollständige Schreibausfälle
Juni 2025GCP IAM Kaskadenausfall~2 StundenGlobalVerstärkte Cross-Cloud-Abhängigkeit
Nov 2025Synchronisierung der globalen Konfiguration fehlgeschlagenLaufendGlobalMehrschichtiger systemischer Kollaps

Einblick in den Trend: Von 2019 bis heute hat sich das Risikoprofil von Cloudflare deutlich von "Einzelfehlern" hin zu "systemischen Zusammenbrüchen der Abhängigkeits-Kette" entwickelt.

4. Analyse der Auswirkungen: Der Dominoeffekt der "unsichtbaren Infrastruktur" des Internets

(1) Unternehmensebene

  • SaaS-, Zahlungs- und API-Gateway-Dienste wurden in allen Bereichen unterbrochen;
  • Microservice-Kommunikation in Cloud-nativen Architekturen gestört;
  • Die Geschäftskontinuität ist stark beeinträchtigt.

(2) Endnutzer-Ebene

  • Websites und Anwendungen werden nicht geladen;
  • DNS-Auflösungsfehler verursachen "scheinbar tote" Zustände;
  • Die Risiken für den Datenschutz und die Sicherheit der Nutzer steigen (aufgrund vorübergehender Rückgriffe auf nicht vertrauenswürdige Knotenpunkte).

(3) Ebene der Industrie

  • Finanzsektor: Zahlungsverzögerungen und höhere Ausfallraten bei Aufträgen;
  • Inhaltliche Dienstleistungen: Ungültigkeit des CDN-Cache und unterbrochene Videowiedergabe;
  • Regierung und Bildung: Öffentliche Portale werden unzugänglich und behindern die Bereitstellung von Informationen.

Das Wesentliche: Ein einziger Ausfall eines Kerndienstes kann einen globalen "Dominoeffekt" in der digitalen Lieferkette auslösen.

5. Grundlegende Ursachen: Konzentration, Komplexität und das zunehmende Risiko der Automatisierung

Risiko-TypTypische ManifestationBeispielKernproblem
Risiko der AutomatisierungFehlgeleitete Konfigurationen verbreiten sich schnell2019, 2022, März 2025Fehlende mehrschichtige Überprüfung
Risiko auf der SteuerungsebeneIAM-/KonfigurationssynchronisationsfehlerJun 2025, Nov 2025Unfähigkeit, Fehler lokal zu isolieren
Architektonische ZentralisierungEine einzige Plattform mit vielen DienstebenenAlle VorfälleEinzelne Ausfälle werden verstärkt
Überwachung und Rollback-VerzögerungVerspätete Erkennung, langsame ErholungMehrere VorfälleFehlen einer automatischen Selbstheilung

6. Systemische Verteidigungsempfehlungen

(1) Mehrschichtige Redundanz und dezentralisierte Architektur

EbeneStrategieHinweise zur Umsetzung
DNS-SchichtParallel zu mehreren Anbietern (Cloudflare + Route 53 + NS1)Automatisierte Gesundheitsprüfungen und gewichtetes Failover
CDN-SchichtMulti-CDN-Aggregation (Cloudflare + Fastly + Akamai)Dynamische Verkehrslenkung über Anycast
SicherheitsebeneDuale Kontrolle von Cloud- und On-Premise-WAFVerhinderung der vollständigen Offenlegung bei Ausfall der Cloud-Seite
DatenebeneRedundanz über mehrere Regionen und mehrere Clouds hinwegAutomatisierte Backups und regionsübergreifende Wiederherstellung

(2) Automatisierte Sicherheits- und Stabilitätsbewertung (Penligent-Modell)

Tools wie Sträflich kann dazu verwendet werden:

  • Simulieren Sie hohe Last und Knotenausfälle;
  • Automatisches Erkennen von Konfigurationsabhängigkeiten und Schleifen;
  • Identifizierung von Kopplungsrisiken mit externen Cloud-Diensten;
  • Generierung von Echtzeit-"Resilienz-Scores" für die Infrastruktur.

Das Ziel: Verlagerung der Erkennung auf einen früheren Zeitpunkt - Ermöglichung einer "vorausschauenden Verteidigung" und "selbstüberprüfende Architekturen".

(3) Chaos Engineering und Beobachtbarkeit

  • Regelmäßige kontrollierte Ausfälle zur Validierung von Selbstheilungsprozessen;
  • Erstellung von Echtzeit-Beobachtungsmetriken (Latenz, Paketverluste, Unterbrecherraten);
  • Einrichtung eines "Resilienz-Dashboards", um den Zustand der Infrastruktur in die Unternehmens-KPIs einzubinden.

7. Strategische Schlussfolgerungen: Von der "Fehlervermeidung" zur "Prävention des Systemzusammenbruchs"

  1. Dezentralisierte Verwaltung: Verringerung der Konzentration von kritischen Internetdiensten.
  2. Rahmen für vertrauenswürdiges Routing: Beschleunigung der Einführung von RPKI und DNSSEC.
  3. KI-gesteuerte Überprüfung: Nutzen Sie maschinelles Lernen, um riskante Konfigurationsmuster zu erkennen.
  4. Koalitionen für den Katastrophenschutz: Aufbau von Cloud- und branchenübergreifenden Ressourcenpools für Katastrophenfälle.

8. Schlussfolgerung: Widerstandsfähigkeit ist ein grundlegender Wettbewerbsvorteil für das Internet

Die Abfolge der Vorfälle bei Cloudflare im Jahr 2025 zeigt, dass die Anfälligkeit des Internets nicht mehr nur ein Problem eines einzelnen Unternehmens ist, sondern ein strukturelles Risiko für das gesamte digitale Ökosystem darstellt.

Der künftige Wettbewerb wird nicht allein durch Geschwindigkeit bestimmt, sondern durch die Fähigkeit, sich von Fehlern zu erholen.

Nur durch Dezentralisierung, Multi-Redundanz, automatische Überprüfung und kontinuierliche Katastrophenbereitschaft kann das Internet eine wirklich "selbstheilende Infrastruktur" erreichen. Die anhaltenden Ausfälle von Cloudflare sind mehr als nur eine technische Krise - sie sind eine systemische Warnung vor zentralisierten Internet-Architekturen. Wir müssen das Vertrauen wiederherstellen, die Widerstandsfähigkeit rekonstruieren und die grundlegende Infrastruktur des Internets neu überdenken.

Anhang: Zeitplan für größere Cloudflare-Ausfälle (2019-2025)

ZeitTypUrsacheDauerUmfang
2019.07Globaler AusfallWAF-Regelfehler30 MinutenGlobal
2020.10BGP-AnomalieRouting-FehlerMehrere StundenEuropa, Asien
2022.06Fehler bei der Aktualisierung der NetzwerktopologieAusfall der Konfiguration1 Stunde19 Städte
2025.03R2 ObjektspeicherverriegelungIndexfehler1 Stunde 7 MinutenGlobal
2025.06GCP-KaskadenausfallIAM-Anomalie2 StundenGlobal
2025.11Globale Konfigurationssynchronisation zusammenbrechenAusfall der SteuerungsebeneLaufendGlobal

Teilen Sie den Beitrag:
Verwandte Beiträge
de_DEGerman