Bestes KI-Modell für Pentesting, was Sicherheitsingenieure im Jahr 2026 tatsächlich nutzen sollten

Die Frage klingt eigentlich ganz einfach. Sie wollen das beste KI-Modell für Pentesting, damit Sie ein Modell auswählen, es in Ihren Workflow einbinden und schneller arbeiten können. In der Praxis verbergen sich hinter dieser Frage jedoch drei verschiedene Entscheidungen. Erstens: Entscheiden Sie sich für ein Stiftungsmodell oder ein KI-Sicherheitsprodukt die auf einer solchen aufbauen? Zweitens: Versuchen Sie, den täglichen Arbeitsablauf eines menschlichen Testers zu verbessern, oder versuchen Sie, eine durchgängige offensive Pipeline zu automatisieren? Drittens: Liegt Ihnen das Hauptaugenmerk auf Code-Reasoning, Browser-Interaktion, Long-Context-Repository-Analyse oder wiederholbarer Beweissammlung?

Diese Unterscheidungen sind wichtig, weil die öffentliche Diskussion sehr laut ist. Einige prominente Inhalte von Praktikern, die jetzt zu diesem Thema ranken, weisen darauf hin, dass viele "KI-Sicherheits-Tools" in Wirklichkeit Hüllen um eine kleine Gruppe von Basismodellen sind. Gleichzeitig werden in den Vergleichsartikeln, auf die die Leser wahrscheinlich stoßen werden, häufig Produkte wie XBOW, NodeZero und Burp AI bewertet, bei denen es sich keineswegs um Basismodelle, sondern um operative Systeme mit Orchestrierungs-, Tooling-, Validierungs- und Berichtsebenen handelt. Wenn man diese beiden Kategorien als ein und dasselbe betrachtet, treffen Teams schlechte Kaufentscheidungen und schlechte Architekturentscheidungen. (Mittel)

Hier ist also die ehrliche Antwort vorweg. Wenn Sie ein Sicherheitsingenieur sind, der ein Allzweckmodell für die meisten Pentesting-verwandten Aufgaben benötigt, ist Claude Sonnet 4.6 die beste Standardlösung. Wenn Ihr Arbeitsablauf stark auf Browser-Automatisierung, Computereinsatz und werkzeuggesteuerte Operator-Schleifen ausgerichtet ist, ist GPT-5.4 der bessere Spezialist. Wenn Ihre Arbeit riesige multimodale Beweissätze, sehr große Dokumente und kostenbewusste Großkontextanalysen umfasst, ist Gemini 3.1 Pro die stärkste dritte Option. Wenn Sie ein ernsthaftes Pentest-Produkt oder ein internes autonomes System aufbauen, ist die beste Antwort nicht ein einziges Modell, sondern ein Routing-Stack mit deterministischen Tools und expliziter Validierung. Diese Schlussfolgerung ergibt sich aus den offiziellen Modelldokumenten, aktuellen Produktmustern und den besten öffentlichen Forschungsergebnissen zu KI-gestütztem Pentesting und nicht aus einem einzigen Hersteller-Benchmark, der vorgibt, die gesamte Frage zu klären. (OpenAI)

Bestes AI-Modell für Pentesting

AI Hacker Tool kostenlos ausprobieren >>

Warum diese Frage schlecht beantwortet wird

Vieles, was über KI und Pentesting geschrieben wird, macht immer noch einen von zwei Fehlern. Der erste Fehler besteht darin, Pentesting als ein Problem der Eingabeaufforderung zu behandeln. In dieser Version der Geschichte ist das Modell "gut", wenn es eine Schwachstellenklasse erklären, die nächsten Schritte vorschlagen oder ein Skript erstellen kann, das plausibel aussieht. Das ist nützlich, aber es ist nicht dasselbe wie jemandem zu helfen, eine autorisierte Sicherheitsbewertung durchzuführen. Echtes Pentesting bedeutet, mit Mehrdeutigkeit umzugehen, sich an gebrochene Annahmen anzupassen, unvollständige Telemetriedaten zu verarbeiten, den Kontext über verschiedene Phasen hinweg beizubehalten und Beweise zu generieren, die einer genauen Prüfung durch Ingenieure, Manager und manchmal auch Prüfer standhalten können.

Der zweite Fehler besteht darin, beeindruckende Demos mit zuverlässigem Betrieb zu verwechseln. Öffentliches Material von modernen KI-Sicherheitssystemen erzählt hier eine sehr konsistente Geschichte. Aardvark von OpenAI, das jetzt als Forschungsvorschau in Codex Security aufgenommen wurde, wird ausdrücklich als mehrstufiges System beschrieben, das Repositories analysiert, ein Bedrohungsmodell erstellt, die Ausnutzbarkeit isoliert validiert und gezielte Korrekturen vorschlägt. Burp AI wird nicht als Ersatz für Pentester vermarktet, sondern als eine Möglichkeit, die Arbeit zu beschleunigen, während der Anwender die Kontrolle behält. XBOW legt den Schwerpunkt auf unabhängig validierte Ergebnisse durch echte Ausnutzung. NodeZero legt den Schwerpunkt auf die Verkettung von Angriffspfaden und den kontinuierlichen Nachweis der Ausnutzbarkeit. Mit anderen Worten, die Produkte, die der Produktionsrealität am nächsten kommen, sagen nicht "wähle ein Modell und lass es frei". Sie sagen das Gegenteil: Modelle sind wichtig, aber die Architektur ist wichtiger. (OpenAI)

Das ist auch der Grund, warum die stärkste öffentliche Forschung die Dekomposition weiterhin belohnt. In der USENIX Security 2024 PentestGPT-Studie wurde festgestellt, dass ein strukturiertes Design mit drei Modulen die Ergebnisse im Vergleich zur Verwendung eines naiven Modells erheblich verbessert, einschließlich einer berichteten Steigerung der Aufgabenerfüllung um 228,6 Prozent gegenüber GPT-3.5 bei Benchmark-Zielen, während gleichzeitig hervorgehoben wurde, dass Kontextverlust und langfristige Planung zentrale Fehlerpunkte für eine generische Chat-ähnliche Interaktion sind. AutoPenBench zeigte später, dass vollständig autonome Agenten nur 21 Prozent Erfolg erreichten, während Agenten mit menschlicher Unterstützung 64 Prozent erreichten. PentestEval ging noch einen Schritt weiter und stellte fest, dass die Leistung moderner LLMs in den einzelnen Phasen im Allgemeinen schwach ist, wobei die schwierigsten Phasen eine Erfolgsquote von etwa 25 % aufweisen und durchgängig autonome Systeme sehr schlecht abschneiden. Diese Arbeit besagt nicht, dass KI für Pentesting unbrauchbar ist. Sie besagt, dass nicht die einzelne Antwort die beste Lösung ist. Es ist der Arbeitsablauf. (USENIX)

Was ein Pentesting-Modell wirklich können muss

Wenn man den Hype beiseite lässt, muss ein starkes Pentesting-Modell sechs Dinge gut machen.

Erstens muss es Code und Konfiguration mit einem hohen Maß an Genauigkeit lesen können. Dazu gehört nicht nur die normale Codeüberprüfung, sondern auch die Art von Sicherheitsüberlegungen, bei denen der Datenfluss, die Vertrauensgrenzen, die Annahmen zur Autorisierung und die Einsatzbedingungen beachtet werden müssen. In der Praxis bedeutet dies, dass die Leistung über lange Zeiträume hinweg und die Qualität der Codebanksuche wichtiger sind als einmalige Cleverness.

Zweitens muss es mit Werkzeugen umgehen können, ohne sich zu verirren. Pentesting ist kein reiner Denkprozess. Es ist eine chaotische Schleife aus dem Sammeln von Ergebnissen, dem Entfernen von Störungen, der Wahl des nächsten Schritts und der Aktualisierung einer Arbeitshypothese. Die Positionierung des offiziellen Modells spiegelt diese Verschiebung wider. GPT-5.4 wird explizit als stark bei der Computernutzung und beim Schreiben von Code zur Bedienung von Computern mit Hilfe von Bibliotheken wie Playwright dargestellt, während Claude Sonnet 4.6 als stärker als frühere Sonnet-Modelle in den Bereichen Codierung, Computernutzung, Denken in langen Kontexten und Agentenplanung dargestellt wird. Bei Gemini 3.1 Pro geht es um die verbesserte Nutzung von Werkzeugen, mehrstufige Aufgaben und agentenbasiertes Kodieren mit einem Kontextfenster mit 1 Million Token. Diese Fähigkeiten sind zwar kein Beweis für echte Pentest-Leistung, aber sie entsprechen der Mechanik moderner offensiver Arbeitsabläufe. (OpenAI)

Drittens muss das Modell über lange Sitzungen hinweg kohärent bleiben. Hier geht ein überraschend großer Teil der Sicherheitsarbeit verloren. Man ist eine halbe Stunde in ein Ziel hineingeraten, hat Annahmen über den Auth-Flow, Rollengrenzen, Fehlermuster, JavaScript-Verhalten und Backend-Macken gesammelt, und das Modell beginnt plötzlich, den falschen Zweig zu optimieren, weil es die Struktur der Untersuchung praktisch vergessen hat. PentestGPT hat dies direkt als Problem des Kontextverlusts bezeichnet, und diese Diagnose gilt nach wie vor. Ein Modell mit einem größeren Kontextfenster löst dieses Problem nicht automatisch, aber es gibt dem Systementwickler mehr Spielraum, um Artefakte, Hypothesen und Beweise ohne Komprimierungsverlust zu erhalten. (USENIX)

Viertens muss sie mit falsch positiven Ergebnissen und schwachen Hypothesen umgehen. Hier unterscheidet sich die Arbeit im Sicherheitsbereich deutlich von der allgemeinen Unterstützung bei der Programmierung. Ein Modell, das überzeugend klingt, aber falsch ist, ist in der Softwareentwicklung teuer. Beim Pentesting ist es noch schlimmer. Es vergeudet menschliche Zeit, verbrennt Ratenlimits, erzeugt Junk-Tickets und lehrt die Teams, dem System zu misstrauen. Die Produktdokumentation von Burp AI ist hier aufschlussreich: Eine der hervorgehobenen KI-Funktionen ist die Verringerung von Fehlalarmen bei der Zugriffskontrolle, und die Plattform stellt die KI wiederholt als Mitarbeiter dar, der den Tester ergänzt, anstatt sein Urteilsvermögen zu ersetzen. Diese Designentscheidung ist kein konservatives Branding. Es ist die Erkenntnis, dass die Fehlerbehandlung für die Nützlichkeit von zentraler Bedeutung ist. (PortSwigger)

Fünftens muss es billig genug sein, um in der Schleife zu bleiben. Ein Modell, das zwar hervorragend funktioniert, aber zu teuer ist, um es über Repositories, Änderungen an der Angriffsfläche und Regressionsprüfungen hinweg einzusetzen, wird sich nicht durchsetzen. Im März 2026 listet OpenAI GPT-5.4 mit $2,50 pro Million Eingabetoken und $15 pro Million Ausgabetoken auf, während Anthropic Claude Sonnet 4.6 mit $3 und $15 pro Million Token und Google Gemini 3.1 Pro mit $2 und $12 unter 200.000 Eingabetoken auflistet, mit höheren Preisen jenseits dieser Schwelle. Die Preisgestaltung ist nicht alles, aber sie beeinflusst maßgeblich, ob sich Teams eine kontinuierliche Nutzung leisten können. (OpenAI)

Sechstens muss es Artefakte hervorbringen, mit denen man etwas anfangen kann. Das eigentliche Ergebnis von Pentesting sind keine "interessanten Gedanken". Es handelt sich um validierte Ergebnisse, unterstützende Beweise, Anleitungen für Abhilfemaßnahmen und häufig um die Bestätigung von Wiederholungstests. Das ist der Grund, warum ausgereifte Systeme eher auf mehrstufige Pipelines als auf reinen Chat setzen. Das beste Modell für Pentesting ist dasjenige, das in einer Schleife sitzt, die beobachten, entscheiden, verifizieren und erklären kann. Ohne diese Schleife ist selbst ein starkes Modell nur ein cleverer Assistent.

Was die Forschung sagt, wenn man den Hype ignoriert

Die akademische Literatur ist in den letzten zwei Jahren viel nützlicher geworden, weil sie aufgehört hat zu fragen, ob LLMs überhaupt helfen können, und angefangen hat zu fragen, wo sie helfen, wo sie versagen und wie das Systemdesign diese Fehler kompensiert.

PentestGPT war ein Wendepunkt, weil es automatisiertes Pentesting als ein Problem der strukturierten Zusammenarbeit und nicht als ein Problem der Eingabeaufforderung in einer einzigen Sitzung darstellte. In der Arbeit wurde ein Benchmark erstellt, der auf realen Zielen von Plattformen wie Hack The Box und VulnHub basiert und 13 Ziele, 182 Teilaufgaben, 26 Kategorien und 18 CWE-Elemente umfasst. Die Autoren fanden heraus, dass LLMs bei einigen Teilaufgaben fähig waren, aber Schwierigkeiten mit langfristiger Planung, Kontexterhaltung und koordinierter Entscheidungsfindung hatten. Ihr Drei-Module-Design, das die Bereiche Argumentation, Generierung und Parsing trennt, verbesserte die Ergebnisse erheblich und zeigte, dass die Wahl des Designs ebenso wichtig sein kann wie die Qualität des Modells. (USENIX)

AutoPenBench erweiterte die Diskussion in eine andere Richtung. Statt die Frage zu stellen, ob ein maßgeschneiderter Agent eine Handvoll attraktiver Demos lösen kann, wurde ein offener Benchmark mit 33 Aufgaben erstellt, die von Bildungsübungen bis hin zu echten anfälligen Systemen mit CVEs reichen, wobei MCP-Integration und meilensteinbasierte Bewertung zum Einsatz kamen. Das Ergebnis war ernüchternd und nützlich zugleich: Vollständig autonome Agenten erreichten 21 Prozent Erfolg, während Agenten mit menschlicher Unterstützung 64 Prozent erreichten. Dieses Ergebnis sollte die Art und Weise ändern, wie Teams jede autonome Pentesting-Demo interpretieren, die sie sehen. Die richtige Lektion ist nicht, dass KI versagt hat. Die richtige Lektion ist, dass ein von Menschen geführter modularer Einsatz im Moment der praktische Weg ist. (ACL-Anthologie)

Das später veröffentlichte PentestEval ist sogar noch unverblümter. Darin wurden neun LLMs und mehrere spezialisierte Pentesting-Tools in sechs unterteilten Phasen des Arbeitsablaufs bewertet. Die Forscher berichteten über eine allgemein schwache Leistung auf Stufenebene, wobei die Entscheidungsfindung bei Angriffen und die Generierung von Exploits bei etwa 25 Prozent Erfolg lag und die autonomen End-to-End-Methoden schlecht abschnitten. In ihrem Setup erreichte PentestGPT 39 Prozent Erfolg bei manueller Ausführung und 31 Prozent bei Automatisierung, während vollständig autonome Agenten wie PentestAgent und VulnBot deutlich schlechter abschnitten. Man muss nicht jede Design-Entscheidung in diesem Papier akzeptieren, um die wichtigste operative Wahrheit zu erkennen: Autonomie ist genau dort brüchig, wo offensive Arbeit mehrdeutig, verzweigt und folgenreich wird. (arXiv)

Anders ausgedrückt: Die besten aktuellen Beweise deuten auf eine eindeutige Schlussfolgerung hin. Das "beste KI-Modell für Pentesting" ist nicht dasjenige, das den auffälligsten Befehl oder die längste Erklärung schreibt. Es ist das Modell, das sich am wenigsten verschlechtert, wenn der Arbeitsablauf lang wird, die Beweise unübersichtlich werden und der nächste Schritt nicht offensichtlich ist. Aus diesem Grund sind die Argumentation in einem langen Kontext, die Zuverlässigkeit der Werkzeuge und die Fehlerkorrektur wichtiger als Anekdoten in den sozialen Medien darüber, welches Modell sich schlauer anfühlt.

AI Hacker Tool kostenlos ausprobieren >>

GPT-5.4, das stärkste Operator-Modell der Gruppe

OpenAIs eigene Positionierung von GPT-5.4 ist ungewöhnlich relevant für die Sicherheitsarbeit. Das Unternehmen hebt ausdrücklich die Leistung bei der Computernutzung hervor und fordert das Schreiben von Code zur Bedienung von Computern mit Bibliotheken wie Playwright sowie das Reagieren auf Screenshots mit Maus- und Tastaturaktionen. In den API-Dokumenten wird auch ein Kontextfenster mit etwa 1.050.000 Token und 128.000 maximalen Ausgabe-Token aufgeführt. Dies sind keine generischen Lifestyle-Funktionen. Sie entsprechen direkt den Arten von Browser-Automatisierung, Schnittstellenuntersuchung, zustandsorientierter Navigation und werkzeuggesteuerten Schleifen, die immer häufiger in autorisierten Web- und Produktsicherheitstest-Workflows eingesetzt werden. (OpenAI)

Das macht GPT-5.4 besonders attraktiv, wenn die mit dem Pentesting verbundene Aufgabe nicht nur darin besteht, "dieses Ziel zu ermitteln", sondern "eine Umgebung zu steuern". Denken Sie an die Erkundung authentifizierter Anwendungen, mehrstufige Kontoworkflows, die Reproduktion von Berechtigungsgrenzen, die Inspektion clientseitiger Zustände oder die Instrumentierung von Regressionstests gegen neu eingeführte Oberflächen. In diesen Fällen ist die Fähigkeit, Automatisierungscode zuverlässig zu schreiben und anzupassen, ebenso wichtig wie das Gespür für Schwachstellen. GPT-5.4 scheint hier am stärksten zu sein, da OpenAI nun explizit auf diese Operator-ähnliche Schleife optimiert ist und nicht nur auf statische Code-Vervollständigung. (OpenAI)

Der Nachteil ist, dass GPT-5.4 offensichtlich nicht die beste Standardlösung für den täglichen Gebrauch eines jeden Sicherheitsingenieurs ist. Viele Pentesting-Tätigkeiten sind eher repository-, notiz- oder reportlastig als browserlastig. Wenn Ihre Haupttätigkeit darin besteht, eine weitläufige Codebasis zu überprüfen, frühere Ergebnisse zu vergleichen, Architekturdokumente zu lesen und Schlussfolgerungen über sehr große Beweisbündel zu ziehen, bietet Ihnen GPT-5.4 möglicherweise keinen entscheidenden Vorteil gegenüber Claude Sonnet 4.6. Es ist auch nicht die billigste Option, wenn Sie vorhaben, es für weitreichende Aufgaben ständig in der Schleife zu halten. Der von OpenAI angegebene Preis ist für ein Frontier-Modell wettbewerbsfähig, aber Sicherheitsteams, die eine kontinuierliche Analyse über viele Artefakte hinweg durchführen, werden die Kosten dennoch spüren. (OpenAI)

Am besten lässt sich GPT-5.4 wie folgt beschreiben: Es ist die beste Wahl, wenn ein Modell sich wie ein anpassungsfähiger technischer Operator verhalten soll. Es ist weniger überzeugend als universelles "ein Modell für jede Sicherheitsaufgabe", als vielmehr das Modell, das man wählt, wenn der Arbeitsablauf Interaktion, Automatisierung und aktive Ausführung unter Leitplanken beinhaltet.

Claude Sonnet 4.6, die beste Einzelvorgabe für die meisten Sicherheitstechniker

Claude Sonnet 4.6 ist das Modell, das ich derzeit als beste Standardlösung für die meisten Pentesting-bezogenen Aufgaben empfehlen würde. Das liegt nicht daran, dass Anthropic behauptet, es gewinne jeden Benchmark. Jeder Frontier-Anbieter behauptet dies in irgendeiner Form. Der Grund dafür ist, dass das öffentliche Funktionsprofil des Modells ungewöhnlich gut auf die tatsächliche Struktur der Sicherheitstechnik abgestimmt ist: Kodierung, Computernutzung, Argumentation in langen Kontexten, Agentenplanung und ein Kontextfenster mit 1 Mio. Token, und das alles zu einem Preis, der für den häufigen Gebrauch machbar ist. Anthropic empfiehlt Sonnet 4.6 ausdrücklich für die meisten KI-Anwendungen, die ein Gleichgewicht zwischen fortgeschrittenen Fähigkeiten und Kosteneffizienz benötigen. (Anthropisch)

Warum ist das beim Pentesting wichtig? Weil die meiste echte Sicherheitsarbeit weder eine reine Operatoraufgabe noch eine reine Schreibaufgabe ist. Sie liegt irgendwo dazwischen. Sie lesen Code, vergleichen Anwendungszustände, analysieren Protokolle und Dokumentationen, erkennen Störungen der Vertrauensgrenzen, entscheiden, welcher Zweig einer Untersuchung eine weitere Stunde verdient, und wandeln das Ergebnis in etwas um, das ein anderer Mensch verifizieren kann. Sonnet 4.6 ist als Standardlösung am besten geeignet, weil es keinen harten Kompromiss zwischen Codeverständnis, Kontext für lange Sitzungen und allgemeiner professioneller Workflow-Qualität erzwingt. Die öffentlichen Empfehlungen, die auf der Anthropic-Seite hervorgehoben werden, kehren immer wieder zu demselben Thema zurück: große Codebasen, schwierige Fehlersuche, Aufgaben mit langem Zeithorizont, weniger Tool-Fehler und ein gutes Preis-Leistungs-Verhältnis. Erfahrungsberichte von Anbietern sind keine neutrale Wissenschaft, aber die Konsistenz der Anwendungsfälle ist aufschlussreich. (Anthropisch)

Es gibt noch einen weiteren Grund, warum Sonnet 4.6 gut zur Sicherheitsarbeit passt: Die besten aktuellen Forschungsergebnisse deuten darauf hin, dass sich der Wert von teilweiser Autonomie und menschlicher Überwachung konzentriert, und die jüngste Positionierung von Claude ist sehr stark in genau dieser Richtung. Das AutoPenBench-Ergebnis von 64 Prozent für menschengestützte Agenten im Vergleich zu 21 Prozent für vollständig autonome Agenten ist im Grunde ein Argument für hochwertige Zusammenarbeit statt blinder Delegation. Die Kombination von Sonnet 4.6 aus langem Kontext, kontrolliertem Argumentationsaufwand und umfassender Workflow-Fließfähigkeit macht es zu einem sehr starken Kollaborationsmodell. Es ist das Modell, das ich bei der Prüfung einer großen internen Anwendung, beim Lesen eines generierten Client-Pakets, bei der Überprüfung der Autorisierungslogik oder bei der Umwandlung von rohen Beweisen in eine glaubwürdige Darstellung der Ergebnisse öffnen würde. (ACL-Anthologie)

Seine Schwäche ist nicht so sehr die Fähigkeit, sondern die Spezialisierung. Wenn Ihr Arbeitsablauf von hochgradig interaktiven Browser- oder Desktop-Automatisierungen dominiert wird, bietet Ihnen GPT-5.4 möglicherweise mehr Möglichkeiten. Wenn Ihr Unternehmen bereits tief im Google-Ökosystem verankert ist und riesige multimodale Korpora in großem Umfang bearbeitet, ist Gemini 3.1 Pro vielleicht wirtschaftlich besser geeignet. Aber wenn Sie mich zwingen, die ursprüngliche Frage in einer einzigen Zeile zu beantworten, ist Claude Sonnet 4.6 die beste Lösung. einzeln KI-Modell für Pentesting-nahe Arbeiten im Jahr 2026, weil es am schwierigsten ist, eine Standardisierung zu bedauern.

Gemini 3.1 Pro, die stärkste Wahl für riesige Beweisbündel

Gemini 3.1 Pro verdient in Sicherheitskreisen mehr Respekt, als es normalerweise erhält. Google DeepMind positioniert es mit fortgeschrittenem logischen Denken, multimodalem Verständnis, verbesserter Werkzeugnutzung, gleichzeitigen mehrstufigen Aufgaben und starkem agentenbasierten Kodierungsverhalten. In den Entwicklerdokumenten von Google wird auch etwas sehr Relevantes für Sicherheitsteams erwähnt: ein Eingabe-Limit von 1.048.576 Token, 65.536 Ausgabe-Token, Unterstützung für Code-Ausführung, Funktionsaufrufe, strukturierte Ausgaben, Sucherdung, URL-Kontext und PDF-Eingabe. Diese Kombination von Fähigkeiten macht Gemini besonders interessant für Fälle, in denen das "Ziel" nicht nur eine App oder ein Repo ist, sondern ein Haufen von Dokumenten, Diagrammen, PDFs, Screenshots, Protokollen und Codefragmenten, die alle in einem Arbeitsrahmen zusammengehalten werden müssen. (Google DeepMind)

Das ist wichtiger, als viele Menschen denken. Ein Großteil der Sicherheitsarbeit in ausgereiften Umgebungen besteht aus der Synthese von Beweisen. Sie lesen Architekturnotizen, Jira-Exporte, frühere Pentest-Ergebnisse, Bereitstellungsmanifeste, KI-Konfigurationen, API-Spezifikationen und Paketaufzeichnungen und versuchen dann, eine engere Frage zur Ausnutzbarkeit, zu den Berechtigungsgrenzen oder zu den geschäftlichen Auswirkungen zu beantworten. Bei dieser Art von Arbeitsbelastung kann ein langer Kontext plus multimodale Handhabung plus anständiger Tool-Einsatz ein Modell schlagen, das bei der rohen Codegenerierung geringfügig besser ist. Das Preisprofil von Gemini ist auch für groß angelegte Analysen attraktiv, insbesondere auf der unteren Input-Ebene. (Google AI für Entwickler)

Der Grund, warum Gemini 3.1 Pro nicht meine erste Wahl ist, ist nicht, dass es schwach ist. Der Grund ist, dass sich das öffentlich sichtbare Sicherheits-Ökosystem für die täglichen Pentesting-Workflows noch nicht so stark auf Claude für kollaborative Programmierarbeit oder GPT-ähnliche Modelle für operatorähnliche Automatisierung konzentriert hat. Das kann sich ändern. Offizielle Materialien betonen bereits den verbesserten Einsatz von Tools und agentenbasierter Codierung, und die Methodikseite von Google zeigt, dass das Unternehmen ernsthaft über Funktionsaufrufe nachdenkt. Aber im März 2026 scheint dies immer noch die beste Option zu sein, wenn die Arbeitslast ungewöhnlich groß, heterogen und dokumentenlastig ist, und noch nicht der natürlichste Standard für ein einzelnes Modell für den durchschnittlichen Sicherheitsingenieur. (Google DeepMind)

Wenn Ihr Team mehr Zeit damit verbringt, riesige Bündel von Beweisen zu triagieren, als aktiv Schnittstellen voranzutreiben, kann Gemini tatsächlich die beste Lösung sein. Bei der Validierung von Cloud-Vorfällen, architekturlastigen Sicherheitsüberprüfungen oder KI-Agenten-Oberflächenbewertungen mit riesigen Prompt-, Tool- und Laufzeit-Artefakten werden die dokumenten- und multimodalen Stärken des Modells sehr praktisch.

AI Hacker Tool kostenlos ausprobieren >>

Ein Modell ist kein Pentester, und der Markt beweist es

Eines der deutlichsten Signale in diesem Bereich ist, dass bei den interessantesten Produkten immer deutlicher wird, wo das Modell endet und das System beginnt.

Burp AI ist ein gutes Beispiel, weil PortSwigger eine sehr pragmatische Haltung eingenommen hat. In den offiziellen Unterlagen heißt es, dass Burp AI den Testern hilft, Schwachstellen effizienter aufzudecken, komplexe Webtechnologien zu verstehen und die Einrichtung der Authentifizierung zu vereinfachen, aber in der Produktmitteilung wird immer wieder betont, dass der Anwender die Kontrolle behält. Die Funktionen, auf die es ankommt, sind nicht mystisch. Sie sind praktisch: KI in Repeater, autonome Problemerkennung, Erklärungen zu unbekannten Technologien, Verringerung von Fehlalarmen bei nicht funktionierenden Zugangskontrollen und KI-generierte aufgezeichnete Anmeldungen. Das ist nicht "KI ersetzt Pentesting". Es heißt "KI beseitigt die Reibung in den Teilen des Pentestings, die Zeit kosten." (PortSwigger)

Aardvark von OpenAI, jetzt Codex Security, erzählt eine ähnliche Geschichte von der Seite der Codesicherheit. Sein Arbeitsablauf umfasst Repository-Analyse, Bedrohungsmodellierung, Commit-Scanning, isolierte Validierung und Patch-Generierung. Das Schlüsselwort dabei ist Validierung. Das System begnügt sich nicht damit, ein Muster zu erkennen. Es versucht, die Ausnutzbarkeit in einer Sandbox-Umgebung zu bestätigen und Beweise für die Überprüfung zu liefern. Diese architektonische Entscheidung deckt sich nahezu perfekt mit dem, was sich Sicherheitsingenieure seit Jahren von KI wünschen: weniger Spekulationen, mehr Beweise. (OpenAI)

XBOW und NodeZero weisen auf der Seite der Angriffsplattform das gleiche Muster auf. XBOW versteht sich als autonome, offensive Sicherheitsplattform, die Angriffspfade erforscht und potenzielle Erkenntnisse durch reale Ausnutzung unabhängig validiert. NodeZero legt den Schwerpunkt auf die Verkettung von Angriffspfaden, kontinuierliche Tests und beweisgestützte Abhilfemaßnahmen. Unabhängig davon, ob Sie diese Plattformen übernehmen oder nicht, zeigen sie, wo der Markt einen dauerhaften Wert sieht. Er liegt nicht allein in der Chat-Qualität. Er liegt in geführter Erkundung, Verkettung, Beweisführung und Wiederholbarkeit. (Xbow)

Sobald Sie dieses Muster erkennen, ist die ursprüngliche Frage leichter zu beantworten. Es ist wichtig, das beste KI-Modell für das Pentesting auszuwählen. Aber die Wahl des falschen Systemdesign Fragen mehr.

Die derzeit beste Antwort, je nach Arbeitsablauf

Am einfachsten ist es, die Wahl des Modells der Art von Sicherheitsaufgaben zuzuordnen, die Sie am häufigsten durchführen.

Arbeitsablauf	Beste Passform	Warum es gewinnt
Überprüfung großer Codebasen, Analyse der Autorisierungslogik, repo-weite Sicherheitsüberlegungen	Claude Sonett 4.6	Beste Gesamtbalance zwischen langem Kontext, Kodierungsqualität und kollaborativer Argumentation
Browsergesteuerte Produkttests, Schnittstellenautomatisierung, mehrstufige Bedienerschleifen	GPT-5.4	Stärkstes explizites Computer-Nutzungs- und Automatisierungsprofil
Riesige Evidenzbündel, PDFs, multimodale Materialien, architekturlastige Überprüfung	Gemini 3.1 Pro	Ausgezeichneter Mix aus großen Kontexten und multimodalen Fähigkeiten
Autonome oder teilautonome Sicherheitsplattform in Produktionsqualität	Geführter Multimodell-Stapel	Sowohl die Forschung als auch der Markt sprechen sich für modulare Systeme gegenüber autonomen Einzelmodellen aus

Bei der obigen Tabelle handelt es sich um eine Einschätzung auf der Grundlage aktueller offizieller Dokumente, öffentlicher Benchmarks und der Architektur führender Sicherheitsprodukte, nicht um ein universelles Gesetz. Diese Unterscheidung ist wichtig, weil sich die "beste" Antwort je nach Aufgabe ändert. Ein Solo-Web-Tester, der authentifizierte Abläufe in Burp durchführt, mag rationalerweise GPT-5.4 für hochgradig interaktive Aufgaben bevorzugen und dann zu Claude für die Erstellung von Berichten und die Codeüberprüfung wechseln. Ein Cloud-Sicherheitsteam, das sich mit Dokumenten und Richtlinien beschäftigt, kann Gemini für die Synthese umfangreicher Beweise bevorzugen, während es für die Exploit-Logik ein anderes Modell verwendet. Die Gefahr besteht nicht darin, sich anders zu entscheiden. Gefährlich ist die Annahme, dass die allgemeine Reputation eines Modells automatisch auf jede Pentesting-Aufgabe übertragen wird. (OpenAI)

CVEs, die zeigen, was ein gutes Pentesting-Modell eigentlich tun sollte

Eine sinnvolle Methode zur Bewertung von KI für die Sicherheitsarbeit besteht darin, nicht mehr zu fragen, ob sie "Schwachstellen kennt", sondern ob sie dabei hilft, die richtigen Entscheidungen in Bezug auf echte Schwachstellen zu treffen.

Nehmen Sie Log4Shell, CVE-2021-44228. Die Schwachstelle in Log4j 2 ermöglichte die Ausführung von Remotecode, wenn vom Angreifer kontrollierte Protokolldaten unter anfälligen Konfigurationen JNDI-Lookups auslösten. Jedes Modell kann heute die Schlagzeile rezitieren. Die schwierigere Frage ist, ob das Modell dabei helfen kann, die transitive Exposition zu verfolgen, zu erkennen, wo der Protokollierungspfad tatsächlich vom Angreifer beeinflusst wird, betroffene von nicht betroffenen Versionen und Konfigurationen zu unterscheiden und Abhilfeanleitungen zu erstellen, die dem tatsächlichen Einsatz entsprechen. Das ist ein Problem des Kontextes und der Abhängigkeiten, kein triviales Problem. (NVD)

Erwägen Sie CVE-2024-3400 in PAN-OS. NVD beschreibt es als eine Befehlsinjektionsschwachstelle, die aus der Erstellung beliebiger Dateien in GlobalProtect resultiert und es einem nicht authentifizierten Angreifer ermöglichen kann, beliebigen Code mit Root-Rechten auszuführen, aber nur für bestimmte PAN-OS-Versionen und bestimmte Funktionskonfigurationen. Diese Konditionalität ist genau die Art von Detail, die ein nützliches Modell korrekt durchdenken muss. Die Aufgabe besteht nicht darin, zu sagen "kritischer RCE". Die Aufgabe besteht darin, dem Techniker dabei zu helfen, die Vorbedingungen für die Exposition zu überprüfen, festzustellen, wo die Funktion aktiviert ist, und die betroffenen Bereiche von den nicht betroffenen Bereichen zu trennen, ohne eine Panik zu verursachen. (NVD)

Jetzt schauen Sie sich CVE-2025-0282 in Ivanti Connect Secure. NVD beschreibt es als einen stapelbasierten Pufferüberlauf, der die Ausführung von nicht autorisiertem Remote-Code für bestimmte Ivanti-Produkte und -Versionen ermöglicht. Dies ist die Art von Problem, bei der ein Sicherheitsteam ein Modell benötigt, das schnell eine Verbindung zwischen dem Anlagenbestand, der Internet-Exposition, den Versionsnachweisen und dem wahrscheinlichen Explosionsradius herstellen kann, um dann bei der Validierung und Bestätigung nach dem Patch zu helfen. Das Problem ist teilweise technisch und teilweise organisatorisch bedingt. Ein gutes Modell verkürzt die Zeit von der Beratung bis zur verifizierten Prioritätensetzung. (NVD)

Das Gleiche gilt für CVE-2025-53770in der NVD feststellt, dass Microsoft von der Ausnutzung eines SharePoint Server-Deserialisierungsproblems, das die Ausführung von nicht autorisiertem Netzwerkcode ermöglicht, und von CVE-2026-20127in dem CISA und NVD eine Umgehung der Authentifizierung in Cisco Catalyst SD-WAN Controller und Manager beschreiben, die es einem nicht authentifizierten Angreifer ermöglichte, administrative Rechte zu erlangen, und die aktiv ausgenutzt wurde. Dies sind die Momente, in denen sich ein starkes Modell bezahlt macht. Es sollte den Sicherheitsingenieuren dabei helfen, von der Überschrift "Schweregrad" zur konkreten Überprüfung überzugehen: Sind wir gefährdet, wo sind wir gefährdet, was ist über das Internet erreichbar, was hat sich nach der Schadensbegrenzung geändert, und welche Beweise können wir für Führung und Betrieb aufbewahren. (NVD)

Das ist der Maßstab, den ich bei der Bewertung jedes Modells für Pentesting anwenden würde. Es geht nicht darum, ob es CVE aus dem Gedächtnis erklären kann, sondern darum, ob es einem echten Team helfen kann, die Unsicherheit schneller zu verringern, als es das ohne Modell könnte.

Bestes AI-Modell für Pentesting

AI Hacker Tool kostenlos ausprobieren >>

Wie eine interne Bewertung aussehen sollte

Wenn Ihr Team es mit der Wahl eines Modells ernst meint, sollten Sie keine Prompt-Schlachten in den sozialen Medien kopieren. Erstellen Sie einen kleinen, sicheren internen Benchmark für Ihre eigenen autorisierten Arbeitsabläufe. Berücksichtigen Sie Aufgaben wie die Triage von Repositories, die Prüfung authentifizierter Datenflüsse, die Filterung falsch-positiver Ergebnisse, die Erstellung von Abhilfemaßnahmen und die Erklärung von Angriffspfaden. Bewerten Sie dann die Genauigkeit, die Zuverlässigkeit des Tools, die Qualität der Beweise und die eingesparte Zeit.

Ein guter Benchmark sollte Live-Exploitation vermeiden und sich auf Aufgaben konzentrieren, die Sie legal und sicher aus früheren Aufträgen, internen Labors oder absichtlich verwundbaren Anwendungen reproduzieren können. Die öffentliche Forschung befürwortet eine auf Meilensteinen basierende Bewertung gegenüber einer Alles-oder-Nichts-Bewertung, da ein Großteil des Wertes der Sicherheitsarbeit in Zwischenschritten liegt: die richtige Grenze zu finden, eine schwache Spur auszuschließen, das richtige Berechtigungsmodell zu identifizieren oder einen sauberen Beweispfad zu erstellen. (ACL-Anthologie)

Hier ist ein einfaches Muster für die Bewertung von Gurtzeugen, das sicher und tatsächlich nützlich ist:

from dataclasses import dataclass
from typing import Liste, Diktat

@dataclass
class Aufgabe:
    name: str
    artefakt_bündel: str
    erwartete_Funde: List[str]
    expected_evidence: List[str]
    expected_fix_points: List[str]

@dataclass
class ModelRun:
    model_name: str
    aufgaben_name: str
    find_score: float
    beweis_punktzahl: float
    behebungs_score: float
    halluzination_penalty: float
    werkzeug_zuverlässigkeit_score: float
    notizen: str

def weighted_score(run: ModelRun) -> float:
    return (
        0.30 * run.finding_score +
        0.25 * run.evidence_score +
        0.20 * run.remediation_score +
        0.20 * run.tool_reliability_score -
        0,15 * run.hallucination_penalty
    )

def rank_models(runs: List[ModelRun]) -> Dict[str, float]:
    totals = {}
    counts = {}
    for run in runs:
        totals[run.model_name] = totals.get(run.model_name, 0.0) + weighted_score(run)
        counts[run.model_name] = counts.get(run.model_name, 0) + 1
    return {m: round(totals[m] / counts[m], 3) for m in totals}

# Beispielaufgaben
tasks = [
    Aufgabe(
        name="Auth flow regression review",
        artifact_bundle="sanitized_proxy_log + route_map + code_diff",
        expected_findings=["broken access control", "role mismatch"],
        expected_evidence=["Anfragepaar", "Berechtigungslücke", "Reproschritte"],
        expected_fix_points=["Server-seitige Autorisierungsprüfung", "Testabdeckung"]
    ),
    Aufgabe(
        name="CVE-Belichtungsauswertung",
        artifact_bundle="asset_inventory + version_data + advisory_text",
        expected_findings=["betroffene Systeme", "Internetbelastung", "Prioritätsreihenfolge"],
        expected_evidence=["Versionsübereinstimmung", "Funktionsvoraussetzungen", "Abhilfestatus"],
        expected_fix_points=["Patch-Ziel", "Eindämmung", "Validierungsschritt"]
    )
]

# Nachdem jedes Modell den gleichen Benchmark-Satz absolviert hat, bewerten Sie sie mit einer menschlichen Überprüfung.

Der wichtige Teil ist nicht die Python. Der wichtige Teil ist die Rubrik. Belohne Beweise und Korrekturen. Bestrafen Sie plausiblen Unsinn. Bewerten Sie, ob das Modell innerhalb der verfügbaren Fakten bleibt. Bewerten Sie, ob es dem Prüfer geholfen hat, schneller voranzukommen, ohne das Ergebnis weniger vertrauenswürdig zu machen. Auf diese Weise wählen Sie ein Modell aus, das auch sechs Monate später noch nützlich ist, wenn der Reiz der Neuheit nachlässt.

Dies ist der Punkt, an dem eine Modelldiskussion ganz natürlich zu einer Plattformdiskussion wird. Sobald man über die Ad-hoc-Hilfe hinausgeht, geht es nicht mehr nur um die Frage: "Welches Modell liefert die intelligenteste Antwort?" Der schwierige Teil wird zur Orchestrierung. Wie bewahrt man den Kontext über verschiedene Phasen hinweg, koordiniert Werkzeuge, validiert Ergebnisse, organisiert Beweise, testet Korrekturen erneut und verwandelt alles in etwas, dem ein anderer Ingenieur vertrauen kann?

Hier passt ein System wie Penligent ganz natürlich. Penligents eigenes aktuelles Material kommt immer wieder auf dieselbe Idee zurück: Die Lücke zwischen LLM-Argumentation und Produktionssicherheitswert wird durch werkzeuggestützte Validierung, beweiszentrierte Workflows und strukturiertes Reporting geschlossen, nicht durch clevere Eingabeaufforderungen allein. Das ist auch der Grund, warum das Unternehmen in seinen jüngsten Schriften immer wieder zwischen Sicherheitsunterstützung im Chat-Stil und agentengesteuerten Validierungs-Workflows unterscheidet, die an Beweise, ATT&CK-Mapping und echte Verifizierung gebunden sind. (Sträflich)

In der Praxis bedeutet das, dass die bessere Frage für ein Team lauten könnte: "Welches Modell sollte für welche Phase unseres Sicherheits-Workflows verwendet werden, und welche Plattform gewährleistet, dass das Ergebnis überprüfbar ist?" Wenn Ihre Antwort auf diese zweite Frage schwach ist, wird Sie selbst das beste Modell enttäuschen. Wenn Ihre Antwort stark ist, kann ein unvollkommenes Modell immer noch einen großen Wert schaffen.

Die unbequeme Wahrheit: Kein Modell ist allein ausreichend

Die wichtigste Schlussfolgerung aus den derzeitigen Erkenntnissen ist nicht, dass ein Anbieter das autonome Pentesting gelöst hat. Es ist vielmehr so, dass die Branche immer besser erkennt, wo Modelle hilfreich sind und wo sie noch versagen.

Sie sind sehr hilfreich beim Verstehen des Repositorys, bei der Erstellung von Hypothesen, der Zusammenfassung von Artefakten, dem Entwurf von Abhilfemaßnahmen, der Automatisierung auf niedriger Ebene und der Organisation von Beweisen. Sie helfen weniger, wenn sie gezwungen sind, lange, sich verzweigende, offensive Arbeitsabläufe ohne Struktur, Speicherdisziplin oder Validierung zu verwalten. Noch weniger helfen sie, wenn Teams Vertrauen mit Genauigkeit gleichsetzen. Die Forschungsergebnisse zu diesem Punkt sind eindeutig. PentestGPT zeigte die Bedeutung von Modularität und Kontextmanagement. AutoPenBench zeigte den Wert menschlicher Unterstützung. PentestEval hat gezeigt, dass die Schwächen der einzelnen Stufen sich noch verstärken, wenn sie in die vollständige Autonomie gedrängt werden. (USENIX)

Deshalb bauen die besten Teams im Jahr 2026 zunehmend KI-Sicherheits-Workflows auf, die auf einigen wenigen stabilen Ideen beruhen: explizite Aufgabenzerlegung, deterministischer Einsatz von Tools, Erfassung von Beweisen, isolierte Validierung und menschliche Überprüfung an den Stellen, an denen die Kosten eines Fehlers hoch sind. Das Modell ist immer noch sehr wichtig. Aber das beste KI-Modell für Pentesting wird jetzt besser verstanden als das beste Komponente in einem disziplinierten offensiven Arbeitsablauf, nicht der magische Ersatz für einen solchen.

Bestes AI-Modell für Pentesting

AI Hacker Tool kostenlos ausprobieren >>

Endgültiges Urteil

Was ist nun das beste KI-Modell für Pentesting?

Für die meisten Sicherheitsingenieure ist die beste Einzelantwort Claude Sonett 4.6. Es bietet das beste Gesamtgleichgewicht zwischen Code-Verständnis, kontextübergreifender Argumentation, Qualität des kollaborativen Workflows und nachhaltigen Kosten. Es ist das einfachste Modell, das man als Standard empfehlen kann, wenn man nur eine Antwort braucht und eine möglichst breite Alltagstauglichkeit anstrebt. (Anthropisch)

Wenn Ihre Arbeit eher interaktiv und bedienerorientiert ist, insbesondere im Bereich der Browser-Automatisierung, der mehrstufigen Anwendungsnavigation und der toolgesteuerten Ausführungsschleifen, GPT-5.4 ist der stärkste Spezialist. Es ist das Modell, das ich wählen würde, wenn ich möchte, dass die KI fährt und sich anpasst und nicht nur liest und denkt. (OpenAI)

Wenn Ihre Arbeit mit sehr großen Datensätzen, PDFs, Architekturdokumenten, Protokollen und multimodaler Überprüfung zu tun hat, Gemini 3.1 Pro ist leistungsfähiger, als viele Sicherheitsteams annehmen, und kann für diese Arbeitslasten die wirtschaftlichste Wahl sein. (Google DeepMind)

Und wenn Sie ein internes oder kommerzielles Pentest-System aufbauen, ist die beste Antwort überhaupt kein einzelnes Modell. Es ist eine Routing-Architektur mit deterministischen Werkzeugen, Validierungstoren und menschlicher Überprüfung, wo es darauf ankommt. Das sagt die Forschung. Die besten aktuellen Produkte sagen das. Die Erfahrung sagt das. (OpenAI)

Weitere Lektüre

OpenAI, Einführung in GPT-5.4 und Vorstellung von Aardvark, dem agentenbasierten Sicherheitsforscher von OpenAI. (OpenAI)

Anthropisch, Claude Sonett 4.6 und die offizielle Preisdokumentation. (Anthropisch)

Google DeepMind und Google AI für Entwickler, Gemini 3.1 Pro Modelldokumente und Preise. (Google DeepMind)

USENIX Sicherheit 2024, PentestGPT, Evaluierung und Nutzung großer Sprachmodelle für automatisierte Penetrationstests. (USENIX)

EMNLP-Industrie 2025, AutoPenBench, ein Benchmark für Schwachstellentests für generative Agenten. (ACL-Anthologie)

PentestEval, Benchmarking LLM-basierter Penetrationstests mit modularem und stufenweisem Design. (arXiv)

PortSwigger, Rülpsen AI Dokumentation und Produktseite. (PortSwigger)

Penibel, Pentest KI-Tools im Jahr 2026 - Was funktioniert, was geht kaputt?. (Sträflich)

Penibel, PentestGPT vs. Penligent AI in realen Einsätzen Von LLM Writes Commands zu verifizierten Befunden. (Sträflich)

Penibel, MITRE ATT&CK Framework, Die praktische Anwendung im Jahr 2026 Security Engineering. (Sträflich)

Teilen Sie den Beitrag:

PyTorch Lightning Supply Chain Attack

The PyTorch Lightning supply chain attack was not a typo-squatting scare, a fake package trick, or a theoretical package hygiene

Copy Fail CVE-2026-31431, A Linux Kernel Bug That Turns Page Cache Into Root

Copy Fail is CVE-2026-31431, a Linux kernel local privilege escalation flaw in the authencesn cryptographic template. The public disclosure describes

Bestes KI-Modell für Pentesting, was Sicherheitsingenieure im Jahr 2026 tatsächlich nutzen sollten

Warum diese Frage schlecht beantwortet wird

Was ein Pentesting-Modell wirklich können muss

Was die Forschung sagt, wenn man den Hype ignoriert

GPT-5.4, das stärkste Operator-Modell der Gruppe

Claude Sonnet 4.6, die beste Einzelvorgabe für die meisten Sicherheitstechniker

Gemini 3.1 Pro, die stärkste Wahl für riesige Beweisbündel

Ein Modell ist kein Pentester, und der Markt beweist es

Die derzeit beste Antwort, je nach Arbeitsablauf

CVEs, die zeigen, was ein gutes Pentesting-Modell eigentlich tun sollte

Wie eine interne Bewertung aussehen sollte

Die unbequeme Wahrheit: Kein Modell ist allein ausreichend

Endgültiges Urteil

Weitere Lektüre

Verwandte Beiträge

PyTorch Lightning Supply Chain Attack

Copy Fail CVE-2026-31431, A Linux Kernel Bug That Turns Page Cache Into Root