질문은 충분히 간단해 보입니다. 펜테스팅에 가장 적합한 AI 모델을 선택해서 워크플로에 연결하고 더 빠르게 진행하면 됩니다. 하지만 실제로 이 질문에는 세 가지 결정이 숨어 있습니다. 첫째, 어떤 모델을 선택할 것인가 파운데이션 모델 또는 AI 보안 제품 위에 구축되어 있나요? 둘째, 인간 테스터의 일상적인 워크플로우를 개선하려고 하나요, 아니면 엔드투엔드 공격 파이프라인을 자동화하려고 하나요? 셋째, 코드 추론, 브라우저 상호 작용, 긴 컨텍스트 리포지토리 분석 또는 반복 가능한 증거 수집에 가장 관심이 있으신가요?
이러한 구분이 중요한 이유는 대중의 대화가 시끄럽기 때문입니다. 현재 이 주제에 대해 순위를 매기는 일부 저명한 실무자 콘텐츠는 많은 'AI 보안 도구'가 실제로는 작은 기반 모델 세트를 둘러싼 포장용이라는 유용한 지적을 합니다. 동시에 독자들이 접할 수 있는 비교 기사에서는 기본 모델이 아니라 오케스트레이션, 툴링, 검증 및 보고 계층을 갖춘 운영 시스템인 XBOW, NodeZero, Burp AI와 같은 제품을 순위로 매기는 경우가 많습니다. 이 두 범주를 같은 것으로 취급하는 것은 팀이 잘못된 구매 결정과 잘못된 아키텍처 결정을 내리는 방식입니다. (Medium)
그래서 여기에 솔직한 답변이 있습니다. 오늘날 대부분의 펜테스팅 관련 작업을 위해 하나의 범용 모델을 원하는 보안 엔지니어라면 Claude Sonnet 4.6이 가장 강력한 단일 기본 선택입니다. 워크플로우가 브라우저 자동화, 컴퓨터 사용 및 도구 중심 작업자 루프에 크게 의존하는 경우 GPT-5.4가 더 나은 전문 모델입니다. 대규모 멀티모달 증거 세트, 매우 큰 문서, 비용에 민감한 대규모 컨텍스트 분석이 포함된 작업이라면 Gemini 3.1 Pro가 가장 강력한 세 번째 옵션입니다. 심각한 펜테스트 제품이나 내부 자율 시스템을 구축하는 경우에는 하나의 모델이 아니라 결정론적 도구와 명시적 검증을 갖춘 라우팅된 스택이 가장 좋은 해답입니다. 이러한 결론은 모든 문제를 해결한 것처럼 가장하는 단일 벤더 벤치마크가 아니라 공식 모델 문서, 현재 제품 패턴 및 AI 지원 펜테스팅에 대한 최고의 공개 연구를 통해 추론한 것입니다. (OpenAI)

이 질문에 대한 답변이 잘못되는 이유
인공지능과 펜테스팅에 대한 많은 글이 여전히 두 가지 실수 중 하나를 저지르고 있습니다. 첫 번째 실수는 펜테스팅을 프롬프트 작성 문제로 취급하는 것입니다. 이 경우 모델은 취약성 클래스를 설명하거나 다음 단계를 제안하거나 그럴듯해 보이는 스크립트를 생성할 수 있다면 "좋은" 모델입니다. 이는 유용하지만 누군가가 공인 보안 평가를 완료하도록 돕는 것과는 다릅니다. 진정한 펜테스팅은 모호성을 탐색하고, 깨진 가정에 적응하고, 불완전한 원격 분석을 처리하고, 여러 단계에서 컨텍스트를 유지하고, 엔지니어, 관리자, 때로는 감사자의 면밀한 조사에서 살아남을 수 있는 증거를 생성하는 것을 의미합니다.
두 번째 실수는 인상적인 데모와 안정적인 운영을 혼동하는 것입니다. 최신 AI 보안 시스템의 공개 자료는 이에 대해 매우 일관된 이야기를 들려줍니다. 현재 연구용 프리뷰로 Codex Security에 도입된 OpenAI의 Aardvark는 리포지토리를 분석하고, 위협 모델을 생성하고, 익스플로잇 가능성을 개별적으로 검증하고, 표적 수정을 제안하는 다단계 시스템으로 명시적으로 설명되어 있습니다. Burp AI는 펜테스터를 대체하는 것이 아니라 운영자가 통제권을 유지하면서 작업을 가속화하는 방법으로 판매됩니다. XBOW는 실제 익스플로잇을 통해 독립적으로 검증된 결과를 강조합니다. 노드제로는 공격 경로 연쇄와 지속적인 익스플로잇 가능성 증명을 강조합니다. 다시 말해, 생산 현실에 가장 가까운 제품들은 "한 가지 모델을 골라서 자유롭게 사용하라"고 말하지 않습니다. 모델도 중요하지만 아키텍처가 더 중요하다는 정반대의 말을 하고 있습니다. (OpenAI)
이것이 바로 가장 강력한 공개 연구가 계속해서 분해에 대한 보상을 제공하는 이유이기도 합니다. USENIX Security 2024 PentestGPT 논문에서는 구조화된 3모듈 설계가 벤치마크 대상에서 GPT-3.5보다 228.6%의 작업 완료율을 기록하는 등 순진한 모델 사용에 비해 결과가 크게 개선되었으며, 컨텍스트 손실과 장기 계획이 일반적인 채팅 스타일 상호작용의 주요 실패 지점이라는 점을 강조했습니다. AutoPenBench는 이후 완전 자율 에이전트의 성공률이 21%에 불과한 반면, 사람 지원 에이전트는 64%에 도달한 것으로 나타났습니다. 펜테스트이벌은 더 나아가 최신 LLM 전반에서 일반적으로 낮은 단계별 성능을 발견했으며, 가장 어려운 단계의 성공률은 25%에 불과하고 엔드투엔드 자율 시스템의 성능은 매우 저조한 것으로 나타났습니다. 이러한 연구 결과는 AI가 펜테스팅에 쓸모없다고 말하지 않습니다. 이기는 단위는 단일 응답이 아니라고 말합니다. 그것은 워크플로우입니다. (USENIX)
펜테스팅 모델이 실제로 잘해야 하는 것들
과대 광고를 제거하면 강력한 펜 테스트 모델은 여섯 가지를 잘 수행해야 합니다.
첫째, 높은 수준의 충실도로 코드와 구성을 읽어야 합니다. 여기에는 일반적인 코드 검토 작업뿐만 아니라 데이터 흐름, 신뢰 경계, 인증 가정 및 배포 조건을 따라야 하는 보안 추론도 포함됩니다. 실제로는 일회성 영리함보다 장기적인 컨텍스트 성능과 코드베이스 검색 품질이 더 중요한 분야입니다.
둘째, 길을 잃지 않고 도구를 다룰 수 있어야 합니다. 펜테스팅은 순수한 추론이 아닙니다. 결과물을 수집하고, 노이즈를 정리하고, 다음 단계를 선택하고, 작동 가설을 업데이트하는 지저분한 반복입니다. 공식 모델 포지셔닝은 이러한 변화를 반영합니다. GPT-5.4는 컴퓨터 사용 워크로드와 Playwright와 같은 라이브러리를 통해 컴퓨터를 작동하는 코드 작성에 강한 것으로 명시적으로 제시되며, Claude Sonnet 4.6은 코딩, 컴퓨터 사용, 긴 맥락 추론 및 에이전트 계획 전반에서 이전 Sonnet 모델보다 더 강력한 것으로 프레임워크가 짜여져 있습니다. Gemini 3.1 Pro는 향상된 도구 사용, 다단계 작업, 1백만 토큰 컨텍스트 창을 사용한 에이전트 코딩을 중심으로 포지셔닝되어 있습니다. 이러한 기능이 그 자체로 실제 펜테스트 성능을 입증하지는 않지만 최신 공격 워크플로우의 메커니즘과 일치합니다. (OpenAI)
셋째, 모델은 긴 세션 동안 일관성을 유지해야 합니다. 의외로 많은 보안 작업이 여기서 사라집니다. 인증 흐름, 역할 경계, 오류 패턴, JavaScript 동작, 백엔드 특이한 점 등에 대한 가정을 수집한 지 30분이 지나면 모델이 조사 구조를 사실상 잊어버려 갑자기 잘못된 브랜치를 최적화하기 시작합니다. PentestGPT는 이를 컨텍스트 손실 문제라고 직접 지적했으며, 이 진단은 여전히 유효합니다. 컨텍스트 창이 더 큰 모델은 이 문제를 자동으로 해결하지는 않지만, 시스템 설계자가 압축 손실 없이 아티팩트, 가설 및 증거를 보존할 수 있는 더 많은 공간을 제공합니다. (USENIX)
넷째, 오탐과 약한 가설을 관리해야 합니다. 이 부분이 보안 작업이 일반적인 코딩 지원과 크게 다른 점입니다. 소프트웨어 엔지니어링에서 설득력 있게 들리지만 틀린 모델은 비용이 많이 듭니다. 펜테스팅에서는 더 심각합니다. 사람의 시간을 낭비하고, 속도 제한을 소모하고, 정크 티켓을 만들고, 팀에게 시스템을 불신하도록 가르칩니다. Burp AI의 제품 문서에 따르면, 강조된 AI 기능 중 하나는 액세스 제어 오탐을 줄이는 것이며, 이 플랫폼은 AI를 판단을 대체하는 것이 아니라 테스터를 보강하는 협력자로서의 프레임을 반복적으로 제시하고 있습니다. 이러한 디자인 선택은 보수적인 브랜딩이 아닙니다. 오류 처리가 유용성의 핵심이라는 인식이 반영된 것입니다. (포트스위거)
다섯째, 최신 상태를 유지할 수 있을 만큼 저렴해야 합니다. 성능은 뛰어나지만 리포지토리, 공격 표면 변경, 회귀 검사를 실행하기에는 너무 비싼 모델은 기본값이 될 수 없습니다. 2026년 3월 현재 OpenAI는 GPT-5.4를 입력 토큰 100만 개당 $2.50, 출력 토큰 100만 개당 $15에, Anthropic은 클로드 소네트 4.6을 입력 토큰 100만 개당 $3, $15에, Google은 제미니 3.1 프로를 입력 토큰 20만 개 미만 $2, $12에, 그 임계치를 초과하면 더 높은 요금으로 표시하고 있습니다. 가격이 전부는 아니지만 팀이 지속적으로 사용할 수 있는지 여부에 의미 있는 영향을 미칩니다. (OpenAI)
여섯째, 사람들이 행동으로 옮길 수 있는 결과물을 만들어야 합니다. 펜테스팅의 실제 결과물은 "흥미로운 생각"이 아닙니다. 그것은 검증된 결과, 뒷받침하는 증거, 수정 지침, 그리고 종종 재테스트 확인입니다. 그렇기 때문에 성숙한 시스템은 단순한 채팅이 아닌 다단계 파이프라인으로 수렴하고 있습니다. 펜테스팅에 가장 적합한 모델은 관찰, 결정, 검증 및 설명할 수 있는 루프 안에 있는 모델입니다. 이러한 루프가 없으면 아무리 강력한 모델이라도 그저 영리한 조력자에 불과합니다.
연구 결과에 따르면, 과대 광고를 무시하면 다음과 같이 말합니다.
지난 2년 동안 학술 문헌이 훨씬 더 유용해진 것은 LLM이 도움이 될 수 있는지에 대한 질문을 멈추고 LLM이 어디에 도움이 되고, 어디에서 실패하며, 어떤 시스템 설계가 그러한 실패를 보완하는지에 대해 질문하기 시작했기 때문입니다.
펜테스트GPT는 자동화된 펜테스팅을 단일 세션 프롬프트 문제가 아닌 구조화된 협업 문제로 프레임워크화했다는 점에서 전환점이 되었습니다. 이 논문은 13개의 목표, 182개의 하위 작업, 26개의 카테고리, 18개의 CWE 항목으로 구성된 Hack The Box 및 VulnHub와 같은 플랫폼에서 가져온 실제 목표를 기반으로 벤치마크를 구축했습니다. 저자들은 LLM이 일부 하위 과제에서는 능력이 있지만 장기적인 계획, 맥락 유지, 조율된 의사 결정에는 어려움을 겪고 있다는 사실을 발견했습니다. 추론, 생성, 구문 분석을 분리한 세 가지 모듈 설계는 결과를 크게 개선했으며, 설계 선택이 모델 품질만큼이나 중요할 수 있음을 보여주었습니다. (USENIX)
오토펜벤치는 대화를 다른 방향으로 확장했습니다. 맞춤형 에이전트가 몇 가지 매력적인 데모를 해결할 수 있는지 묻는 대신, MCP 통합 및 마일스톤 기반 평가를 사용하여 교육용 연습부터 CVE가 있는 실제 취약한 시스템에 이르기까지 33개의 작업으로 구성된 개방형 벤치마크를 만들었습니다. 그 결과 완전 자율 에이전트는 21%의 성공률을 기록한 반면, 사람에 의한 에이전트는 64%의 성공률을 기록하는 등 냉정하면서도 유용한 결과를 얻었습니다. 이 결과는 팀이 모든 자율 펜테스팅 데모를 해석하는 방식을 바꿔야 합니다. 올바른 교훈은 AI가 실패했다는 것이 아닙니다. 올바른 교훈은 사람이 안내하는 모듈식 배포가 현재로서는 실용적인 방법이라는 것입니다. (ACL 선집)
나중에 발표된 PentestEval은 훨씬 더 직설적입니다. 이 보고서는 워크플로우의 6가지 세분화된 단계에 걸쳐 9개의 LLM과 여러 특수 펜테스팅 도구를 평가했습니다. 연구원들은 공격 의사 결정 및 익스플로잇 생성 성공률이 25% 정도에 그치고 엔드투엔드 자율 방식이 저조한 성능을 보이는 등 일반적으로 단계별 성능이 약하다고 보고했습니다. 연구진이 설정한 환경에서 PentestGPT는 수동 실행 시 39%, 자동화 시 31%의 성공률을 보인 반면, PentestAgent 및 VulnBot과 같은 완전 자율 에이전트는 그보다 훨씬 더 저조했습니다. 이 논문이 드러내는 주요 운영상의 진실을 인식하기 위해 모든 설계 선택을 받아들일 필요는 없습니다. 공격 작업이 모호하고, 분기되고, 중요도가 높은 경우 자율성이 여전히 취약하다는 것입니다. (arXiv)
달리 말하면, 현재 가장 좋은 증거는 강력한 결론을 가리킵니다. "펜테스팅에 가장 적합한 AI 모델"은 가장 화려한 명령이나 가장 긴 설명을 작성하는 모델이 아닙니다. 워크플로우가 길어지고 증거가 지저분해지며 다음 단계가 명확하지 않을 때 가장 성능이 저하되는 모델입니다. 그렇기 때문에 어떤 모델이 더 똑똑하다고 느끼는지에 대한 소셜 미디어의 일화보다 긴 맥락의 추론, 도구 신뢰성, 오류 수정이 더 중요합니다.
그룹 내 가장 강력한 운영자 스타일 모델인 GPT-5.4
OpenAI가 GPT-5.4를 보안 작업과 관련지어 포지셔닝한 것은 이례적입니다. 이 회사는 컴퓨터 사용 워크로드 전반에 걸친 성능을 명시적으로 강조하며, Playwright와 같은 라이브러리로 컴퓨터를 작동하는 코드 작성과 마우스 및 키보드 동작으로 스크린샷에 응답하는 것을 언급하고 있습니다. 또한 API 문서에는 약 1,050,000개의 토큰과 128,000개의 최대 출력 토큰으로 구성된 컨텍스트 창이 나열되어 있습니다. 이는 일반적인 라이프스타일 기능이 아닙니다. 이러한 기능은 브라우저 자동화, 인터페이스 탐색, 상태 저장 탐색, 도구 중심 루프와 직접 매핑되며, 공인된 웹 및 제품 보안 테스트 워크플로에 점점 더 많이 사용되고 있습니다. (OpenAI)
따라서 펜테스팅과 인접한 작업이 "이 대상에 대한 추론"이 아니라 "환경 구동"일 때 GPT-5.4가 특히 매력적입니다. 인증된 애플리케이션 탐색, 다단계 계정 워크플로, 권한 경계 재현, 클라이언트 측 상태 검사 또는 새로 도입된 서페이스에 대한 회귀 검사 계측을 생각해 보세요. 이러한 경우 자동화 코드를 안정적으로 작성하고 조정하는 능력은 취약성을 직관하는 것만큼이나 중요합니다. OpenAI가 이제 정적 코드 완성이 아닌 연산자 스타일 루프를 향해 명시적으로 최적화되고 있기 때문에 GPT-5.4는 이 부분에서 가장 강력해 보입니다. (OpenAI)
단점은 모든 보안 엔지니어가 일상적으로 사용하는 기본값으로 GPT-5.4를 사용하는 것은 아니라는 점입니다. 많은 펜테스팅 작업은 브라우저보다는 리포지토리, 노트 또는 보고서가 중심이 되는 경우가 많습니다. 가장 일반적인 작업이 방대한 코드베이스 검토, 이전 결과 비교, 아키텍처 문서 읽기, 매우 큰 증거 번들에 대한 추론이라면 GPT-5.4가 Claude Sonnet 4.6보다 결정적인 이점을 제공하지 못할 수도 있습니다. 또한 광범위한 범위의 작업을 위해 지속적으로 사용할 계획이라면 가장 저렴한 옵션도 아닙니다. OpenAI의 나열된 가격은 프론티어 모델에 비해 경쟁력이 있지만, 많은 아티팩트에 대해 지속적인 분석을 실행하는 보안 팀에게는 여전히 비용이 부담스러울 것입니다. (OpenAI)
따라서 GPT-5.4에 대해 가장 깔끔하게 생각하는 방법은 다음과 같습니다. 적응형 기술 운영자처럼 작동하는 모델을 원할 때 가장 좋은 선택입니다. 이 모델은 "모든 보안 작업에 하나의 모델"이라는 보편적인 선택보다는 워크플로에 상호 작용, 자동화 및 가드 레일 하의 능동적 실행이 필요한 경우에 적합한 모델로서 그다지 매력적이지 않습니다.
대부분의 보안 엔지니어를 위한 최고의 단일 기본값, Claude Sonnet 4.6
현재 대부분의 펜테스팅 중심 작업에 가장 적합한 범용 기본값으로 추천하고 싶은 모델은 클로드 소네트 4.6입니다. 그렇다고 해서 모든 벤치마크에서 이겼다고 주장하는 것은 아닙니다. 모든 프론티어 벤더가 그렇게 말하죠. 이 모델의 공개 기능 프로필이 코딩, 컴퓨터 사용, 긴 컨텍스트 추론, 에이전트 계획, 1백만 토큰 컨텍스트 창 등 보안 엔지니어링의 실제 질감에 이례적으로 잘 맞고 자주 사용하기에 적합한 가격대로 제공되기 때문입니다. 고급 기능과 비용 효율성의 균형이 필요한 대부분의 AI 애플리케이션에는 Sonnet 4.6을 명시적으로 권장합니다. (인류학)
이것이 펜테스팅에서 중요한 이유는 무엇일까요? 대부분의 실제 보안 작업은 순수한 운영자 작업도 아니고 순수한 작성 작업도 아니기 때문입니다. 그 중간에 위치합니다. 코드를 읽고, 애플리케이션 상태를 비교하고, 로그와 문서를 추론하고, 신뢰 경계 실패를 발견하고, 조사에 한 시간을 더 투자할 가치가 있는 지점을 결정하고, 결과를 다른 사람이 검증할 수 있는 것으로 전환해야 합니다. 코드 이해, 긴 세션 컨텍스트, 일반적인 전문 워크플로우 품질 사이에서 어려운 절충을 강요하지 않기 때문에 Sonnet 4.6이 기본값으로 가장 강력해 보입니다. Anthropic의 자체 페이지에서 강조된 공개 추천은 대규모 코드베이스, 어려운 버그 찾기, 긴 작업 시간, 적은 도구 오류, 비용 대비 강력한 성능이라는 동일한 주제로 계속 이어집니다. 공급업체의 추천은 중립적인 과학적 근거는 아니지만, 사용 사례의 일관성은 유익한 정보를 제공합니다. (인류학)
소네트 4.6이 보안 업무에 적합한 또 다른 이유가 있습니다. 현재 최고의 연구에 따르면 부분적인 자율성과 인간의 감독을 더할 때 가치가 집중되는 것으로 나타났는데, 최근 Claude의 포지셔닝은 바로 그 부분에서 매우 강세를 보이고 있습니다. 완전 자율 에이전트의 경우 21%에 그친 반면, 사람의 도움을 받는 에이전트의 경우 64%에 달하는 AutoPenBench의 결과는 맹목적인 위임이 아닌 고품질 협업에 대한 효과적인 논거를 제시합니다. Sonnet 4.6은 긴 컨텍스트, 통제된 추론 노력, 광범위한 워크플로우 유창성이 결합되어 매우 강력한 협업자 모델입니다. 대규모 내부 애플리케이션을 감사하거나, 생성된 클라이언트 번들을 읽거나, 인증 로직을 검토하거나, 원시 증거를 신뢰할 수 있는 발견 내러티브로 전환하는 동안 이 모델을 열어두고 싶었습니다. (ACL 선집)
이 솔루션의 약점은 기능이 아니라 전문성입니다. 고도의 대화형 브라우저 또는 데스크톱 자동화가 워크플로우의 주를 이룬다면 GPT-5.4가 더 많은 활용도를 제공할 수 있습니다. 조직이 이미 Google 에코시스템의 깊숙한 곳에서 대규모 멀티모달 코퍼스를 대규모로 처리하고 있다면 Gemini 3.1 Pro가 더 경제적으로 적합할 수 있습니다. 하지만 원래의 질문에 한 줄로 답하라고 강요한다면 Claude Sonnet 4.6이 최고입니다. 단일 2026년 펜테스팅 인접 작업용 AI 모델, 표준화를 후회하기 가장 어려운 모델이기 때문입니다.
대용량 증거 번들을 위한 가장 강력한 선택, Gemini 3.1 Pro
Gemini 3.1 Pro는 보안 업계에서 일반적으로 받는 것보다 더 많은 존경을 받을 만합니다. 구글 딥마인드는 고급 추론, 멀티모달 이해, 향상된 도구 사용, 동시 다단계 작업, 강력한 에이전트 코딩 동작을 중심으로 이 제품을 포지셔닝합니다. 또한 Google의 개발자 문서에는 1,048,576개의 토큰 입력 제한, 65,536개의 출력 토큰, 코드 실행, 함수 호출, 구조화된 출력, 검색 근거, URL 컨텍스트 및 PDF 입력 지원 등 보안 팀과 매우 관련이 있는 내용도 포함되어 있습니다. 이러한 기능 조합 덕분에 Gemini는 '대상'이 단순한 앱이나 리포지토리가 아니라 문서, 다이어그램, PDF, 스크린샷, 로그, 코드 조각을 모두 하나의 작업 프레임에 함께 보관해야 하는 경우에 매우 유용합니다. (구글 딥마인드)
이는 많은 사람들이 생각하는 것보다 더 중요합니다. 성숙한 환경에서 보안 작업의 대부분은 증거 종합입니다. 아키텍처 노트, Jira 내보내기, 이전 펜테스트 결과, 배포 매니페스트, CI 구성, API 사양 및 패킷 캡처를 읽은 다음 악용 가능성, 권한 경계 또는 비즈니스 영향에 대한 더 좁은 질문에 답하려고 노력합니다. 이러한 종류의 워크로드에서는 긴 컨텍스트와 멀티모달 처리, 적절한 도구 사용이 원시 코드 생성에서 약간 더 나은 모델을 능가할 수 있습니다. Gemini의 가격 프로필도 대규모 분석, 특히 낮은 입력 티어에서 매력적입니다. (개발자용 Google AI)
Gemini 3.1 Pro를 기본 1순위로 선택하지 않는 이유는 기능이 약해서가 아닙니다. 협업이 많은 코딩 작업이나 운영자와 같은 자동화를 위한 GPT 스타일 모델에서처럼 일상적인 펜테스팅 워크플로우를 위해 공개적으로 보이는 보안 에코시스템이 아직 명확하게 수렴되지 않았기 때문입니다. 이는 바뀔 수 있습니다. 공식 자료에서는 이미 개선된 도구 사용과 에이전트 코딩을 강조하고 있으며, Google의 방법론 페이지에서도 함수 호출 평가에 대해 진지하게 고민하고 있음을 알 수 있습니다. 그러나 2026년 3월 현재로서는 워크로드가 비정상적으로 크고 이질적이며 문서가 많은 경우에는 여전히 단일 모델이 최선의 옵션처럼 느껴지며, 일반 보안 엔지니어에게는 아직 가장 자연스러운 기본값이 아닙니다. (구글 딥마인드)
팀이 인터페이스를 능동적으로 구동하는 것보다 방대한 증거 묶음을 선별하는 데 더 많은 시간을 소비한다면 Gemini가 실제로 가장 적합할 수 있습니다. 예를 들어, 클라우드 인시던트 검증, 아키텍처 중심의 보안 검토 또는 프롬프트, 도구 및 런타임 아티팩트가 방대한 AI 에이전트 표면 평가에서 이 모델의 문서 및 멀티모달 강점은 매우 실용적입니다.
모델은 펜테스터가 아니며, 시장이 이를 증명하고 있습니다.
이 분야에서 가장 분명한 신호 중 하나는 가장 흥미로운 제품들이 점점 더 모델의 끝과 시스템의 시작을 명확히 하고 있다는 점입니다.
Burp AI는 매우 실용적인 입장을 취하고 있기 때문에 좋은 예입니다. 공식 문서에 따르면 Burp AI는 테스터가 취약점을 더 효율적으로 발견하고, 복잡한 웹 기술을 이해하고, 인증 설정을 간소화하는 데 도움이 된다고 하지만 제품 메시지에서는 운영자가 여전히 통제권을 가지고 있다고 반복해서 강조합니다. 중요한 기능은 신비로운 것이 아닙니다. 실용적인 기능입니다: 리피터의 AI, 자율적인 문제 탐색, 익숙하지 않은 기술에 대한 설명, 액세스 제어 실패에 대한 오탐지 감소, AI가 생성한 기록된 로그인 등 실용적인 기능입니다. 이는 "AI가 펜테스트를 대체한다"가 아닙니다. "AI가 펜테스팅에서 시간을 소모하는 부분의 마찰을 제거한다"는 것입니다. (포트스위거)
현재 코덱스 시큐리티가 인수한 OpenAI의 Aardvark는 코드 보안 측면에서 관련 이야기를 들려줍니다. 이 워크플로에는 리포지토리 분석, 위협 모델링, 커밋 스캔, 격리된 유효성 검사 및 패치 생성이 포함됩니다. 여기서 핵심 단어는 유효성 검사입니다. 이 시스템은 패턴을 발견하는 것으로 만족하지 않습니다. 샌드박스 환경에서 익스플로잇 가능성을 확인하고 검토를 위한 증거를 제공하려고 시도합니다. 이러한 아키텍처 선택은 공격 보안 엔지니어들이 수년 동안 AI에 대해 원했던 것, 즉 추측을 줄이고 증거를 강화하는 것과 거의 완벽하게 일치합니다. (OpenAI)
XBOW와 노드제로는 공격 플랫폼 측면에서 동일한 패턴을 보입니다. XBOW는 공격 경로를 탐색하고 실제 익스플로잇을 통해 잠재적 발견을 독립적으로 검증하는 자율적인 공격 보안 플랫폼으로 스스로를 정의합니다. 노드제로는 공격 경로 연쇄, 지속적인 테스트, 증거 기반 문제 해결을 강조합니다. 이러한 플랫폼을 채택하든 채택하지 않든, 시장이 생각하는 지속 가능한 가치가 어디에 있는지 보여줍니다. 그 가치는 채팅 품질에만 있는 것이 아닙니다. 이는 가이드 탐색, 연쇄, 증거 및 반복성에 있습니다. (Xbow)
이러한 패턴을 파악하면 원래 질문에 대한 답을 찾기가 더 쉬워집니다. 펜테스팅에 가장 적합한 AI 모델을 선택하는 것이 중요합니다. 하지만 잘못된 시스템 설계 더 중요합니다.
현재 가장 좋은 답변, 워크플로별
가장 간단하게 선택하는 방법은 가장 자주 수행하는 보안 작업의 종류에 모델을 매핑하는 것입니다.
| 워크플로 | 가장 적합 | 이기는 이유 |
|---|---|---|
| 대규모 코드베이스 검토, 인증 로직 분석, 리포지토리 전반의 보안 추론 | 클로드 소네트 4.6 | 긴 컨텍스트, 코딩 품질 및 협업 추론이 전반적으로 가장 잘 균형을 이룹니다. |
| 브라우저 기반 제품 테스트, 인터페이스 자동화, 다단계 작업자 루프 | GPT-5.4 | 가장 강력한 명시적 컴퓨터 사용 및 자동화 프로필 |
| 방대한 증거 번들, PDF, 멀티모달 자료, 아키텍처 중심 검토 | Gemini 3.1 Pro | 탁월한 대규모 컨텍스트 및 멀티모달 기능 조합 |
| 프로덕션급 자율 또는 반자율 보안 플랫폼 | 라우팅된 다중 모델 스택 | 연구와 시장 증거 모두 단일 모델 자율성보다 모듈형 시스템을 선호합니다. |
위의 표는 현재 공식 문서, 공개 벤치마크 및 주요 보안 제품의 아키텍처를 기반으로 한 판단 기준이며, 보편적인 법칙이 아닙니다. 이러한 구분이 중요한 이유는 "최선의" 답은 업무에 따라 달라지기 때문입니다. Burp 내에서 인증된 플로우를 수행하는 웹 테스터는 고도로 상호 작용하는 작업에는 GPT-5.4를 합리적으로 선호하고 보고서 작성 및 코드 검토에는 Claude로 전환할 수 있습니다. 문서와 정책에 파묻혀 있는 클라우드 보안팀은 대규모 증거 합성을 위해 Gemini를 선호하면서 익스플로잇 로직에는 다른 모델을 사용할 수 있습니다. 위험한 것은 다르게 선택하지 않는 것입니다. 위험한 것은 한 모델의 일반적인 평판이 모든 펜테스팅 작업에 자동으로 적용된다고 가정하는 것입니다. (OpenAI)
좋은 펜테스팅 모델이 실제로 무엇을 해야 하는지 알려주는 CVE
보안 업무에서 AI를 평가하는 유용한 방법은 '취약점을 알고 있는지'를 묻지 말고 실제 취약점에 대한 올바른 결정을 내리는 데 도움이 되는지 물어보는 것입니다.
Take Log4Shell, CVE-2021-44228. Log4j 2의 취약점은 공격자가 제어하는 로그 데이터가 취약한 구성에서 JNDI 조회를 트리거할 때 원격 코드 실행을 허용했습니다. 오늘날의 모든 모델은 이 헤드라인을 외울 수 있습니다. 더 어려운 문제는 모델이 전이적 노출을 추적하고, 로깅 경로에서 실제로 공격자의 영향을 받은 위치를 식별하고, 영향을 받은 버전과 영향을 받지 않은 버전 및 구성을 구분하고, 실제 배포와 일치하는 해결 지침을 생성하는 데 도움이 될 수 있는지 여부입니다. 이는 단순한 퀴즈 문제가 아니라 컨텍스트 및 종속성 추론 문제입니다. (NVD)
고려 사항 CVE-2024-3400 를 발견했습니다. NVD는 이 취약점을 인증되지 않은 공격자가 루트 권한으로 임의의 코드를 실행할 수 있는 GlobalProtect의 임의 파일 생성으로 인한 명령 인젝션 취약점으로 설명하지만, 특정 PAN-OS 버전 및 특정 기능 구성에 대해서만 해당됩니다. 이러한 조건은 유용한 모델이 정확하게 추론해야 하는 세부 사항입니다. 이 작업은 "중요한 RCE"라고 말하는 것이 아닙니다. 이 작업은 엔지니어가 노출 전제 조건을 확인하고, 기능이 활성화된 위치를 식별하고, 영향을 받는 자산과 영향을 받지 않는 자산을 공황 상태 없이 분리하는 데 도움이 됩니다. (NVD)
이제 다음을 살펴보십시오. CVE-2025-0282 에서 발견되었습니다. NVD는 이를 스택 기반 버퍼 오버플로로 설명하며 특정 Ivanti 제품 및 버전에 대해 원격으로 인증되지 않은 코드 실행을 허용합니다. 보안 팀이 자산 인벤토리, 인터넷 노출, 버전 증거, 폭발 가능 반경을 신속하게 연결한 다음 유효성 검사 및 패치 후 확인을 지원할 수 있는 모델이 필요한 유형의 문제입니다. 이 문제는 부분적으로는 기술적인 문제이고 부분적으로는 조직적인 문제입니다. 좋은 모델은 자문에서 검증된 우선순위 지정까지 걸리는 시간을 단축합니다. (NVD)
다음 항목도 마찬가지입니다. CVE-2025-53770에서 NVD는 Microsoft가 무단 네트워크 코드 실행을 허용하는 SharePoint Server 역직렬화 문제에 대한 야생에서의 악용을 인지하고 있었으며 CVE-2026-20127에서는 인증되지 않은 원격 공격자가 관리 권한을 획득할 수 있도록 허용하고 이를 적극적으로 악용한 Cisco Catalyst SD-WAN Controller 및 Manager의 인증 우회에 대해 설명합니다. 강력한 모델이 빛을 발하는 순간입니다. 보안 엔지니어가 헤드라인의 심각성에서 구체적인 검증으로 나아가는 데 도움이 될 것입니다: 노출되어 있는지, 어디에 노출되어 있는지, 인터넷에 접속할 수 있는 것은 무엇인지, 완화 후 무엇이 달라졌는지, 리더십과 운영을 위해 어떤 증거를 보관해야 하는지 등입니다. (NVD)
이것이 제가 펜테스팅 모델을 평가할 때 사용하는 벤치마크입니다. 메모리에서 CVE를 설명할 수 있는지 여부가 아니라 실제 팀이 이 모델이 없을 때보다 불확실성을 더 빨리 줄이는 데 도움이 되는지 여부입니다.

내부 평가의 모습
팀에서 모델을 선택하는 데 진지하게 고민하고 있다면 소셜 미디어 프롬프트 전투를 모방하지 마세요. 자체적으로 승인된 워크플로우를 중심으로 작고 안전한 내부 벤치마크를 구축하세요. 리포지토리 분류, 인증된 흐름 추론, 오탐 필터링, 치료 기록, 공격 경로 설명과 같은 작업을 포함하세요. 그런 다음 정확성, 도구 신뢰성, 증거 품질 및 시간 절약에 대해 점수를 매기세요.
좋은 벤치마크는 실제 익스플로잇을 피하고 이전 참여, 내부 연구소 또는 의도적으로 취약한 애플리케이션에서 합법적이고 안전하게 재현할 수 있는 작업에 초점을 맞춰야 합니다. 보안 작업의 많은 가치는 올바른 경계를 찾고, 약한 단서를 배제하고, 올바른 권한 모델을 식별하고, 깨끗한 증명 추적을 생성하는 등 중간 과정에 존재하기 때문에 공개 연구는 전부 아니면 전무라는 점수보다 마일스톤 기반 평가를 강력하게 지지합니다. (ACL 선집)
다음은 안전하고 실제로 유용한 간단한 평가 하네스 패턴입니다:
데이터 클래스에서 데이터 클래스 가져오기
에서 import List, Dict
데이터클래스
클래스 Task:
name: str
아티팩트_번들: str
expected_findings: List[str]
expected_evidence: List[str]
expected_fix_points: List[str]
데이터클래스
모델런 클래스:
model_name: str
task_name: str
finding_score: float
evidence_score: float
remediation_score: float
hallucination_penalty: float
tool_reliability_score: float
노트: 문자열
def weighted_score(run: ModelRun) -> float:
반환 (
0.30 * run.finding_score +.
0.25 * run.evidence_score +
0.20 * run.remediation_score +
0.20 * run.tool_reliability_score -.
0.15 * run.hallucination_penalty
)
def rank_models(runs: List[ModelRun]) -> Dict[str, float]:
totals = {}
counts = {}
런의 경우
totals[run.model_name] = totals.get(run.model_name, 0.0) + weighted_score(run)
counts[run.model_name] = counts.get(run.model_name, 0) + 1
반환 {m: round(totals[m] / counts[m], 3) for m in totals}
# 작업 예제
tasks = [
Task(
name="인증 흐름 회귀 검토",
아티팩트_번들="sanitized_proxy_log + route_map + code_diff",
expected_findings=["깨진 액세스 제어", "역할 불일치"],
expected_evidence=["요청 쌍", "권한 부여 갭", "재생 단계"],
expected_fix_points=["서버 측 인증 검사", "테스트 커버리지"], [예상_수정_점수=["서버 측 인증 검사", "테스트 커버리지"]
),
Task(
이름="CVE 노출 분류",
아티팩트_번들="자산_인벤토리 + 버전_데이터 + 권고_텍스트",
expected_findings=["영향을 받는 시스템", "인터넷 노출", "우선순위"],
expected_evidence=["버전 일치", "기능 전제 조건", "완화 상태"],
expected_fix_points=["패치 대상", "봉쇄", "유효성 검사 단계"], 예상_수정점=["패치 대상", "봉쇄", "유효성 검사 단계"])
)
]
# 각 모델이 동일한 벤치마크 세트를 완료한 후 사람이 직접 검토하여 점수를 매깁니다.
중요한 부분은 파이썬이 아닙니다. 중요한 부분은 루브릭입니다. 증거와 정정에 대해 보상하세요. 그럴듯한 헛소리는 불이익을 줍니다. 모델이 이용 가능한 사실에 머물렀는지 여부에 점수를 매깁니다. 결과의 신뢰성을 떨어뜨리지 않으면서 검토자가 더 빨리 결론을 내리는 데 도움이 되었는지 점수를 매깁니다. 이렇게 하면 참신함이 사라진 6개월 후에도 여전히 유용한 모델을 선택할 수 있습니다.
이 지점이 바로 모델 토론이 자연스럽게 플랫폼 토론으로 전환되는 지점입니다. 임시 지원을 넘어서면 어려운 부분은 더 이상 "어떤 모델이 가장 현명한 답을 제공할까?"가 아닙니다. 어려운 부분은 오케스트레이션이 됩니다. 여러 단계에 걸쳐 컨텍스트를 보존하고, 도구를 조정하고, 결과를 검증하고, 증거를 정리하고, 수정 사항을 다시 테스트하고, 모든 것을 다른 엔지니어가 신뢰할 수 있는 것으로 전환하려면 어떻게 해야 할까요?
바로 여기에 펜리전트와 같은 시스템이 자연스럽게 적합합니다. 펜리전트의 최근 자료에서도 계속 같은 아이디어로 돌아오고 있습니다. LLM 추론과 프로덕션 보안 가치 사이의 격차는 영리한 프롬프트만으로는 해소되지 않고 도구 중심의 검증, 증거 중심 워크플로, 구조화된 보고를 통해 해소된다는 것이죠. 최근의 글에서 채팅 방식의 보안 지원과 증거, ATT&CK 매핑 및 실제 검증과 연계된 에이전트 검증 워크플로를 반복해서 구분하는 이유도 바로 이 때문입니다. (펜리전트)
실질적으로 이는 팀에게 더 나은 질문이 될 수 있음을 의미합니다: "어떤 모델이 보안 워크플로우의 어느 단계를 지원해야 하며, 어떤 플랫폼이 결과를 감사할 수 있도록 보장하는가?"입니다. 두 번째 질문에 대한 답이 약하다면 아무리 좋은 모델이라도 실망스러울 것입니다. 대답이 강력하다면 불완전한 모델이라도 여전히 많은 가치를 창출할 수 있습니다.
불편한 진실, 모델만으로는 충분하지 않다는 것
현재 증거에서 가장 강력한 결론은 한 벤더가 자율 펜테스팅을 해결했다는 것이 아닙니다. 현업에서 모델이 도움이 되는 부분과 여전히 문제가 되는 부분을 식별하는 데 훨씬 더 능숙해지고 있다는 것입니다.
리포지토리 이해, 가설 생성, 아티팩트 요약, 수정 초안 작성, 낮은 수준의 자동화 및 증거 정리에 많은 도움이 됩니다. 구조, 메모리 규율 또는 검증 없이 길고 분기되는 공격적인 워크플로를 관리해야 할 때는 도움이 덜 됩니다. 팀이 자신감을 정확성으로 취급하는 경우에는 더더욱 도움이 되지 않습니다. 이 점에 대한 연구 기록은 일관성이 있습니다. PentestGPT는 모듈성과 컨텍스트 관리의 중요성을 보여주었습니다. AutoPenBench는 사람 도움의 가치를 보여주었습니다. PentestEval은 완전한 자율성을 부여했을 때 단계별 약점이 여전히 심각하게 복합적으로 작용한다는 것을 보여주었습니다. (USENIX)
그렇기 때문에 2026년 최고의 팀들은 명시적인 작업 분해, 결정론적 도구 사용, 증거 캡처, 격리된 유효성 검사, 잘못된 비용이 높은 지점에서의 인간 검토 등 몇 가지 안정적인 아이디어를 중심으로 AI 보안 워크플로를 구축하는 경우가 점점 늘어나고 있습니다. 이 모델은 여전히 매우 중요합니다. 하지만 이제 펜테스팅을 위한 최고의 AI 모델은 다음과 같이 더 잘 이해되고 있습니다. 컴포넌트 마법의 대체품이 아니라 체계적인 공격 워크플로우를 만들어야 합니다.

최종 판결
그렇다면 현재 펜테스팅에 가장 적합한 AI 모델은 무엇일까요?
대부분의 보안 엔지니어에게 가장 좋은 단 하나의 답은 클로드 소네트 4.6. 코드 이해, 긴 맥락 추론, 공동 작업 워크플로 품질 및 지속 가능한 비용의 전반적인 균형이 가장 잘 맞습니다. 하나의 답변이 필요하고 가장 광범위한 일상적 유용성을 원하는 경우 기본값으로 추천할 수 있는 가장 쉬운 모델입니다. (인류학)
특히 브라우저 자동화, 다단계 앱 탐색, 도구 기반 실행 루프와 같이 상호작용이 많고 운영자와 유사한 작업을 하는 경우 더욱 그렇습니다, GPT-5.4 는 가장 강력한 전문가입니다. 인공지능이 단순히 읽고 추론하는 것이 아니라 운전하고 적응하기를 원할 때 선택하는 모델입니다. (OpenAI)
매우 큰 규모의 증거 자료 세트, PDF, 아키텍처 문서, 로그, 멀티모달 검토를 중심으로 작업하는 경우, Gemini 3.1 Pro 는 많은 보안 팀이 생각하는 것보다 더 많은 기능을 제공하며 이러한 워크로드에 가장 경제적인 선택이 될 수 있습니다. (구글 딥마인드)
내부 또는 상업용 펜테스트 시스템을 구축하는 경우 가장 좋은 답은 단일 모델이 아닙니다. 결정론적 도구, 검증 게이트, 사람의 검토가 중요한 곳에 배치된 라우팅된 아키텍처입니다. 연구에 따르면 그렇습니다. 현재 최고의 제품들도 그렇게 말합니다. 경험도 그렇게 말합니다. (OpenAI)
추가 읽기
OpenAI, GPT-5.4 소개 그리고 OpenAI의 에이전트 보안 연구원, Aardvark를 소개합니다.. (OpenAI)
인류학, 클로드 소네트 4.6 및 공식 가격 책정 문서. (인류학)
개발자를 위한 구글 딥마인드 및 구글 AI, Gemini 3.1 Pro 모델 문서 및 가격. (구글 딥마인드)
USENIX 보안 2024, 자동화된 모의 침투 테스트를 위한 대규모 언어 모델 평가 및 활용, PentestGPT. (USENIX)
EMNLP 인더스트리 2025, 생성 에이전트를 위한 취약점 테스트 벤치마크, AutoPenBench. (ACL 선집)
펜테스트이밸, 모듈식 및 단계별 설계로 LLM 기반 침투 테스트를 벤치마킹하다. (arXiv)
포트스위거, 트림 AI 문서 및 제품 페이지를 참조하세요. (포트스위거)
Penligent, 2026년 펜테스트 AI 도구 - 실제로 작동하는 것, 중단되는 것. (펜리전트)
Penligent, 실제 참여에서 펜테스트GPT와 펜리전트 AI의 비교: LLM 쓰기 명령부터 검증된 결과까지. (펜리전트)
Penligent, 2026년 보안 엔지니어링에 활용되는 실용적인 방법, MITRE ATT&CK 프레임워크. (펜리전트)

