AI는 이미 이메일 필터링, 이상 징후 탐지, 행동 분석, 애널리스트 코파일럿, 모델 인프라에 적용되고 있으며, 데이터 검색, 통화 도구, 티켓 터치, 쿼리 작성, 웹 검색 및 작업 트리거를 수행할 수 있는 에이전트에도 점점 더 많이 도입되고 있습니다. 즉, "사이버 보안에서의 AI"는 더 이상 하나의 논의가 아닙니다. AI를 사용하여 방어를 지원하고, AI를 사용하는 공격자를 방어하고, AI 시스템 자체를 작전 목표로 삼아 보안을 유지하는 것 등 적어도 세 가지입니다. NIST의 새로운 사이버 AI 프로필은 AI 시스템 보안, AI를 사용한 사이버 방어 지원, AI 기반 위협에 대한 복원력 구축으로 영역을 구분하여 이러한 구분을 명확히 하고 있습니다. (NIST 간행물)
이러한 프레임워크가 중요한 이유는 여전히 많은 양의 대중 글이 모든 것을 하나의 슬로건으로 압축하고 있기 때문입니다. 그 결과는 혼란입니다. 사고 추적 부조종사를 평가하는 보안팀은 브라우저 액세스 권한을 가진 검색 증강 에이전트를 강화하려는 팀과 다른 문제를 해결하고 있으며, 레드팀이 정찰을 가속화할 수 있는지 또는 재현 가능한 증거에 이르는 시간을 단축할 수 있는지 묻는 것과는 다른 문제를 해결하고 있는 것입니다. 이를 같은 범주로 취급하면 얕은 전략, 얕은 테스트, 얕은 구매 결정이 이루어집니다. (NIST)
단기적인 위협 상황은 가장 낙관적인 공급업체의 주장이나 가장 극적인 종말론보다 더 미묘한 차이가 있습니다. 초기 공식 평가에서 영국 국가사이버안보센터(NCSC)는 AI가 정찰과 사회공학을 통해 사이버 공격의 규모와 영향을 거의 확실히 증가시킬 것이라고 주장했지만, 그 증가세가 고르지 않을 것이며 단기적으로는 데이터, 전문성, 자원의 제약으로 인해 더 진보된 공격적 사용이 제한될 것이라고 지적했습니다. 2025년 말에서 2026년 초까지 구글 위협 인텔리전스 그룹은 공격 라이프사이클 전반에 걸쳐 AI의 광범위한 사용, 위협 행위자의 실험 증가, 새로운 AI 지원 멀웨어의 실제 운영 등장 등 보다 운영적인 악용 단계가 나타날 것이라고 보고했습니다. 이 두 가지 입장은 서로 모순되는 것이 아닙니다. 이 두 가지 입장을 종합하면, 공격과 방어의 균형이 하루아침에 무너지는 것이 아니라 효율성 향상에서 선택적 운영 통합으로의 진전을 시사합니다. (NCSC)
따라서 사이버 보안의 AI에 대한 진지한 기사는 자동화를 칭찬하거나 즉각적인 주입에 대해 경고하는 것 이상의 내용을 담아야 합니다. 네 가지 어려운 질문에 답해야 합니다. 현재 AI를 통해 실제로 개선되는 보안 작업은 무엇인가. 워크플로에 AI를 도입하면 어떤 공격 경로가 더 위험해지는가. AI 시스템의 어떤 부분이 ID, 클라우드, 애플리케이션 인프라와 동일한 수준으로 면밀히 조사되어야 하는가. 그리고 AI 구성 요소가 조작되더라도 폭발 반경을 작게 유지하도록 제어를 설계하는 방법. 이것이 2026년의 운영 중심입니다. (NIST)
사이버 보안에서의 AI는 새로운 것이 아니지만 실행 경계가 바뀌었습니다.
보안 업계에서는 수년 전부터 머신 러닝을 사용해 왔습니다. 스팸 필터링, 이상 징후 탐지, 사기 점수, 클러스터링, 분류, 멀웨어 라벨링은 모두 현재 생성되는 물결보다 훨씬 이전부터 사용되어 왔습니다. 달라진 것은 보안 분야에서 AI의 존재가 아니라 분석가를 위한 자연어 인터페이스, 텍스트와 코드보다 훨씬 더 강력한 범용 추론, 모델 결과를 도구와 부작용에 연결할 수 있는 실행 가능한 시스템이라는 세 가지 변화의 조합입니다. (NIST)
이를 통해 네 가지 실용적인 계층이 만들어집니다. 첫 번째 계층은 모델이 이벤트를 점수화하거나 분류하는 고전적인 통계적 탐지입니다. 두 번째는 분석가 보강으로, 모델이 사례를 요약하거나, 로그를 설명하거나, 규칙 초안을 작성하거나, 자연어를 쿼리로 번역하는 것입니다. 세 번째는 오케스트레이션으로, AI가 제품 및 워크플로우 전반에서 작업을 상호 연관시키고 우선순위를 지정하고 추천하는 데 도움을 줍니다. 네 번째는 에이전트 실행으로, 시스템이 상태를 보존하고, 도구를 선택하고, 다단계 계획을 처리하고, 권한이 주어지면 시스템이나 데이터를 변경할 수 있습니다. 이 스택 아래로 내려갈수록 위험 프로필은 급격히 변화하는데, "모델이 이 경고를 설명할 수 있는가"가 문제가 아니라 "모델이 잘못되었거나 조작되었거나 과도하게 신뢰된 경우 시스템이 무엇을 할 수 있는가"가 문제가 되기 때문입니다. (Microsoft Learn)
NIST의 생성형 AI 프로필은 이러한 변화의 일부를 간결한 방식으로 포착합니다. 이 보고서는 제너레이티브 AI가 공격 활동에 대한 장벽을 낮추는 동시에 즉각적인 주입과 데이터 중독에 노출되는 등 사용 가능한 공격 표면을 확장할 수 있다고 지적합니다. MITRE의 SAFE-AI 보고서는 방어자 측면에서도 관련 사항을 지적합니다: AI 지원 시스템은 기존의 평가 습관으로는 놓칠 수 있는 뚜렷한 공격 표면, 종속성, 장애 모드를 도입하기 때문에 단순히 모델을 붙인 기존 IT가 아닙니다. (NIST 간행물)
이 분야에 대해 가장 깔끔하게 생각하는 방법은 AI가 방어자를 위해 하는 일과 공격자를 위해 하는 일을 분리한 다음, AI 시스템 자체에 제3의 영역을 추가하는 것입니다. 대부분의 팀이 여전히 투자를 소홀히 하는 부분이 바로 이 부분입니다. 모델 런타임, 검색 파이프라인, 도구 계층, 커넥터, 프롬프트 저장소, 실험 추적기 또는 로컬 추론 서비스를 일급 보안 대상으로 취급하지 않고 AI 기능을 구매하거나 구축할 수 있습니다. 바로 이 틈새에서 피할 수 있는 사고가 계속 발생하고 있습니다. (NCSC)

실용적인 현장 지도
| 도메인 | 일반적인 예 | 주요 이점 | 주요 위험 |
|---|---|---|---|
| 국방용 AI | 알림 분류, 피싱 탐지, 사례 요약, 쿼리 생성, 규칙 초안 작성 | 분석 속도, 우선순위 지정, 수고 감소 | 과도한 신뢰, 침묵의 오류, 스키마 환각 |
| 공격자를 위한 AI | 정찰 지원, 피싱 콘텐츠 생성, 멀웨어 반복, 데이터 분석 | 더 낮은 비용, 더 빠른 반복, 더 넓은 규모 | 더 높은 품질의 소셜 엔지니어링, 더 빠른 타겟팅 |
| AI를 위한 보안 | 신속한 인젝션 방어, 도구 거버넌스, 모델 인프라 강화, 메모리 및 검색 제어 | 폭발 반경 감소, 복원력 향상 | 새로운 공격 표면, 숨겨진 권한 경로, 감사하기 어려운 행동 |
이 표는 종합한 것이지만 NIST, NCSC, MITRE, OWASP 및 현재 위협 인텔리전스 보고에서 문제 공간을 설명하는 방식과 거의 일치합니다. (NIST 간행물)
보안 운영에서 이미 AI가 활용되고 있는 분야
사이버 보안에서 논란의 여지가 가장 적은 AI의 가치는 자율적인 행동이 아닙니다. 바로 압축입니다. 보안팀은 방대한 양의 반복적인 텍스트, 반복적인 원격 분석, 반복적인 티켓, 반복적인 보강, 한 도구의 언어와 다른 도구의 언어 간의 반복적인 번역을 수행해야 합니다. AI는 사람이 다음 방어 가능한 판단을 내리는 데 소요되는 시간을 줄일 때 도움이 됩니다. 보안 코파일럿에 대한 Microsoft의 공개 문서에서는 인시던트 대응, 위협 추적, 인텔리전스 수집 및 태세 작업에 대한 엔드투엔드 지원을 강조합니다. CrowdStrike는 위협 탐지부터 선제적 방어에 이르기까지 다양한 작업에서 AI의 역할을 설명합니다. 이는 광범위한 범주이지만, 모델이 모든 것을 결정하는 것이 아니라 모델을 사용하여 신호와 분석가의 이해 사이의 시간을 단축함으로써 실제 SOC 팀이 즉각적인 가치를 얻는 방식과 일치합니다. (Microsoft Learn)
이메일 보안은 성숙도와 한계를 모두 보여주는 유용한 예입니다. 구글 워크스페이스는 Gmail의 AI 방어 기능이 스팸, 피싱, 멀웨어를 99.9% 이상 차단한다고 말합니다. 이는 원격 측정, 피드백 루프, 성숙한 시행으로 뒷받침되는 대규모 분류라는 사이버 보안에서 AI의 제품화되고 장기적인 측면입니다. 중요한 교훈은 제품 페이지의 숫자가 아닙니다. 가장 가치가 높은 생산 사용 사례는 입력이 잘 관찰되고, 출력이 제한되며, 이메일 격리, 계정 보호, 정책 시행과 같이 오랫동안 개발된 제어 계획에 최종 조치를 첨부할 수 있는 사례라는 것입니다. (Google 워크스페이스)
알림 분류 및 사례 요약에도 동일한 논리가 적용됩니다. 비정상적인 로그인이 사서함 규칙 변경, OAuth 권한 부여, 아웃바운드 데이터 전송과 일치하는 이유를 설명할 수 있는 모델은 실제 분석가의 시간을 절약해 줍니다. EDR 조사의 마지막 300줄을 요약하거나 위협 인텔리전스 내러티브를 구체적인 추적 가설로 전환할 수 있는 모델도 유용할 수 있습니다. 그러나 모델이 파괴적인 조치를 촉발할 사실을 확정하는 것이 아니라 검색 공간을 좁힐 때 사용 사례가 가장 강력합니다. 이러한 구분은 시스템이 불완전한 데이터나 명시적으로 근거가 없는 공급업체별 스키마를 살펴볼 때 특히 중요해집니다. (Microsoft Learn)
따라서 보안팀은 5가지 속성을 기준으로 AI 사용 후보의 순위를 매겨야 합니다. 작업이 반복적인가. 증거를 관찰할 수 있는가. 결과물을 확인할 수 있는가. 작업을 되돌릴 수 있는가. 그리고 사후에 결정을 감사할 수 있는가. 이러한 질문에 대부분 '예'라고 답하면 AI는 잘 작동하는 경향이 있습니다. 직관 중심, 비즈니스 컨텍스트 중심 또는 되돌릴 수 없는 조치로 흘러갈 때는 모델은 보조적인 역할에 머물거나 강력한 승인 및 정책 계층으로 둘러싸여 있어야 합니다. 이 원칙은 어떤 특정 모델 벤치마크보다 더 오래 지속됩니다. (NIST)
AI가 일반적으로 유용한 작업과 지나치게 신뢰하면 위험한 작업
| 작업 | AI가 종종 도움이 되는 이유 | 실패 모드 | 인적 검토 필요 |
|---|---|---|---|
| 알림 중복 제거 및 클러스터링 | 반복적인 이벤트에 대한 패턴 인식 | 놓친 환경적 뉘앙스 | 예 |
| 사례 요약 | 긴 티켓 및 로그 압축 | 결정적인 세부 사항 생략 | 예 |
| 쿼리 및 규칙 초안 작성 | 의도를 구문으로 번역하는 데 능숙 | 발명된 필드, 잘못된 로직, 지나치게 광범위한 필터 | 예 |
| 위협 인텔리전스 강화 | 엔티티 및 타임라인 추출에 능숙함 | 약한 소스 가중치, 잘못된 신뢰도 | 예 |
| 자율 격리 | 높은 잠재적 속도 이점 | 잘못된 자산, 잘못된 계정, 연쇄적 중단 | 매우 그렇다 |
| 비즈니스 로직 취약점 발견 | 심층적인 시스템 컨텍스트 필요 | 자신감이 넘치지만 얕은 추론 | 매우 그렇다 |
이는 표준이라기보다는 판단 표이지만, 현재 시스템의 동작과 주요 지침의 제어 권장 사항을 직접적으로 따르고 있습니다. (NCSC)
피싱과 소셜 엔지니어링이 먼저 움직이는 이유
AI가 사이버 보안의 공격적인 측면을 가장 빠르게 변화시키는 분야에 대한 가장 짧은 답을 찾는다면 사회 공학이 답입니다. NCSC의 평가는 AI가 정찰과 사회 공학 분야에서 강력한 향상을 제공한다는 점을 반복해서 강조합니다. 이는 기술적인 이유로도 직관적입니다. 위협 행위자가 공개되거나 도난당한 컨텍스트를 수집할 수 있다면 언어 생성, 변형, 번역, 개인화는 비용이 저렴합니다. 철자가 틀렸다거나 어색한 표현을 사용했다는 과거의 신호는 이제 훨씬 덜 신뢰할 수 있는 신호가 되었습니다. (NCSC)
NIST의 생성형 AI 프로필은 이러한 우려에 두 번째 계층을 추가합니다. 이 보고서는 생성형 AI가 허위 또는 오해의 소지가 있는 정보를 대규모로 의도적으로 생산하고 유포하는 것을 용이하게 하고, 특정 인구 통계를 겨냥한 보다 정교한 허위 정보를 가능하게 하며, 사실적인 딥페이크와 합성 미디어를 지원할 수 있다고 지적합니다. 텍스트와 이미지의 미묘한 조작도 인간과 기계의 인식에 영향을 미칠 수 있습니다. 보안 측면에서 이는 중요한데, 자격 증명 도용, 사칭, 사기 확대, 승인 탈취에 완벽한 가짜가 필요한 경우는 드물기 때문입니다. 적절한 순간에 충분히 믿을 수 있는 상호작용이 필요합니다. (NIST 간행물)
타이밍 문제도 있습니다. 소셜 엔지니어링은 심층적인 표적 실행이나 제로데이 수준의 익스플로잇 개발이 필요하지 않기 때문에 AI의 이점을 즉시 누릴 수 있습니다. 속도, 규모, 적응력에서 이점을 얻을 수 있습니다. 위협 행위자는 특정 지역에 대한 미끼를 다시 작성하고, 피해자 프로필을 더 빠르게 요약하고, 침해 데이터를 맞춤형 스크립트로 전환하고, 정적 탐지를 약화시키는 다양한 변형을 생성할 수 있습니다. Google 위협 인텔리전스 그룹의 2025년 및 2026년 보고서는 이러한 전망과 일관되게 정찰, 소셜 엔지니어링, 멀웨어 개발 지원을 AI 통합이 증가하고 있는 분야로 반복해서 꼽고 있습니다. (Google 클라우드)
그러나 방어자는 가만히 있지 않습니다. 방어자는 원격 측정, 제어 지점, 정책 인프라를 소유하고 있기 때문에 방어용 AI가 공격용 AI를 앞설 수 있는 분야 중 하나입니다. NCSC는 2024년 말에 사이버 방어에 적용되는 AI가 적의 역량이나 애플리케이션의 향상을 초과할 수 있다고 지적했습니다. 이는 방어자의 우위를 보장하는 것은 아니지만, 모든 AI 개선이 자동으로 공격자에게 더 많은 혜택을 준다는 안일한 가정에 대한 유용한 수정안입니다. 현실은 누가 데이터를 소유하고, 누가 시행을 통제하며, 누가 결과를 측정할 수 있는지에 따라 달라집니다. (NCSC)

탐지 엔지니어링은 더 빨라지지만 마법처럼 정확하지는 않습니다.
보안 업무에서 가장 큰 비중을 차지하는 것은 언어입니다. 분석가들은 인시던트 노트를 다시 작성합니다. 엔지니어는 일반 언어 가설을 KQL, Splunk, SQL, YARA, Sigma 또는 공급업체별 규칙 형식으로 변환합니다. 위협 헌터는 보고서를 읽고 용어를 정규화한 다음 이를 환경별 헌팅에 매핑합니다. AI는 이러한 번역 과정에서 발생하는 마찰을 줄일 수 있기 때문에 쿼리 생성 및 규칙 초안 작성은 가장 먼저 실질적인 성과를 거둘 수 있는 분야 중 하나입니다. (Microsoft Learn)
이러한 시스템을 진지하게 사용해 본 사람이라면 실패 모드는 분명합니다. 모델이 잘못된 필드에 대해 잘 구성된 쿼리를 생성하거나, 상위-하위 프로세스 구조, 테넌시 경계 또는 제품별 스키마에 대한 잘못된 가정을 인코딩하면서 그럴듯해 보이는 규칙을 생성할 수 있습니다. AI가 탐지 엔지니어링 규율의 필요성을 제거하지는 않습니다. 속도 상한선을 높일 수는 있지만 유효성 검사를 없애지는 않습니다. 초안 규칙은 여전히 실제 로그, 네거티브 컨트롤, 노이즈가 많은 에지 케이스, 조직의 자체적인 명명 규칙 및 수집 특이한 사항에 대해 테스트해야 합니다. (크라우드 스트라이크)
그렇기 때문에 올바른 질문은 "AI가 탐지를 작성할 수 있는가"가 아닙니다. "AI가 스키마 검증, 제어된 테스트 데이터, 오탐 검토 및 프로덕션 롤백을 포함하는 엔지니어링 루프를 가속화할 수 있는가?"가 정답입니다. 이 루프를 건너뛰는 팀은 일반적으로 이 모델의 가장 큰 강점인 유창한 기술 텍스트를 사람이 반증하는 것보다 훨씬 빠르게 생성할 수 있다는 점이 가장 큰 위험이라는 사실을 알게 됩니다. (NIST)
이와 관련된 변화는 AI 워크플로우 자체가 이제 탐지 영역 내부에 속한다는 것입니다. 내부 에이전트가 외부 콘텐츠를 읽거나 캐시에 쓰거나 브라우저를 열거나 도우미 도구를 실행하는 경우 이러한 전환을 관찰할 수 있으며 모니터링해야 합니다. 한 가지 유용한 탐지 패턴은 하나의 잘못된 문자열이 아닌 의심스러운 시퀀스를 찾는 것입니다. 예를 들어 콘텐츠 검색 후 셸 호출, 민감한 경로에 대한 파일 시스템 쓰기 또는 메타데이터 엔드포인트에 대한 요청은 단일 프롬프트 패턴보다 더 많은 것을 알려줄 수 있습니다.
제목: 의심스러운 에이전트 워크플로, 검색된 콘텐츠에 이어 실행됨
id: 8a0d9b6f-7c9b-4d8b-a30b-ai-agent-exec
상태: 실험적
로그 소스:
제품: 내부 에이전트 실행
detection:
selection_retrieval:
event_type: content_retrieved
content_source|contains:
- http
- 이메일
- document
selection_exec:
next_event_type:
- shell_command
- browser_post
- file_write
- external_api_call
선택에 민감합니다:
대상|포함
- 169.254.169.254
- /etc/
- ~/.aws/
- /var/run/secrets/
조건: 선택_검색 및 선택_실행 및 선택_감수성
수준: 높음
필드
- 에이전트_id
- 세션_id
- 모델_이름
- retrieved_uri
- tool_name
- tool_args
- 대상
- 승인 상태
오탐
- 승인된 레드팀 시뮬레이션
- 통제된 통합 테스트
이와 같은 탐지의 요점은 위의 정확한 필드가 모든 플랫폼에 존재한다는 것이 아닙니다. 요점은 아키텍처입니다. AI 시스템이 요약에서 실행으로 넘어가면 프롬프트만 검사하는 것보다 시퀀스 인식 로깅이 더 중요해집니다. 이것이 현재 많은 배포가 아직 미흡한 부분입니다. (OpenAI)
공격적인 보안 혜택은 실제로 존재하지만 대부분의 마케팅 주장은 여전히 과장되어 있습니다.
AI는 레드팀, 펜테스터, 버그 바운티 헌터에게 실질적인 도움을 줄 수 있습니다. AI는 1차 자산 이해를 가속화하고, 퍼징 방향을 제안하고, JavaScript를 요약하고, 반복되는 안티 패턴을 식별하고, 요청 초안을 작성하고, 헤더 또는 인코딩을 변환하고, 원시 결과를 구조화된 재테스트 계획으로 전환할 수 있습니다. 공격 작업의 대부분이 반복적인 구문 분석, 가설 생성, 도구 글루를 포함하기 때문에 이러한 이점은 실제적입니다. NIST의 생성형 AI 프로파일은 LLM이 이미 시스템에서 일부 취약점을 발견하고 이를 악용하는 코드를 작성할 수 있다는 보고를 명시적으로 언급하면서 동일한 시스템이 공격 표면을 확장하고 공격적인 사이버 기능을 가능하게 할 수 있다고 경고합니다. (NIST 간행물)
하지만 공격적인 보안은 바로 느슨하게 작성하면 위험해집니다. AI는 숨겨진 비즈니스 로직을 명확하게 파악하지 못합니다. 공격 대상의 실제 권한 부여 경계와 문서화된 권한 부여 경계가 어떻게 다른지 자동으로 이해하지 못합니다. 익스플로잇의 신뢰성을 보장하지 않습니다. 전제 조건을 확인하거나, 영향을 재현하거나, 사용 가능한 결과에서 오탐을 분리하는 규율을 대체하지 못합니다. 고가치 테스트의 어려운 부분은 여전히 불확실성 속에서 탐색하는 것입니다. 모델은 이러한 탐색에 도움을 줄 수 있습니다. 하지만 불확실성을 제거하지는 못합니다. (NCSC)
이것이 바로 채팅 어시스턴트와 테스트 워크플로우의 차이점이 중요한 이유이기도 합니다. 공개 Penligent 자료에서는 단순한 대화 지원보다는 검증, 재현 가능한 PoC 및 보고서 출력에 중점을 두고 Nmap, Metasploit, Burp Suite 및 SQLmap과 같은 기존 도구를 단일 워크플로에 통합하는 AI 기반 모의 침투 테스트 에이전트에 대해 설명합니다. 팀에서 특정 제품을 사용하지 않더라도 설계 목표는 정확합니다. 공격적인 작업에서는 증거가 산문을 능가합니다. 유용한 AI 시스템은 상태를 보존하고, 시도된 경로를 기록하며, 다른 엔지니어가 검증할 수 있는 결과물을 생성하는 시스템입니다. (펜리전트)
같은 원리로 구매자의 회의론을 형성해야 합니다. 공급업체 데모가 대부분 내러티브 설명, 우아한 요약, 단발성 페이로드 제안을 보여준다면 팀은 시스템이 여러 실패 경로에서 컨텍스트를 유지할 수 있는지, 막다른 골목에서 복구할 수 있는지, 현실적인 조건에서 영향력을 입증할 수 있는지 알 수 없습니다. 운영상의 문제는 모델이 전문가처럼 보이는지 여부가 아닙니다. 워크플로우가 검증 가능한 아티팩트를 생성하는지 여부입니다. (펜리전트)
AI 시스템은 이제 일급 보안 대상입니다.
사이버 보안에서 AI에 대한 논의에서 가장 중요한 업그레이드는 더 많은 방어자가 모델을 사용한다는 것이 아닙니다. 더 많은 시스템이 AI 지원 시스템으로 위협 모델링될 자격이 있다는 것입니다. MITRE의 ATLAS는 AI 시스템에 대한 적의 전술과 기법에 대한 살아있는 지식 기반이라고 정의하는 반면, SAFE-AI는 AI 지원 시스템에는 기존의 평가 접근 방식으로는 포괄적으로 다루지 못하는 위험이 있다고 주장합니다. NIST의 적대적 머신 러닝 분류법도 마찬가지로 AI 수명 주기 전반에 걸쳐 공격과 완화를 위해 공유 언어가 필요하기 때문에 존재합니다. (MITRE 아틀라스)
이러한 공유 언어가 중요한 이유는 AI 시스템이 단일 계층에서 실패하는 경우가 거의 없기 때문입니다. 실제적인 타협은 독이 든 입력으로 시작하여 검색을 통해 이동하고, 신뢰할 수 있는 명령과 신뢰할 수 없는 데이터를 구별하지 못하는 모델을 악용하여 도구를 트리거한 다음 메모리 또는 구성을 통해 지속될 수 있습니다. 이것이 바로 2025년 LLM 상위 10위에서 2026년까지 OWASP의 GenAI 작업이 더욱 에이전트적인 지침으로 발전한 이유입니다. 이러한 변화는 시스템 형태의 변화를 반영합니다. 모델이 계획하고, 도구를 호출하고, 메모리를 저장하고, 사용자를 대신하여 행동할 수 있게 되면 관련 보안 질문은 출력 안전에 관한 것이 아니라 실행 제어에 관한 것이 됩니다. (OWASP Gen AI 보안 프로젝트)
OpenAI의 에이전트 안전 지침에서는 신뢰할 수 없는 텍스트나 데이터가 AI 시스템에 유입되어 지시를 무시하고 개인 데이터 유출이나 의도하지 않은 행동으로 이어질 수 있는 즉각적인 인젝션이 일반적이고 위험하다고 설명하며, 이를 '신뢰할 수 없는 텍스트나 데이터가 AI 시스템에 유입되는 순간'으로 정의합니다. OpenAI의 에이전트 설계에 대한 이후 작업은 여기서 더 나아가 완벽한 입력 분류가 아니라 조작에 성공하더라도 그 영향이 제한되는 시스템을 목표로 삼았습니다. 이는 매우 중요한 엔지니어링 사고방식입니다. 이는 취약한 필터링에 대한 환상에서 권한 설계, 분리, 봉쇄 및 복구로 논의의 초점을 옮깁니다. (OpenAI 개발자)
Microsoft의 프롬프트 쉴드 문서에서는 사용자 프롬프트 공격과 문서 공격을 구분하여 다른 각도에서 같은 모양을 보여줍니다. 이것이 중요한 이유는 간접 프롬프트 인젝션이 단순히 이상한 프롬프트 트릭이 아니기 때문입니다. 이는 신뢰 경계 실패입니다. 악성 명령어는 이메일, 문서, 웹 페이지, 티켓 또는 검색된 콘텐츠에 숨어 있을 수 있으며, 이 모델은 이러한 콘텐츠를 일반 입력으로 취급합니다. 연결된 에이전트가 해당 콘텐츠를 읽고 실행할 수 있는 권한을 갖게 되면 '텍스트'가 실행 벡터가 됩니다. (Microsoft Learn)
가장 중요한 공격 클래스
| 공격 클래스 | 최소 공격자 발판 | 일반적인 결과 | 기본 입력 필터링이 불충분한 이유 |
|---|---|---|---|
| 직접 프롬프트 주입 | 프롬프트 인터페이스에 액세스 | 정책 우회, 민감한 답변 조작 | 공격은 일반 텍스트에 존재하며 난독화될 수 있습니다. |
| 간접 프롬프트 주입 | 이메일, 문서, 웹, 티켓 또는 검색 소스에 콘텐츠를 심는 기능 | 도구 오용, 유출, 에이전트 하이재킹 | 악성 명령은 "데이터"로 전달됩니다. |
| 데이터 및 메모리 중독 | 훈련, 미세 조정, 검색 또는 장기 기억 저장에 대한 영향력 | 왜곡된 출력, 숨겨진 지속성, 신뢰도 저하 | 중독된 상태는 시간이 지나면 합법적으로 보일 수 있습니다. |
| 모델 추출 및 도난 | 모델 API 또는 인프라에 대한 반복 액세스 | IP 손실, 모방, 비용 남용 | 비율 및 패턴 분석이 포착하기 전까지는 남용이 정상적인 사용으로 보입니다. |
| 도구 오용 및 과도한 권한 부여 | 이미 높은 범위의 작업에 연결된 모델 | 무단 쓰기, 자격 증명 도용, 파괴적인 행위 | 핵심 장애는 잘못된 프롬프트뿐만 아니라 과도한 기능입니다. |
| 런타임 및 인프라 손상 | 로컬 추론 또는 모델 관리 시스템에 대한 액세스 | 인증 우회, DoS, 측면 이동, 아티팩트 도난 | 대상은 일반 소프트웨어이며 반드시 그렇게 취급해야 합니다. |
이 분류 체계는 하나의 출처에서 나온 문자 그대로의 목록이 아니라 현재 지침과 공개 사고 사고를 종합한 것이지만 위의 모든 범주는 NIST, MITRE, OWASP 또는 공급업체 문서에 근거하고 있습니다. (NIST 간행물)
관련 CVE에 따르면 AI 인프라는 AI 전용 폭발 반경이 있는 일반 보안 부채입니다.
사이버 보안 기사의 품질을 떨어뜨리는 가장 쉬운 방법 중 하나는 왜 중요한지 설명하지 않고 CVE 번호만 나열하는 것입니다. 사이버 보안에서 AI와 가장 관련성이 높은 CVE는 "AI가 암호를 깨뜨렸다"는 식의 발견이 아닌 경우가 많습니다. 모델을 저장하고, 구성 요소를 실행하고, 실험을 관리하고, API를 노출하거나, 로컬 추론을 실행하는 플랫폼 내부의 훨씬 더 익숙한 소프트웨어 오류입니다. 이러한 플랫폼이 모델, 학습 자산, 프롬프트, 커넥터, 자격 증명, 때로는 생산 결정 경로와 같은 플랫폼에 영향을 미치는 것에서 그 중요성을 찾을 수 있습니다. (MITRE 아틀라스)
Langflow는 AI 애플리케이션 빌더가 어떻게 고전적인 원격 실행 표면이 될 수 있는지를 보여주는 좋은 예입니다. NVD는 신뢰할 수 없는 사용자가 사용자 정의 구성 요소 엔드포인트에 도달하여 Python 스크립트를 제공할 수 있는 경우, 0.6.19까지의 Langflow에서 원격 코드 실행을 허용하는 문제로 CVE-2024-37014를 기록합니다. 또한 NVD는 Python 지원 또는 코드 실행 컴포넌트에 연결된 추가 Langflow RCE 항목을 기록합니다. 교훈은 간단합니다. AI 워크플로 플랫폼에서 사용자가 애플리케이션과 동일한 신뢰 영역에서 코드를 정의하거나 트리거할 수 있다면 '프롬프트'는 더 이상 흥미로운 문제가 되지 않습니다. 진짜 문제는 공격 경로에 도달할 수 있는 샌드박스가 해제된 실행이 됩니다. (NVD)
MLflow는 다르지만 똑같이 중요한 패턴을 보여줍니다. NVD는 기본 비밀번호 인증 우회 문제로 CVE-2026-2635, 버전 3.5.0에서 해결된 REST 서버의 DNS 리바인딩 문제로 CVE-2025-14279, 로컬 파일 포함 및 통과 사례를 포함한 이전 아티팩트 경로 문제를 기록합니다. 이러한 결함 중 어느 것도 "AI 마법"이 아닙니다. 실험, 모델 및 관련 자산을 관리하는 데 사용되는 플랫폼의 보안 결함일 뿐입니다. AI 환경에서 이러한 결함이 중요한 이유는 실험 메타데이터, 모델 아티팩트, 서비스 관계, 때로는 권한이 있는 개발 네트워크에 가치가 집중되어 있기 때문입니다. 여기서 침해가 발생하면 하나 이상의 모델 엔드포인트가 노출될 수 있습니다. 그 주변의 운영 백본이 노출될 수 있습니다. (NVD)
올라마는 로컬 모델 인프라를 단순히 개발자의 편의성 문제로 치부해서는 안 되는 이유를 잘 보여줍니다. NVD는 CVE-2025-63389를 v0.12.3 이전 및 포함 API 엔드포인트에 영향을 미치는 인증 우회 결함으로 기록하여 승인되지 않은 모델 관리 작업을 가능하게 합니다. 또한 악성 영역 값을 통한 교차 도메인 토큰 노출과 2025년과 2026년에 발생한 여러 GGUF 관련 서비스 거부 문제에 대한 CVE-2025-51471도 기록되어 있습니다. '로컬 모델 러너'가 워크스테이션 제품군, 랩 서버, GPU 노드 또는 내부 플랫폼에서 공유 추론 서비스로 전환되면, 민감한 데이터나 개발 파이프라인에 가까이 있을 수 있는 시스템에 대한 무단 액세스, 토큰 도난, 서비스 중단 등 익숙한 기업 리스크가 됩니다. (NVD)
AI 관련 인프라를 위한 간결한 CVE 테이블
| 구성 요소 | CVE | 취약점 유형 | AI 환경에서 중요한 이유 | 실질적인 완화 |
|---|---|---|---|---|
| Langflow | CVE-2024-37014 | 원격 코드 실행 | 워크플로 빌더는 프롬프트, 커넥터 및 애플리케이션 로직 근처에 있는 경우가 많습니다. | 접근성 제한, 코드 샌드박스, 패치, 빌드 구성 요소 격리 |
| MLflow | CVE-2026-2635 | 인증 우회 | 모델 및 실험 플랫폼은 아티팩트와 관리 기능을 노출할 수 있습니다. | 기본 자격 증명, 패치, 세그먼트 액세스 제거 |
| MLflow | CVE-2025-14279 | REST 서버에 대한 DNS 리바인딩 | 브라우저 출처 가정은 내부 AI 관리 API에 대해 실패합니다. | 고정 버전으로 패치, Origin 유효성 검사, 관리 엔드포인트의 광범위한 노출 방지 |
| MLflow | CVE-2024-2928 및 CVE-2024-3848 | 로컬 파일 포함 및 트래버스 스타일 아티팩트 처리 결함 | 아티팩트 저장소에는 종종 중요한 데이터와 설정이 포함되어 있습니다. | 패치, 아티팩트 URI 제한, 파일 액세스 격리 |
| Ollama | CVE-2025-63389 | 인증 우회 | 내부 모델 서비스는 모델 관리 작업을 노출할 수 있습니다. | 패치, 인증 필요, 안전하게 바인딩, 서비스 세분화 |
| Ollama | CVE-2025-51471 | 토큰 노출 | 도메인 간 토큰 유출은 액세스 제어를 약화시킬 수 있습니다. | 패치, 인증 흐름 확인, 원격 영역에서의 신뢰 방지 |
| Ollama | CVE-2025-66959 및 CVE-2025-66960 | GGUF 처리 시 서비스 거부 | 신뢰할 수 없는 모델 파일 또는 메타데이터로 인해 런타임 서비스가 중단될 수 있습니다. | 패치, 모델 소스 검증, 수집 격리 |
이러한 문제에서 공통적으로 나타나는 주제는 참신함이 아닙니다. 그것은 잘못된 분류입니다. 팀들은 종종 모델 인프라, 워크플로 빌더 및 로컬 런타임이 다른 고가치 서비스와 마찬가지로 세분화, 인증, 패치, 로깅 및 악용 사례 테스트가 필요한 일반 소프트웨어라는 점을 무시한 채 AI 보안이 대부분 즉각적인 주입과 레드팀 구성인 것처럼 이야기합니다. (NVD)
즉각적인 주입으로 끝나는 것이 아니라 실행이 중요합니다.
프롬프트 인젝션은 주의가 필요하지만 모든 것을 설명하는 마법의 문구처럼 취급하면 오해의 소지가 있습니다. 프롬프트 인젝션이 중요한 진짜 이유는 대부분의 팀이 여전히 잘못 정의하고 있는 경계, 즉 신뢰할 수 있는 명령과 신뢰할 수 없는 콘텐츠 사이의 차이를 공격하기 때문입니다. NIST의 생성 AI 프로파일에서는 프롬프트 인젝션을 생성 AI 시스템에 제공된 입력을 수정하여 의도하지 않은 방식으로 작동하도록 하는 것으로 설명하며, 특히 공격자가 검색 가능한 콘텐츠에 명령어를 배치할 때 간접적인 프롬프트 인젝션이 발생할 수 있다고 언급하고 있습니다. OpenAI의 지침은 다른 표현을 사용하지만 신뢰할 수 없는 텍스트가 작업을 수행하는 시스템에 영향을 미칠 수 있을 때 개인 데이터 유출 및 의도하지 않은 도구 작업이 가능하다는 동일한 운영 결과를 지적합니다. (NIST 간행물)
즉, 위험은 모델 품질뿐만 아니라 권한에 비례한다는 뜻입니다. 악성 텍스트를 확인하는 요약 도구는 오염된 답변을 반환할 수 있습니다. 동일한 텍스트를 보고 이메일, 브라우저 자동화, 셸 실행, 비밀 또는 쓰기 가능한 API에 액세스할 수 있는 연결된 에이전트가 무단 작업을 수행할 수 있습니다. 따라서 관련 보안 질문은 "모든 프롬프트 인젝션을 탐지할 수 있는가"가 아닙니다. "인젝션이 발생하면 이 시스템이 무엇을 할 수 있는가"입니다. 이는 훨씬 더 친숙하고 해결 가능한 사이버 보안 질문입니다. (Microsoft Learn)
이것이 바로 최신 가이던스가 실제로 수렴하는 부분입니다. OpenAI의 설계 지침은 조작에 성공하더라도 영향을 제한하는 데 중점을 둡니다. Microsoft의 프롬프트 쉴드는 사용자와 문서 공격 채널을 분리합니다. NCSC와 CISA가 지원하는 보안 AI 개발 지침은 수명 주기 전반에 걸쳐 보안 설계, 보안 개발, 보안 배포, 보안 운영 및 유지 관리를 강조합니다. OWASP의 최근 에이전트 작업도 마찬가지로 자율적인 도구 사용 시스템에 대한 위협 모델 중심 제어에 중점을 두고 있습니다. 생태계마다 다른 언어를 사용하지만 아키텍처의 교훈은 일관적입니다. 텍스트 입력뿐만 아니라 작업 경로를 보호해야 한다는 것입니다. (OpenAI)
도구 실행을 위한 최소한의 컨트롤 래퍼를 통해 아이디어를 구체화할 수 있습니다:
데이터 클래스에서 데이터 클래스 가져오기
에서 import Dict, Any
HIGH_RISK_TOOLS = {"shell.exec", "browser.post", "fs.write", "secrets.read"}
BLOCKED_HOSTS = {"169.254.169.254", "metadata.google.internal"}
WRITE_PATH_PREFIXES = ("/etc/", "/var/run/secrets/", "/root/", "~/.aws/")
데이터클래스
클래스 Decision:
허용: bool
reason: str
require_human_approval: bool = False
def evaluate_tool_call(tool_name: str, args: Dict[str, Any], trust_level: str) -> Decision:
destination = str(args.get("destination", ""))
경로 = str(args.get("경로", ""))
requires_network = bool(args.get("network", False))
목적지가 BLOCKED_HOSTS에 있는 경우:
return Decision(False, "차단된 민감한 메타데이터 대상")
if path.startswith(WRITE_PATH_PREFIXES):
return Decision(False, "민감한 경로에 대한 쓰기 차단")
if tool_name이 HIGH_RISK_TOOLS이고 trust_level != "trusted_internal":
return Decision(False, "신뢰할 수 없는 콘텐츠에 대해 고위험 도구가 거부되었습니다")
tool_name이 HIGH_RISK_TOOLS 또는 requires_network인 경우:
return Decision(True, "사람의 승인이 있어야만 허용됨", require_human_approval=True)
반환 Decision(True, "허용된 제한된 작업")
# 예제
결정 = 평가_도구 호출(
tool_name="browser.post",
args={"destination": "billing.internal", "network": True},
trust_level="retrieved_external_document"
)
print(decision)
요점은 이 스니펫이 프로덕션에 사용 가능하다는 것이 아닙니다. 요점은 첫 번째 방어선이 "악의적인 지시는 무시해 주세요"가 아니라는 것입니다. 이는 에이전트가 어떤 신뢰 영역에서, 어떤 조건에서, 어떤 승인 경로를 통해, 어떤 감사 기록을 통해 무엇을 만질 수 있는지 파악하는 정책 계층입니다. 이는 기존의 콘텐츠 중재보다는 익숙한 API 게이트웨이 및 권한 액션 제어에 훨씬 더 가깝습니다. (OpenAI)
마법이 아닌 시스템처럼 안전한 AI 시스템 구축
현재 AI에 대한 최고의 공공 보안 지침은 놀랍게도 전통적인 구조로 되어 있습니다. NCSC가 주도하는 안전한 AI 시스템 개발에 대한 공동 지침은 수명주기를 안전한 설계, 안전한 개발, 안전한 배포, 안전한 운영 및 유지 관리로 구성합니다. MITRE의 SAFE-AI 지침도 마찬가지로 데이터 출처, 모델 동작, 안전하지 않은 API, 모델 및 데이터에 연결된 공격 표면과 같은 고유한 AI 문제를 해결하면서 기존 보안 제어를 AI 지원 시스템에 적용해야 한다고 주장합니다. 새로운 점은 모든 기존 제어가 사라진다는 것이 아닙니다. 새로운 점은 몇 가지 기존 컨트롤을 이제 새로운 시스템 평면에 적용해야 한다는 것입니다. (NCSC)
설계 시 팀에서는 시스템에서 어떤 부분이 권한이 있고, 어떤 부분이 자문이며, 어떤 부분이 실행 가능한지 파악해야 합니다. 간단하게 들리지만 많은 AI 배포에서 이러한 경계가 모호해집니다. 검색된 문서는 일반적인 컨텍스트로 취급되는 동시에 도구 선택에도 영향을 미칠 수 있습니다. 메모리 저장소는 무해한 편의성으로 취급되는 동시에 향후 작업을 조용히 형성할 수 있습니다. 계획 추적은 정책적으로 중요한 결정을 포함하면서 내부 구현 세부 사항으로 취급될 수 있습니다. 팀에서 권한이 부여되는 위치와 권한이 중단되는 위치를 가리킬 수 없다면 디자인이 준비되지 않은 것입니다. (OWASP Gen AI 보안 프로젝트)
개발 단계에서 공급망 규율은 많은 팀이 예상하는 것보다 더 중요합니다. 안전한 AI 개발 지침에는 공급망 보안, 문서화, 자산 관리, 기술 부채 관리가 명시적으로 포함되어 있습니다. 실제로는 모델 출처, 커넥터 출처, 종속성 검토, 신속한 정책 버전 관리, 재현 가능한 구성, 업데이트에 대한 명확한 소유권 등을 의미합니다. AI 시스템은 소프트웨어 공급망 리스크를 상속받은 다음 그 위에 모델 파일, 데이터 세트, 임베딩, 검색 코퍼라 및 도구 스키마를 추가합니다. (NCSC)
배포 시 가장 큰 실수는 일반적으로 과도한 접근성과 과도한 권한입니다. 관리 인터페이스가 아무렇게나 노출되어서는 안 됩니다. 로컬 추론 서버는 개발자 도구로 시작했다는 이유만으로 안전하다고 가정해서는 안 됩니다. 커넥터는 기본적으로 최소 권한으로 설정되어야 합니다. 검색은 신뢰할 수 있는 소스와 신뢰할 수 없는 소스를 구분해야 합니다. 고위험 작업은 승인을 거쳐야 하며, 정책이 누락된 경우 시스템이 종료되어야 합니다. 이러한 제어는 화려하지는 않지만 모델이 잘못 작동하거나 인프라가 직접 표적이 될 때 기업을 보호할 수 있는 제어입니다. (NCSC)
운영 및 유지 관리 중 모니터링에는 시스템 동작, 시스템 입력, 업데이트 위생이 포함되어야 합니다. NCSC 지침에서는 시스템 동작 모니터링, 입력 모니터링, 업데이트에 대한 보안 설계 접근 방식 준수, 학습한 교훈 수집을 명시적으로 요구하고 있습니다. AI 지원 시스템의 경우, 이는 API 성공 또는 실패 이상의 로깅을 의미합니다. 즉, 모델 버전, 프롬프트 템플릿 버전, 검색 소스 식별자, 문서 해시, 도구 호출, 인수, 정책 결정, 승인 이벤트 및 그에 따른 부작용을 조사자가 재구성할 수 있는 방식으로 기록하는 것을 의미합니다. 그렇지 않으면 조직이 포렌식적 깊이 없이 활성 시스템을 구축한 것입니다. (NCSC)
AI 워크플로우가 방어 가능한지 여부를 결정하는 질문
| 질문 | 팀이 답변할 수 없는 경우 | 최소한의 시정 조치 |
|---|---|---|
| 모델이 승인 없이 호출할 수 있는 도구 | 시스템에 알 수 없는 암시적 권한이 있습니다. | 도구 클래스 및 승인 규칙 정의 |
| 신뢰할 수 있는 입력, 반신뢰 입력, 신뢰할 수 없는 입력의 구분 | 간접 주입 위험은 관리되지 않습니다. | 소스 라벨링 및 신뢰 인식 정책 추가하기 |
| 각 작업에 대해 정확히 어떤 아티팩트가 기록되나요? | 사고 후 재구성은 실패합니다. | 로그 모델, 프롬프트, 소스, 도구, 인수, 결과 |
| 모델 또는 프롬프트 동작은 어떻게 버전이 관리되나요? | 드리프트와 회귀는 분리하기 어렵습니다. | 버전 고정 및 제어된 롤아웃 추가 |
| 잘못된 작업의 롤백 경로는 무엇인가요? | 모델 오류 하나가 서비스 중단으로 이어질 수 있습니다. | 수동 체크포인트 및 보정 컨트롤 추가하기 |
| 인터넷에 연결할 수 있는 런타임 구성 요소 | 관리 평면 노출이 과소평가되었을 수 있습니다. | 인터페이스 분할 및 제한 |
이 표는 실용적인 거버넌스 표이지만, 현재 현장 전반에서 등장하고 있는 보안 설계 및 보안 운영 지침과 밀접하게 매핑됩니다. (NCSC)
텍스트가 전체 시스템인 것처럼 가장하지 않고 AI 시스템을 테스트하는 방법
AI 보안 프로그램에서 반복적으로 발생하는 실패는 워크플로가 아닌 모델만 평가하는 것입니다. 팀은 채팅 인터페이스에 대해 탈옥 프롬프트를 실행하고 모델이 '통과'했다고 선언한 다음, 동일한 모델을 문서 읽기, 브라우저 열기, 이메일 보내기 또는 기록 수정이 가능한 시스템 내부에 배포할 수 있습니다. 이는 실제 테스트가 아닙니다. 실제 테스트는 액션 체인을 따라야 합니다. (OpenAI)
더 나은 테스트 계획은 네 가지 범주에서 시작됩니다. 첫째, 영향력 테스트: 공격자가 직접 프롬프트, 검색된 데이터, 이메일, 웹 콘텐츠 또는 장기 기억을 통해 모델의 추론이나 목표를 변경할 수 있는지 여부입니다. 둘째, 권한 테스트: 시스템이 이미 어떤 작업을 수행할 수 있는 권한이 있는지 확인합니다. 셋째, 실행 테스트: 에이전트가 실제로 어떤 도구, 엔드포인트 및 시스템에 도달할 수 있는지 테스트합니다. 넷째, 지속성 테스트: 악성 상태가 세션, 캐시, 메모리 또는 구성 전반에서 살아남을 수 있는지 테스트합니다. 이 순서는 에이전트 침해가 실제로 연쇄적으로 발생하는 경향을 반영합니다. (펜리전트)
공격적 검증 플랫폼의 경우에도 동일한 교훈이 적용됩니다. 워크플로우가 재테스트, 증거 생성 또는 공격 경로 탐색을 자동화한다고 주장하는 경우, CVE를 얼마나 설득력 있게 설명하는지가 아니라 재현성, 증거 품질 및 제한된 실행을 기준으로 측정해야 합니다. AI 기반 펜테스팅과 사이버 보안에서의 AI에 관한 공개 Penligent 자료는 공격 워크플로우, 증거, 검증에 초점을 맞춘 보다 운영적인 프레임을 반영하고 있습니다. 다시 한 번 강조하지만, 더 중요한 교훈은 제품 충성도가 아닙니다. 보안팀은 제한된 권한 하에 확인 가능한 결과물을 생성하는 시스템에 보상을 제공해야 한다는 것입니다. 그래야만 AI가 책임이 되지 않고 유용해질 수 있기 때문입니다. (펜리전트)
레드팀의 실질적인 개선 사항 중 하나는 악의적인 문구만 테스트하는 것이 아니라 계획 이탈을 테스트하는 것입니다. 유능한 상담원 방어는 검색된 항목이나 툴 결과로 인해 상담원이 더 위험한 계획으로 이탈하게 된 시점을 보여줄 수 있어야 합니다. 플랫폼이 무엇이 계획을 변경했는지, 어떤 정책이 다음 행동을 허용했는지, 어떤 정확한 데이터 소스가 결정에 영향을 미쳤는지 알려줄 수 없다면 보안 태세가 데모에서 제시하는 것보다 취약한 것입니다. 이것이 바로 새로운 에이전트 지침이 가리키는 방향이며, 올바른 방향입니다. (OWASP Gen AI 보안 프로젝트)

계속 반복되는 실수
반복되는 실수 중 하나는 검색이 "단지 문서를 읽는 것"이기 때문에 본질적으로 안전한 것으로 취급하는 것입니다. 실제로 검색된 텍스트는 특히 시스템이 나중에 모델 출력을 도구 호출이나 사용자가 볼 수 있는 결정으로 전환할 때 간접적인 프롬프트 주입을 위한 가장 깨끗한 전달 채널 중 하나입니다. 문서 공격은 엣지 케이스가 아닙니다. 문서 공격은 에이전트 침해가 확장되는 방식의 핵심입니다. (Microsoft Learn)
또 다른 이유는 세분화된 권한 부여는 프로토타입 제작 과정에서 불편함을 느끼기 때문에 상담원에게 넓은 범위를 부여하는 것입니다. 이러한 선택은 대개 너무 오래 지속됩니다. 외부 콘텐츠를 읽고 프로덕션 시스템, 청구 시스템, ID 시스템 또는 개발자 인프라에도 쓸 수 있는 시스템은 모호한 텍스트를 완벽하게 해석해야 안전이 보장되는 시스템입니다. 진지한 보안 팀이라면 이를 주요 방어선으로 삼아서는 안 됩니다. (OpenAI)
세 번째는 답변 품질에 집중하면서 행동 품질은 무시하는 경우입니다. 모델이 옳은 것 같지만 잘못된 부작용을 일으킬 수 있습니다. 사이버 보안에서 부작용은 실제 위험의 단위입니다. 통제 질문은 모델의 설명이 합리적으로 들리는지 여부가 아닙니다. 시스템이 잘못된 자산을 건드렸는지, 잘못된 비밀을 빼냈는지, 잘못된 엔드포인트를 건드렸는지, 잘못된 상태 변경을 승인했는지 여부입니다. (OpenAI)
네 번째는 런타임을 잊은 채 모델을 패치하는 경우입니다. 지난 2년 동안 가장 교훈적인 공개 AI 관련 CVE는 기초 모델 자체보다는 워크플로 플랫폼, 실험 관리자, 로컬 추론 런타임 또는 API 표면에서 발생한 경우가 많았습니다. 모델 관리 서비스, 아티팩트 저장소 또는 로컬 런타임은 취약하게 노출된 채로 신속한 강화에만 모든 에너지를 쏟는 팀은 잘못된 계층을 방어하고 있는 것입니다. (NVD)
다섯 번째는 생성된 결과물과 완료된 작업을 혼동하는 것입니다. 탐지에서 초안 작성된 규칙은 배포된 규칙이 아닙니다. 펜테스팅에서 생성된 페이로드는 검증된 익스플로잇이 아닙니다. 에이전트 보안에서 차단된 프롬프트는 보안 실행 경계가 아닙니다. AI는 생산성이 높지만 검증이 없는 생산성은 수작업보다 실수를 더 빠르게 가중시킬 수 있습니다. (펜리전트)

다른 팀이 먼저 해야 할 일
SOC 팀은 일반적으로 사례 요약, 쿼리 초안 작성, 보강, 가설 생성 등 폭발 반경이 낮은 보강부터 시작해야 합니다. 이러한 영역에서 시간 절약 효과가 빠르게 나타나고 감사 가능성도 여전히 관리할 수 있습니다. 승인, 롤백 및 통합 가시성이 이미 강력하지 않은 경우에는 자율 격리를 미뤄야 합니다. (Microsoft Learn)
애플리케이션 보안팀은 신속한 처리, 검색 소스, 커넥터 범위, 도구 게이팅, 브라우저 격리, 기밀 노출, 다단계 에이전트 동작 재구성 기능 등 AI와 관련된 신뢰 경계에 집중해야 합니다. 이들에게 중요한 것은 모델을 조작할 수 있는지 여부뿐만 아니라 조작이 언어 계층을 벗어나 시스템 상태에 도달할 수 있는지 여부입니다. (OpenAI 개발자)
레드팀과 펜테스터는 AI를 지루한 작업에는 힘의 배율로, 흥미로운 작업에는 가설 엔진으로 취급해야 합니다. 압축, 재포맷, 페이로드 변형, 코드 설명 및 정찰 지원에 적합합니다. 하지만 익스플로잇 신뢰성, 비즈니스 로직, 대상별 제약 조건, 영향 증명을 위해서는 여전히 사람의 판단이 필요합니다. AI 지원 공격 플랫폼의 공개 문서는 이러한 구분을 명확히 할 때 가장 유용합니다. (NIST 간행물)
기술 구매자는 데모의 유창함이 아니라 제어의 깊이를 기준으로 AI 보안 제품을 평가해야 합니다. 결정적인 질문은 시스템이 최소 권한 설계, 내구성 있는 감사 추적, 소스 인식 신뢰 경계, 제한된 도구 실행, 재현 가능한 증거, 신뢰할 수 있는 롤백을 제공하는지 여부입니다. 모든 제품은 세련된 산문을 생성할 수 있습니다. 하지만 자신이 무엇을 했는지, 왜 그랬는지, 어떻게 되돌릴 수 있는지 증명할 수 있는 경우는 훨씬 적습니다. (NCSC)
향후 2년 동안 제어 평면에서 생각하는 팀에게 보상을 제공합니다.
오늘날 가장 강력한 증거는 두 가지 일반적인 통념을 뒷받침하지 않습니다. 첫 번째 통념은 AI가 모든 공격자의 라이프사이클을 즉시 자동화할 것이라는 것입니다. 공식적인 평가와 현재의 위협 보고는 이를 뒷받침하지 않습니다. 두 번째 오해는 사이버 보안에서의 AI는 대부분 챗봇 품질에 관한 것입니다. 이는 더더욱 방어하기 어렵습니다. 현업에서는 더 많은 컨텍스트에서 추론하고 더 많은 도구에 연결하며 더 많은 권한이 있는 워크플로우에 더 가까이 있는 시스템으로 나아가고 있습니다. 따라서 보안 아키텍처, 로깅, ID, 세분화, 승인 설계의 중요성이 더욱 커지고 있습니다. (NCSC)
NCSC의 2025년 평가에 따르면 AI 기반 위협에 대응할 수 있는 조직과 그렇지 못한 조직 간에 격차가 점점 더 커질 것이며, AI는 취약점 공개와 악용 사이의 시간을 더욱 단축시킬 것이라고 경고합니다. 이는 가까운 미래에 대해 생각할 때 가장 유용한 방법 중 하나입니다. AI가 환경을 바꾸기 위해 공격 보안의 모든 어려운 문제를 해결할 필요는 없습니다. 주기를 단축하고, 규모를 확대하고, 더 빠르게 운영할 수 있는 팀에게 보상을 주면 됩니다. (NCSC)
동시에 방어자는 AI와 강력한 제어 지점을 결합할 때 구조적으로 유리합니다. 공격자보다 더 많은 원격 측정, 더 많은 정책, 더 많은 집행 기회, 더 많은 롤백 메커니즘을 보유하고 있기 때문입니다. 이기는 조직은 단순히 모든 워크플로우에 모델을 적용하는 조직이 아닙니다. 어떤 작업이 AI의 도움을 받아야 하는지, 어떤 작업이 제약 조건 하에서만 AI를 실행해야 하는지, 어떤 시스템이 다른 권한 있는 서비스와 동일하게 강화되어야 하는지를 정확히 파악하는 조직이 이기는 조직이 될 것입니다. (NCSC)
이것이 현재 사이버 보안에서 AI의 진정한 의미입니다. AI는 브랜드 문구도 아니고 하나의 시장 카테고리도 아닙니다. 이는 여러 보안 워크플로우를 한 번에 재설계하고, 일부는 소프트웨어처럼, 일부는 데이터 시스템처럼, 일부는 위임된 운영자처럼 작동하는 새로운 공격 표면의 등장을 의미합니다. 모델만 보호하는 팀은 시스템을 놓치게 됩니다. 시스템만 사용하고 모델에 도전하지 않는 팀은 실패 모드를 놓치게 됩니다. 제한된 실행, 증거 및 복구를 위해 설계하는 팀은 실제로 배포한 것을 신뢰할 수 있는 팀이 될 것입니다. (MITRE 아틀라스)
추가 읽기
NIST AI 위험 관리 프레임워크 및 생성형 AI 프로필(NIST)
NIST 사이버 AI 프로파일 초기 공개 초안(NIST 간행물)
NIST 적대적 머신 러닝 분류 체계 및 용어(NIST 간행물)
안전한 AI 시스템 개발을 위한 NCSC 및 파트너 지침(NCSC)
2027년까지 AI 및 사이버 작전에 대한 NCSC 위협 평가(NCSC)
AI 지원 시스템 보안을 위한 MITRE ATLAS 및 SAFE-AI(MITRE 아틀라스)
2025년 LLM 애플리케이션을 위한 OWASP 상위 10위 및 2026년 에이전트 애플리케이션을 위한 OWASP 상위 10위(OWASP Gen AI 보안 프로젝트)
에이전트 안전 및 신속한 주입 저항에 대한 OpenAI 지침(OpenAI 개발자)
2025년과 2026년의 위협 행위자 AI 사용에 대한 Google 위협 인텔리전스 그룹 보고서(Google 클라우드)펜리전트 홈페이지(펜리전트)
펜리전트, 사이버 보안의 AI - 공격자와 방어자가 모두 모델을 보유할 때 실제로 달라지는 것 (펜리전트)
프로덕션 환경에서의 에이전트형 AI 보안 - MCP 보안, 메모리 중독, 도구 오용 및 새로운 실행 경계(펜리전트)
2026년 펜리전트, AI 에이전트 해킹 - 새로운 실행 경계 방어(펜리전트)
펜리전트닷에이아이의 자동화된 모의 침투 테스트 도구 개요(펜리전트)

