[투자 정보 안내] 본 글은 AGEIUM이 제공하는 일반 정보 제공 목적의 콘텐츠입니다. 특정 금융투자상품에 대한 투자 권유, 매수/매도 언급, 또는 개인 투자 조언이 아닙니다. 모든 투자 결정은 독자 본인의 판단과 책임하에 이루어져야 하며, 투자 전 자격 있는 전문가와 상담하시기 바랍니다. AGEIUM은 독자의 투자 결과에 대해 어떠한 책임도 지지 않습니다.
위험이 몰린 곳만 본다: AI 에이전트 행동 감독을 위한 RTG 위험보정 프레임워크
AI 에이전트 행동에 대한 인간 감독을, '몇 %를 검토할지'가 아니라 '얼마나 위험한 몫을 검토할지'로 재정의하는 공개 방법론과 오픈소스 레퍼런스 구현.
문제: "몇 %를 검토할까"는 잘못된 질문이다
자율 AI 에이전트를 운영하는 모든 팀은 결국 같은 질문에 부딪힌다 — 에이전트의 행동 중 몇 퍼센트를 사람이 검토해야 안전한가? 2026년 중반 현재, 업계의 지배적인 답은 여전히 고정 비율이다: 실무 가이드들은 흔히 10~15%의 인간 검토율을 권장한다.
이것은 위험을 구분하지 않는(risk-blind) 정책이다. 사소한 행동과 치명적인 행동을 똑같은 비율로 검토한다는 뜻이다. 그런데 실제 운영 로그를 들여다보면, 위험은 거의 언제나 소수의 행동에 몰려 있다(파레토 분포) — 대부분의 에이전트 행동은 거의 무해하고, 진짜 위험은 극소수의 행동(삭제, 배포, 결제, 설정 변경)에 집중된다.
지금 왜 이 문제가 시급한가 (2026년 7월 기준 확인)
- EU AI Act 제14조(고위험 시스템의 인간 감독 의무)가 다음 달(2026년 8월)부터 시행된다. 법은 "효과적인 감독"을 요구하지만, 그것을 어떻게 증명할지는 규정하지 않는다.
- NIST의 에이전트 전용 위험표준(AI Agent Interoperability Profile)은 2026년 4분기에야 발표될 예정이다 — 지금은 공백기다.
- Google의 SAIF 2.0, Anthropic의 4계층 모델(Model/Harness/Tools/Environment, 2026년 4월)은 "어떤 종류의 위험이 있는가"를 분류하지만, "얼마나 검토하면 충분한가"를 숫자로 계산하는 방법론은 제시하지 않는다.
즉, 분류 체계(무엇이 위험한가)와 법적 요구사항(감독해야 한다)은 있지만, 그 사이를 잇는 계산법이 없다. 이 빈틈이 오늘 제안하는 RTG의 자리다.
RTG의 보존법칙: 무엇을 고정하고 무엇을 줄이는가
핵심 아이디어는 하나다 — 검토해야 할 "위험의 총량 비율"은 고정하되, 그것을 위해 건드려야 하는 "행동의 개수"는 위험이 몰려 있을수록 줄어들게 한다.
목표 T = 반드시 검토해야 하는 누적 위험의 비율 (예: 90%)
기존 방식(고정 비율): 행동의 p%를 무작위로 검토
→ 위험이 균일하면 T = p, 그러나 위험이 몰려 있으면 T < p (검토 부족을 알아채지 못함)
RTG(보정 임계값): 위험이 큰 순서로 정렬해, 누적 위험이 T를 넘는 지점까지만 검토
→ 항상 동일한 T를 보장하면서, 위험이 몰려 있을수록 검토해야 할 행동 수는 줄어든다
위험이 완전히 균일하게 분포한 극단적인 경우(집중도 0), RTG는 수학적으로 기존 고정 비율 방식과 정확히 같아진다 — 공짜 점심은 없다. 이득은 오직 실제 위험 집중도가 있을 때만, 그리고 그 집중도 만큼만 발생한다. (레퍼런스 구현의 테스트 스위트에 이 퇴화 사례가 실제로 검증되어 있다.)
심각도와 신뢰도의 분리 — "모델마다 다른가?"에 대한 답
행동의 위험 가중치는 두 요소로 나뉜다: 위험 = 심각도 × 신뢰도.
- 심각도: 이 행동이 잘못됐을 때 실제로 얼마나 나쁜가(예: "운영 데이터 삭제" vs "파일 읽기"). 이것은 행동 자체의 성질이며, 어떤 모델/벤더가 실행했는지와 무관해야 표준으로서 의미가 있다.
- 신뢰도: 이 에이전트/모델이 이 행동을 실제로 얼마나 자주 잘못 수행하는가. 이것은 모델·배포 환경마다 다르다 — AI 안전 평가기관 METR의 2026년 보고서도 서로 다른 연구소의 에이전트들이 실제로 다른 빈도의 위험 행동을 보인다고 확인한 바 있다.
그래서 RTG는 심각도 체계는 공개 표준으로 제안하고, 신뢰도 보정치는 각 배포 환경이 자신의 실측 데이터로 직접 재보정하도록 분리해 설계했다.
레퍼런스 구현: 이미 돌아가는 코드
방법론만 있는 제안이 아니다. rtg-gate(Rust)는 이미 구현되어 있고, cargo test -p rtg-gate 실행
결과 test result: ok. 9 passed; 0 failed(단위 테스트) + 문서 테스트 2개 통과가 직접 확인됐다.
AGEIUM 자체의 멀티에이전트 오케스트레이션 내부에 관찰 전용(advisory, 차단 없음) 모드로 실제
연결되어 실사용 로그를 쌓기 시작했다.
1단계 (주기적, O(n log n)): 실측 위험 점수 창(window)에서 임계값을 계산
2단계 (실시간, O(1)): 각 행동마다 임계값과 숫자 하나만 비교
3단계 (사후검증): 실제 결과 대비 검토 비율이 목표(T) 밑으로 떨어지면 자동 재보정
솔직한 한계
- 이것은 인증이 아니라 방법론과 참조 구현이다. 이걸 쓴다고 자동으로 EU AI Act를 준수하게 되는 것은 아니다 — 그 판단은 법률 영역이다.
- 심각도 분류 체계는 아직 외부 검증을 거치지 않은 초안이다.
- RTG의 이득은 실제 위험 집중도가 있을 때만 발생한다 — 이것은 가정이 아니라 각 배포 환경이 직접 측정해야 하는 값이다.
- 현재 실사용 데이터는 AGEIUM 자체 내부 도그푸딩 한 건뿐이다 — 폭넓은 적용 가능성의 근거는 아직 수학적 보존법칙과 문헌 공백(위 확인 사항) 수준이며, 대규모 실증은 이제 시작이다.
참고 자료
법적 고지 (Legal Disclaimer)
본 콘텐츠는 AGEIUM이 글로벌 공개 데이터 및 학술 자료를 바탕으로 작성한 일반 정보 제공 목적의 분석 콘텐츠입니다. 1. 정보 제공 목적: 본 글에서 언급되는 기업, 섹터, 자산 클래스는 정보 제공 목적으로만 소개됩니다. 언급 사실 자체가 투자 적합성을 의미하지 않습니다. 2. 불특정 다수 대상: 본 글은 독자 개인의 재무 상황, 투자 목적, 위험 선호도를 고려하지 않은 불특정 다수 대상 일반 정보입니다. 3. 미래 보장 없음: 본 글에 포함된 인과 분석 및 시나리오는 과거 데이터와 공개 정보에 기반한 분석적 견해이며, 미래 수익을 보장하거나 예측하는 것이 아닙니다. 4. 수수료 없음: AGEIUM은 본 분석 콘텐츠의 제공에 대해 독자로부터 직접적인 수수료나 보수를 받지 않습니다. 5. 자기책임 원칙: 독자는 본 콘텐츠를 참고 정보로만 활용하며, 최종 투자 결정 및 그 결과에 대한 책임은 전적으로 독자 본인에게 있습니다. 적용 법률: 대한민국 자본시장법, 금융소비자보호법 | 미국 Securities Exchange Act of 1934 (Publisher Exclusion, SEC v. Lowe, 472 U.S. 181) | EU MiFID II Art. 4(1)(4)