[투자 정보 안내] 본 글은 AGEIUM이 제공하는 일반 정보 제공 목적의 콘텐츠입니다. 특정 금융투자상품에 대한 투자 권유, 매수/매도 언급, 또는 개인 투자 조언이 아닙니다. 모든 투자 결정은 독자 본인의 판단과 책임하에 이루어져야 하며, 투자 전 자격 있는 전문가와 상담하시기 바랍니다. AGEIUM은 독자의 투자 결과에 대해 어떠한 책임도 지지 않습니다.

ai-safety-research

위험이 몰린 곳만 본다: AI 에이전트 행동 감독을 위한 RTG 위험보정 프레임워크

AI 에이전트 행동에 대한 인간 감독을, '몇 %를 검토할지'가 아니라 '얼마나 위험한 몫을 검토할지'로 재정의하는 공개 방법론과 오픈소스 레퍼런스 구현.

AGEIUM Research2026년 7월 6일8 min read

agentic-aiai-safetyrisk-calibrationhuman-oversighteu-ai-actnist-ai-rmfrtg-gateopen-source

문제: "몇 %를 검토할까"는 잘못된 질문이다

자율 AI 에이전트를 운영하는 모든 팀은 결국 같은 질문에 부딪힌다 — 에이전트의 행동 중 몇 퍼센트를 사람이 검토해야 안전한가? 2026년 중반 현재, 업계의 지배적인 답은 여전히 고정 비율이다: 실무 가이드들은 흔히 10~15%의 인간 검토율을 권장한다.

이것은 위험을 구분하지 않는(risk-blind) 정책이다. 사소한 행동과 치명적인 행동을 똑같은 비율로 검토한다는 뜻이다. 그런데 실제 운영 로그를 들여다보면, 위험은 거의 언제나 소수의 행동에 몰려 있다(파레토 분포) — 대부분의 에이전트 행동은 거의 무해하고, 진짜 위험은 극소수의 행동(삭제, 배포, 결제, 설정 변경)에 집중된다.

지금 왜 이 문제가 시급한가 (2026년 7월 기준 확인)

EU AI Act 제14조(고위험 시스템의 인간 감독 의무)가 다음 달(2026년 8월)부터 시행된다. 법은 "효과적인 감독"을 요구하지만, 그것을 어떻게 증명할지는 규정하지 않는다.
NIST의 에이전트 전용 위험표준(AI Agent Interoperability Profile)은 2026년 4분기에야 발표될 예정이다 — 지금은 공백기다.
Google의 SAIF 2.0, Anthropic의 4계층 모델(Model/Harness/Tools/Environment, 2026년 4월)은 "어떤 종류의 위험이 있는가"를 분류하지만, "얼마나 검토하면 충분한가"를 숫자로 계산하는 방법론은 제시하지 않는다.

즉, 분류 체계(무엇이 위험한가)와 법적 요구사항(감독해야 한다)은 있지만, 그 사이를 잇는 계산법이 없다. 이 빈틈이 오늘 제안하는 RTG의 자리다.

RTG의 보존법칙: 무엇을 고정하고 무엇을 줄이는가

핵심 아이디어는 하나다 — 검토해야 할 "위험의 총량 비율"은 고정하되, 그것을 위해 건드려야 하는 "행동의 개수"는 위험이 몰려 있을수록 줄어들게 한다.

목표 T = 반드시 검토해야 하는 누적 위험의 비율 (예: 90%)

기존 방식(고정 비율): 행동의 p%를 무작위로 검토
  → 위험이 균일하면 T = p, 그러나 위험이 몰려 있으면 T < p (검토 부족을 알아채지 못함)

RTG(보정 임계값): 위험이 큰 순서로 정렬해, 누적 위험이 T를 넘는 지점까지만 검토
  → 항상 동일한 T를 보장하면서, 위험이 몰려 있을수록 검토해야 할 행동 수는 줄어든다

위험이 완전히 균일하게 분포한 극단적인 경우(집중도 0), RTG는 수학적으로 기존 고정 비율 방식과 정확히 같아진다 — 공짜 점심은 없다. 이득은 오직 실제 위험 집중도가 있을 때만, 그리고 그 집중도 만큼만 발생한다. (레퍼런스 구현의 테스트 스위트에 이 퇴화 사례가 실제로 검증되어 있다.)

심각도와 신뢰도의 분리 — "모델마다 다른가?"에 대한 답

행동의 위험 가중치는 두 요소로 나뉜다: 위험 = 심각도 × 신뢰도.

심각도: 이 행동이 잘못됐을 때 실제로 얼마나 나쁜가(예: "운영 데이터 삭제" vs "파일 읽기"). 이것은 행동 자체의 성질이며, 어떤 모델/벤더가 실행했는지와 무관해야 표준으로서 의미가 있다.
신뢰도: 이 에이전트/모델이 이 행동을 실제로 얼마나 자주 잘못 수행하는가. 이것은 모델·배포 환경마다 다르다 — AI 안전 평가기관 METR의 2026년 보고서도 서로 다른 연구소의 에이전트들이 실제로 다른 빈도의 위험 행동을 보인다고 확인한 바 있다.

그래서 RTG는 심각도 체계는 공개 표준으로 제안하고, 신뢰도 보정치는 각 배포 환경이 자신의 실측 데이터로 직접 재보정하도록 분리해 설계했다.

레퍼런스 구현: 이미 돌아가는 코드

방법론만 있는 제안이 아니다. rtg-gate(Rust)는 이미 구현되어 있고, cargo test -p rtg-gate 실행 결과 test result: ok. 9 passed; 0 failed(단위 테스트) + 문서 테스트 2개 통과가 직접 확인됐다. AGEIUM 자체의 멀티에이전트 오케스트레이션 내부에 관찰 전용(advisory, 차단 없음) 모드로 실제 연결되어 실사용 로그를 쌓기 시작했다.

1단계 (주기적, O(n log n)):  실측 위험 점수 창(window)에서 임계값을 계산
2단계 (실시간, O(1)):        각 행동마다 임계값과 숫자 하나만 비교
3단계 (사후검증):            실제 결과 대비 검토 비율이 목표(T) 밑으로 떨어지면 자동 재보정

솔직한 한계

이것은 인증이 아니라 방법론과 참조 구현이다. 이걸 쓴다고 자동으로 EU AI Act를 준수하게 되는 것은 아니다 — 그 판단은 법률 영역이다.
심각도 분류 체계는 아직 외부 검증을 거치지 않은 초안이다.
RTG의 이득은 실제 위험 집중도가 있을 때만 발생한다 — 이것은 가정이 아니라 각 배포 환경이 직접 측정해야 하는 값이다.
현재 실사용 데이터는 AGEIUM 자체 내부 도그푸딩 한 건뿐이다 — 폭넓은 적용 가능성의 근거는 아직 수학적 보존법칙과 문헌 공백(위 확인 사항) 수준이며, 대규모 실증은 이제 시작이다.

참고 자료

법적 고지 (Legal Disclaimer)

본 콘텐츠는 AGEIUM이 글로벌 공개 데이터 및 학술 자료를 바탕으로 작성한 일반 정보 제공 목적의 분석 콘텐츠입니다.

1. 정보 제공 목적: 본 글에서 언급되는 기업, 섹터, 자산 클래스는 정보 제공 목적으로만 소개됩니다. 언급 사실 자체가 투자 적합성을 의미하지 않습니다.
2. 불특정 다수 대상: 본 글은 독자 개인의 재무 상황, 투자 목적, 위험 선호도를 고려하지 않은 불특정 다수 대상 일반 정보입니다.
3. 미래 보장 없음: 본 글에 포함된 인과 분석 및 시나리오는 과거 데이터와 공개 정보에 기반한 분석적 견해이며, 미래 수익을 보장하거나 예측하는 것이 아닙니다.
4. 수수료 없음: AGEIUM은 본 분석 콘텐츠의 제공에 대해 독자로부터 직접적인 수수료나 보수를 받지 않습니다.
5. 자기책임 원칙: 독자는 본 콘텐츠를 참고 정보로만 활용하며, 최종 투자 결정 및 그 결과에 대한 책임은 전적으로 독자 본인에게 있습니다.

적용 법률: 대한민국 자본시장법, 금융소비자보호법 | 미국 Securities Exchange Act of 1934 (Publisher Exclusion, SEC v. Lowe, 472 U.S. 181) | EU MiFID II Art. 4(1)(4)