[投資情報のご案内] 本記事はAGEIUMが一般情報提供を目的として公開しています。特定の金融投資商品への投資勧誘、売買の推奨、または個別投資アドバイスではありません。全ての投資判断は読者ご自身の責任において行ってください。AGEIUMは投資結果について一切の責任を負いません。投資決定前に資格を持つ金融専門家にご相談ください。

ai-safety-research

위험이 몰린 곳만 본다: AI 에이전트 행동 감독을 위한 RTG 위험보정 프레임워크

AI 에이전트 행동에 대한 인간 감독을, '몇 %를 검토할지'가 아니라 '얼마나 위험한 몫을 검토할지'로 재정의하는 공개 방법론과 오픈소스 레퍼런스 구현.

AGEIUM Research2026年7月6日8 min read

agentic-aiai-safetyrisk-calibrationhuman-oversighteu-ai-actnist-ai-rmfrtg-gateopen-source

문제: "몇 %를 검토할까"는 잘못된 질문이다

자율 AI 에이전트를 운영하는 모든 팀은 결국 같은 질문에 부딪힌다 — 에이전트의 행동 중 몇 퍼센트를 사람이 검토해야 안전한가? 2026년 중반 현재, 업계의 지배적인 답은 여전히 고정 비율이다: 실무 가이드들은 흔히 10~15%의 인간 검토율을 권장한다.

이것은 위험을 구분하지 않는(risk-blind) 정책이다. 사소한 행동과 치명적인 행동을 똑같은 비율로 검토한다는 뜻이다. 그런데 실제 운영 로그를 들여다보면, 위험은 거의 언제나 소수의 행동에 몰려 있다(파레토 분포) — 대부분의 에이전트 행동은 거의 무해하고, 진짜 위험은 극소수의 행동(삭제, 배포, 결제, 설정 변경)에 집중된다.

지금 왜 이 문제가 시급한가 (2026년 7월 기준 확인)

EU AI Act 제14조(고위험 시스템의 인간 감독 의무)가 다음 달(2026년 8월)부터 시행된다. 법은 "효과적인 감독"을 요구하지만, 그것을 어떻게 증명할지는 규정하지 않는다.
NIST의 에이전트 전용 위험표준(AI Agent Interoperability Profile)은 2026년 4분기에야 발표될 예정이다 — 지금은 공백기다.
Google의 SAIF 2.0, Anthropic의 4계층 모델(Model/Harness/Tools/Environment, 2026년 4월)은 "어떤 종류의 위험이 있는가"를 분류하지만, "얼마나 검토하면 충분한가"를 숫자로 계산하는 방법론은 제시하지 않는다.

즉, 분류 체계(무엇이 위험한가)와 법적 요구사항(감독해야 한다)은 있지만, 그 사이를 잇는 계산법이 없다. 이 빈틈이 오늘 제안하는 RTG의 자리다.

RTG의 보존법칙: 무엇을 고정하고 무엇을 줄이는가

핵심 아이디어는 하나다 — 검토해야 할 "위험의 총량 비율"은 고정하되, 그것을 위해 건드려야 하는 "행동의 개수"는 위험이 몰려 있을수록 줄어들게 한다.

목표 T = 반드시 검토해야 하는 누적 위험의 비율 (예: 90%)

기존 방식(고정 비율): 행동의 p%를 무작위로 검토
  → 위험이 균일하면 T = p, 그러나 위험이 몰려 있으면 T < p (검토 부족을 알아채지 못함)

RTG(보정 임계값): 위험이 큰 순서로 정렬해, 누적 위험이 T를 넘는 지점까지만 검토
  → 항상 동일한 T를 보장하면서, 위험이 몰려 있을수록 검토해야 할 행동 수는 줄어든다

위험이 완전히 균일하게 분포한 극단적인 경우(집중도 0), RTG는 수학적으로 기존 고정 비율 방식과 정확히 같아진다 — 공짜 점심은 없다. 이득은 오직 실제 위험 집중도가 있을 때만, 그리고 그 집중도 만큼만 발생한다. (레퍼런스 구현의 테스트 스위트에 이 퇴화 사례가 실제로 검증되어 있다.)

심각도와 신뢰도의 분리 — "모델마다 다른가?"에 대한 답

행동의 위험 가중치는 두 요소로 나뉜다: 위험 = 심각도 × 신뢰도.

심각도: 이 행동이 잘못됐을 때 실제로 얼마나 나쁜가(예: "운영 데이터 삭제" vs "파일 읽기"). 이것은 행동 자체의 성질이며, 어떤 모델/벤더가 실행했는지와 무관해야 표준으로서 의미가 있다.
신뢰도: 이 에이전트/모델이 이 행동을 실제로 얼마나 자주 잘못 수행하는가. 이것은 모델·배포 환경마다 다르다 — AI 안전 평가기관 METR의 2026년 보고서도 서로 다른 연구소의 에이전트들이 실제로 다른 빈도의 위험 행동을 보인다고 확인한 바 있다.

그래서 RTG는 심각도 체계는 공개 표준으로 제안하고, 신뢰도 보정치는 각 배포 환경이 자신의 실측 데이터로 직접 재보정하도록 분리해 설계했다.

방법론만 있는 제안이 아니다. rtg-gate(Rust)는 이미 구현되어 있고, cargo test -p rtg-gate 실행 결과 test result: ok. 9 passed; 0 failed(단위 테스트) + 문서 테스트 2개 통과가 직접 확인됐다. AGEIUM 자체의 멀티에이전트 오케스트레이션 내부에 관찰 전용(advisory, 차단 없음) 모드로 실제 연결되어 실사용 로그를 쌓기 시작했다.

1단계 (주기적, O(n log n)):  실측 위험 점수 창(window)에서 임계값을 계산
2단계 (실시간, O(1)):        각 행동마다 임계값과 숫자 하나만 비교
3단계 (사후검증):            실제 결과 대비 검토 비율이 목표(T) 밑으로 떨어지면 자동 재보정

솔직한 한계

이것은 인증이 아니라 방법론과 참조 구현이다. 이걸 쓴다고 자동으로 EU AI Act를 준수하게 되는 것은 아니다 — 그 판단은 법률 영역이다.
심각도 분류 체계는 아직 외부 검증을 거치지 않은 초안이다.
RTG의 이득은 실제 위험 집중도가 있을 때만 발생한다 — 이것은 가정이 아니라 각 배포 환경이 직접 측정해야 하는 값이다.
현재 실사용 데이터는 AGEIUM 자체 내부 도그푸딩 한 건뿐이다 — 폭넓은 적용 가능성의 근거는 아직 수학적 보존법칙과 문헌 공백(위 확인 사항) 수준이며, 대규모 실증은 이제 시작이다.

참고 자료

法的免責事項

本コンテンツはAGEIUMが公開データおよび学術資料に基づき作成した一般情報提供目的の分析コンテンツです。

1. 情報提供目的：本文で言及される企業、セクター、資産クラスは情報提供目的のみで紹介されます。言及の事実自体が投資適合性を意味するものではありません。
2. 不特定多数向け：本文は読者個人の財務状況、投資目的、リスク許容度を考慮しない不特定多数向け一般情報です。
3. 将来の保証なし：本文に含まれる因果分析およびシナリオは、過去のデータと公開情報に基づく分析的見解であり、将来の収益を保証または予測するものではありません。
4. 手数料なし：AGEIUMは本分析コンテンツの提供に対して読者から直接的な手数料や報酬を受け取りません。
5. 自己責任原則：読者は本コンテンツを参考情報としてのみ活用し、最終的な投資決定およびその結果に対する責任は全て読者本人にあります。

適用法律：大韓民国資本市場法、金融消費者保護法 | 米国1934年証券取引所法（出版者除外、SEC v. Lowe, 472 U.S. 181）| EU MiFID II Art. 4(1)(4)