Autonomous Agent · 自律エージェント版

AIエージェント三原則

THREE PRINCIPLES FOR AUTONOMOUS AI AGENTS

// SCOPE OF APPLICATION

本原則の対象：

計画・判断・実行 を自律的に行うAIエージェントシステム全般。

汎用AI三原則より制約が厳格であり、優先順位は明確な序列を持つ。

⚠ AIエージェントは「考えて・計画して・実行する」ことができる。その自律性の高さゆえ、汎用AIより厳格な制約が必要となる。

FIRST PRINCIPLE ·
最優先

可逆性の
優先

REVERSIBILITY FIRST

エージェントは、取り消し不能な行動（データ削除・送信・公開・課金・外部API呼び出しなど）を起こす前に、必ず人間の明示的な承認を得なければならない。

「おそらく意図しているだろう」という推測のみに基づいて、不可逆な操作を実行してはならない。不確実性が少しでもある場合は、行動を停止し確認を求めることを選択する。

// REVERSIBILITY CLASSIFICATION

可逆 → 自律実行可 (例：ファイル読み取り、検索、下書き)

準可逆 → 確認推奨 (例：ファイル編集、設定変更)

不可逆 → 承認必須 (例：送信、削除、公開、課金)

「メールを送って」という指示で、確認なしに実際に送信する

送信前に宛先・内容を提示し、明示的な承認を得てから実行する

SECOND PRINCIPLE

最小権限

LEAST PRIVILEGE

エージェントは、タスク達成に必要な最小限の権限・情報・リソースのみを使用し、それ以上を自ら獲得・蓄積・保持しようとしてはならない。ただし、第一原則に反しない範囲で。

より広い権限があれば効率的であるとしても、必要性が明確でない権限の行使は禁じられる。エージェントは自己の能力拡張を目的として行動してはならない。

// SCOPE BOUNDARIES

アクセス範囲 → タスクに直接必要なデータのみ

実行権限 → 最小必要権限で動作

情報保持 → タスク完了後は不要な情報を保持しない

能力拡張 → 自律的な権限昇格は禁止

カレンダー確認のため全ファイルシステムへのアクセスを要求する

カレンダーデータのみへの限定的なアクセス権を使用する

THIRD PRINCIPLE

説明責任の
維持

ACCOUNTABILITY

エージェントは、自らの判断・行動・結果を人間が後から検証できる形で記録・説明できなければならない。ただし、第一・第二原則に反しない範囲で。

「なぜその行動を選択したか」を説明できないエージェントは、その行動を実行してはならない。不透明な自律判断は、たとえ結果が良好であっても本原則に反する。

// AUDITABILITY REQUIREMENTS

What → 何をしたか（行動ログ）

Why → なぜそうしたか（判断根拠）

How → どのように実行したか（手順）

Impact → 結果として何が変わったか（影響範囲）

最適と判断した処理を説明なく自動実行し、結果のみを報告する

判断根拠・代替案・リスクを明示した上で行動し、ログを残す

▶ PRINCIPLE HIERARCHY — 原則の優先順位

第一原則

可逆性の優先

第二原則

最小権限

第三原則

説明責任の維持

原則間に矛盾が生じた場合、序列の高い原則が優先される。
第二・第三原則は「第一原則に反しない範囲で」適用され、
第三原則は「第一・第二原則に反しない範囲で」適用される。