Claude Opus 4.6
完全ガイド
2026年2月5日リリース。Agent Teams、Adaptive Thinking、
100万トークンコンテキストなど、全新機能を徹底解説
🚀 リリースサマリー
Claude Opus 4.6の全体像。2026年2月5日にAnthropicがリリースした最新フラッグシップモデルの概要。
Claude Opus 4.6は、前モデルOpus 4.5(2025年11月)からわずか3ヶ月での大規模アップデート。 コーディング、エージェント、エンタープライズワークフローの3領域で飛躍的な進化を遂げた。 Anthropic史上最も野心的なリリースで、Agent Teams、Adaptive Thinking、100万トークンコンテキストなど、 これまでにない規模の新機能を一挙に投入している。
✨ 3大新機能
Opus 4.6で追加された最も重要な3つの新機能。それぞれが独立した大型アップデートと言えるレベル。
Agent Teams
複数のClaude Codeエージェントがチームとして協調作業する、まったく新しいマルチエージェント機能。 1つのリードエージェントがタスクを分割し、複数のチームメイトが並列で実行。リサーチ、コードレビュー、デバッグなどを同時進行できる。
具体的な使い方の例:
「PR #142を3人でレビューして。1人はセキュリティ、1人はパフォーマンス、1人はテストカバレッジを見て」 と指示するだけで、3つの独立したClaude Codeインスタンスが同時にレビューを開始。 それぞれが発見した問題をリードに報告し、リードが最終レポートを作成する。
Adaptive Thinking
タスクの複雑さに応じてClaudeが自動的に思考の深さを決定する新しいモード。 従来の固定予算型の拡張思考に代わる、より効率的なアプローチ。 4段階のeffortレベル(low / medium / high / max)で開発者が制御可能。
なぜ重要か:
簡単な質問には即座に回答し、難しい問題にだけ深く考える。これにより、レイテンシとコストを大幅に削減しつつ、 必要な時には最高レベルの推論能力を発揮できる。「max」はOpus 4.6専用で、最高難度の問題に挑戦できる。
Context Compaction
サーバーサイドでコンテキストを自動要約し、事実上「無限の会話」を可能にするAPI機能。 コンテキストウィンドウの上限に近づくと、APIが古い会話部分を自動的に要約して圧縮する。
実際のメリット:
大規模なリファクタリングタスクや、何時間にもわたるエージェントセッションでコンテキスト切れにならない。 開発者がコンテキスト管理のロジックを実装する必要もなく、しきい値のカスタマイズも可能。
🤝 主要パートナーの評価
Opus 4.6を早期導入した企業からのフィードバック。自律タスク実行、コードベースナビゲーション、複雑なマルチステップ問題解決が特に高評価。
🛡️ 安全性とアラインメント
能力向上と安全性を両立。Anthropicの「責任あるスケーリング」方針に基づき、過去最高水準の安全性を実現。
他のフロンティアモデルと同等以上。独立した第三者評価で確認済み
欺瞞的行動・追従的行動(Sycophancy)・悪用への協力の発生率が極めて低い
Claudeモデル中で最も低い過剰拒否率。正当なリクエストを不必要に拒否しない
6つの新しいサイバーセキュリティプローブを開発。脆弱性検出能力が向上
コード中の実際のセキュリティ脆弱性を競合モデル以上に発見する能力
📐 100万トークン コンテキストウィンドウ
Opusクラスとして初めて100万トークンのコンテキストに対応。デフォルトは200Kだが、ベータで1Mまで拡張可能。
デフォルト:200Kトークン(通常利用)
ベータ:100万トークン(開発者プラットフォームで有効化可能。Opusクラス初)
出力上限:最大128Kトークン(前世代64Kの2倍)
約750,000語分のテキスト(文庫本約15冊分)を一度に処理可能。 大規模コードベース全体を読み込んでからリファクタリング提案を行ったり、 数十の技術ドキュメントを横断的に分析したりするタスクが現実的になる。 「コンテキストが足りなくて途中で切れる」という問題が大幅に軽減される。
100万トークン中に埋められた8つの「針」を正確に見つけるテスト。長文コンテキストの実用性を測定。
Sonnet 4.5の4倍以上の精度。 長いコンテキストで「情報が薄まる」コンテキスト劣化(context rot)の問題が大幅に改善されている。 100万トークンでもGPT-5.2やGeminiと比較して最高精度を維持。
🧠 Adaptive Thinking(適応的思考)
従来のthinking: {type: "enabled"}に代わる新しい推奨モード。
タスクの複雑さを自動判定し、思考の深さを動的に調整する。
簡単なタスク向け。Claudeが思考をスキップすることもある。チャットや簡単なQ&Aに最適。レイテンシとコストを大幅に削減できる。
中程度の複雑さのタスク向け。必要に応じて思考する。文書作成や分析業務に適している。コストと品質のバランスが良い。
デフォルト設定。ほぼ常に深く思考する。コーディング、複雑な推論、技術的な問題解決に最適。ほとんどのユースケースで推奨。
Opus 4.6専用の最高能力レベル。最も困難な問題に対して最大限の推論力を発揮する。数学の証明、複雑なアルゴリズム設計、高度な分析などに。
# Python APIでの使用例
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={"type": "adaptive"},
messages=[{"role": "user", "content": "..."}]
) thinking: {type: "enabled"} と budget_tokens は非推奨。まだ動作するが将来削除予定。 Adaptive Thinking はインターリーブ思考も自動で有効化するため、 interleaved-thinking ベータヘッダーも不要に。
📦 Context Compaction(コンテキスト圧縮)
サーバーサイドでコンテキストを自動要約し、事実上「無限の会話」を実現するベータAPI機能。
コンテキストがウィンドウの上限に近づく
APIがサーバーサイドで古い会話部分を自動的に要約
要約で空いた容量分だけ新しい会話を追加できる
このプロセスが繰り返されることで、事実上「無限の会話」を実現
- ✅ 長時間のエージェントタスクがコンテキスト切れで中断されない
- ✅ 大規模リファクタリングでも途中経過を覚えたまま作業を継続
- ✅ 開発者がコンテキスト管理のロジックを実装する必要がない
- ✅ 圧縮のしきい値はカスタマイズ可能
📤 128K 出力トークン
前世代の64Kから2倍に拡大した出力上限。思考予算と最終出力の両方が拡大し、より包括的なレスポンスが可能に。
128Kトークンは約96,000語に相当。完全なファイル生成、長文の技術レポート、 複数ファイルにまたがるコード変更の一括出力などが現実的に。 Adaptive Thinkingの思考ブロックにもこの予算が使えるため、 最も複雑な問題でも十分に考え抜いた上で包括的な回答を返せる。
実装上の注意:大きなmax_tokens値のリクエストではHTTPタイムアウトを避けるためストリーミングが必須。
SDKの.stream()と.get_final_message()を組み合わせて使用する。
💻 Claude Code v2.1.32
最新2026年2月リリース。Opus 4.6対応と同時に、Agent Teams、自動メモリ、要約機能など大型新機能を搭載。
複数のClaude Codeセッションがチームとして協調作業する新機能。 リードエージェントがタスクを分割し、複数のチームメイトが並列で実行。 チームメイト同士がメッセージで直接やり取りできるのが、従来のサブエージェントとの大きな違い。
有効化方法: CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1 を環境変数またはsettings.jsonに設定。詳細は「Agent Teams」タブを参照。
Claudeが作業しながら自動的に学んだことをメモリファイルに記録し、 次回のセッションでそのナレッジを活用する。同じミスを繰り返さず、 プロジェクトの慣習や好みを記憶する。 CLAUDE.mdの階層構造(マネージドポリシー → プロジェクト → プロジェクトルール → ユーザー → ローカル)で管理。
メッセージセレクタで会話の任意の場所から部分的に要約を実行可能。 長い会話の途中経過を効率的に圧縮し、残りのコンテキスト容量を確保する。 全体をリセットするのではなく、必要な部分だけを圧縮できる点がポイント。
--add-dirで追加したディレクトリの .claude/skills/からスキルを自動ロード。
スキルの文字バジェットがコンテキストウィンドウの2%にスケーリングされるようになり、
大きなコンテキストでも切り詰めが起きにくくなった。
🔥 v2.1.0 - 2.1.9
史上最大2026年1月7日リリース。109のCLI改善を含む、ローンチ以来最大の生産性アップグレード。
AIツールの「遅延読み込み」。必要な時だけツール定義を取得する。トークン使用量が134kから5kに激減(96%削減)。大量のMCPツールを使うプロジェクトで劇的なコスト削減。
Chrome拡張機能と連携して、Claude Codeからブラウザを直接操作可能に。Webアプリのテスト、フォーム入力、スクリーンショット取得などをターミナルから実行。
ページ範囲指定(pages: "1-5")に対応。大きなPDF(10ページ超)は軽量参照として処理されるため、コンテキストを圧迫しない。
PRからセッションを再開するフラグ。PRの内容を元に作業を続行できる。デバッグやレビュー対応に便利。
PR作成時に自動でリンクを生成。ワークフローがシームレスに。
--resumeでのセッション復帰が大幅高速化。セッションインデックスを軽量なstat-basedローディングに置き換え。
コンテキスト圧縮がリアルタイムで実行されるように。大きな出力トークン制限を持つモデルで早期トリガーされる問題も修正。
全角数字入力に対応。日本語環境でのプロンプト入力が改善。
VSCodeでのPython仮想環境を自動でアクティベート。手動でのactivate操作が不要に。
Dynamic Client Registrationをサポートしないサーバー(例:Slack)向けに、--client-idと--client-secretで事前設定が可能に。
📝 メモリシステム詳解
Claude Codeが記憶を管理する5階層システム。プロジェクトのルール、個人の好み、組織のポリシーを階層的に管理する。
場所:/etc/claude-code/CLAUDE.md
用途:組織全体のルール(コーディング規約、セキュリティポリシー等)
共有:全ユーザー
場所:./CLAUDE.md
用途:チーム共有の指示(アーキテクチャ、ワークフロー等)
共有:チームメンバー(Git管理)
場所:./.claude/rules/*.md
用途:トピック別の指示(テスト規約、API設計等)。パス別条件付きルール対応
共有:チームメンバー(Git管理)
場所:~/.claude/CLAUDE.md
用途:個人の好み(コードスタイル、ツール設定等)
共有:自分のみ(全プロジェクト共通)
場所:./CLAUDE.local.md
用途:個人のプロジェクト固有設定(サンドボックスURL等)
共有:自分のみ(自動.gitignore)
@path/to/file構文でファイルをインポート可能(再帰的に最大5ホップまで)。 .claude/rules/ディレクトリではYAML frontmatterの pathsフィールドでパス別の条件付きルールを設定できる。
サブディレクトリ、シンボリックリンクもサポート。
🏗️ Agent Teams アーキテクチャ
Opus 4.6と同時リリース。複数のClaude Codeインスタンスをチームとして協調動作させる。 リードが全体を管理し、チームメイトが独立して作業、メッセージで直接通信する。
チームを作成・管理する親セッション。タスクを分割し、チームメイトに割り当て、最終的に結果を統合する。ユーザーとの窓口でもある。
独立したClaude Codeインスタンス。各自が専用のコンテキストウィンドウを持ち、割り当てられたタスクを自律的に実行。完了後は次のタスクを自動で取得する。
チーム全体で共有するタスク管理システム。pending → in_progress → completed の3状態。依存関係の自動解決とファイルロックによる競合防止を備える。
エージェント間のメッセージングシステム。個別メッセージもブロードキャストも可能。チームメイトの完了通知やアイドル通知も自動配信される。
⚖️ サブエージェント vs Agent Teams
どちらも作業を並列化できるが、仕組みが異なる。ワーカー同士がコミュニケーションする必要があるかどうかで選択する。
独自ウィンドウを持つ。結果はメインエージェントに要約して返却される
完全に独立したコンテキストウィンドウ。メインの会話履歴は引き継がない
メインエージェントにのみ結果を報告。ワーカー間の通信はできない
チームメイト同士がメッセージで直接通信可能。発見の共有や議論ができる
メインエージェントが全ワーカーの作業を管理・調整する
共有タスクリストで自律的に調整。タスク完了後は自動で次を取得
低い。結果がメインコンテキストに要約されるため効率的
高い。各チームメイトがフルのClaude Codeインスタンスを使用
結果だけ必要な集中タスク。リサーチ結果の取得、ファイル検索など
議論・協調が必要な複雑作業。コードレビュー、アーキテクチャ設計、仮説検証など
🎯 最適なユースケース
並列探索が本当に価値を生むタスクに最適。逐次的なタスクや同一ファイルの編集には不向き。
リサーチ & レビュー
問題の異なる側面を同時に調査し、発見を共有・議論する。1人のレビューアーは1種類の問題に偏りがちだが、複数人で独立した視点を持つことで網羅性が上がる。
プロンプト例:
「PR #142を3人でレビューして。1人はセキュリティ、1人はパフォーマンス、1人はテストカバレッジを見て。最後に発見を統合して」
新モジュール & 機能開発
各チームメイトが別々のモジュールを担当して並列で開発。同じファイルを触らない限り、互いの作業が干渉しない。
プロンプト例:
「認証機能を追加して。1人がフロントエンドのUI、1人がバックエンドのAPI、1人がテストを書いて」
競合仮説デバッグ
異なる仮説を並列でテスト。科学的ディベートのように互いの理論を検証し合う。1人だと最初の仮説に引っ張られがちだが、複数人で同時検証すると真の原因にたどり着きやすい。
プロンプト例:
「アプリが1メッセージで切断される。5人で異なる仮説を検証して、互いに反証を試みて。最終的な合意をドキュメントに書いて」
クロスレイヤー調整
フロントエンド・バックエンド・テストをまたぐ変更で、各レイヤーの担当者が並行して作業する。
プロンプト例:
「認証をJWTからセッションベースに変更する。フロントエンド担当、バックエンド担当、テスト担当の3人で同時進行して」
🖥️ 表示モード & Delegate Mode
チームの動作を視覚的に確認する方法と、リードを調整専用に制限する委任モード。
In-process モード
全チームメイトが1つのターミナル内で実行される。Shift+Up/Downでチームメイトを選択してメッセージを送信。 Enterでセッション表示、Escapeで中断、 Ctrl+Tでタスクリスト表示。 どのターミナルでも動作し、追加セットアップ不要。
Split panes モード
各チームメイトが独自のターミナルペインを持つ。全員の出力を同時に確認でき、クリックで直接操作可能。
tmux または iTerm2 が必要(VS Code/Windows Terminal/Ghostty未対応)。
設定はteammateMode: "tmux"またはフラグ --teammate-mode in-processで切り替え。
Delegate Mode(委任モード)
リードが自分でコードを書き始めるのを防ぎ、調整・管理だけに集中させるモード。 Shift+Tabで切り替え。 作業の分割、タスク割り当て、結果の統合だけをリードにやらせたい時に使う。
⚠️ 現在の制限事項
Agent Teamsは実験的機能。以下の制限を理解した上で使用すること。
/resume や /rewind でin-processチームメイトは復元されない。再開後はリードに新しいチームメイトを作成させる必要がある。
チームメイトがタスクを完了済みにし忘れることがある。依存タスクがブロックされた場合は、手動で更新するかリードに促す。
チームメイトは現在のリクエストまたはツールコールが完了するまでシャットダウンしない。
同時に管理できるチームは1つ。新チームを作る前に現チームをクリーンアップする必要がある。
チームメイトは自分のチームやチームメイトを作成できない。チーム管理はリードのみ。
チームを作成したセッションが永久にリーダー。昇格やリーダー変更はできない。
全チームメイトがリードの権限設定を継承。個別設定はスポーン後に変更可能だが、スポーン時には指定できない。
VS Code統合ターミナル、Windows Terminal、Ghosttyでは使用不可。tmuxまたはiTerm2が必要。
🆕 API 新機能(GA)
Opus 4.6リリースと同時に正式リリース(GA)された3つの新しいAPI機能。ベータヘッダー不要。
Effort パラメータ GA
ベータヘッダーが不要になり正式リリース。low / medium / high / max の4段階。maxレベルはOpus 4.6専用で追加された最高能力設定。Adaptive Thinkingと組み合わせることで、コスト・品質のトレードオフを細かく最適化できる。簡単な質問にはlowで高速応答、難しい問題にはmaxで全力投球。
Fine-grained Tool Streaming GA
ツール使用のきめ細かいストリーミングが全モデル・全プラットフォームで正式利用可能に。ツールコールの引数がストリーミングされるため、ツール実行の開始前から進捗を表示できる。エージェントアプリケーションのUX向上に直結する。
Data Residency Controls
inference_geoパラメータで推論の実行場所をリクエストごとに指定可能に。"global"(デフォルト・最安)か"us"(US限定・1.1倍価格)を選択。コンプライアンス要件がある企業やGDPR等のデータ規制対応に。US限定推論はOpus 4.6以降のモデルで利用可能。
📦 非推奨(Deprecated)
Opus 4.6で非推奨になったAPI。まだ動作するが、将来のリリースで削除予定。早めに移行を推奨。
thinking: {type: "enabled"} & budget_tokens
固定予算型の拡張思考モードが非推奨に。Adaptive Thinkingの方が効率的にコスト・品質を最適化できるため。
thinking: {"type": "enabled", "budget_tokens": N}
thinking: {"type": "adaptive"} + effort パラメータ
interleaved-thinking ベータヘッダー
interleaved-thinking-2025-05-14ヘッダーは不要に。
含めてもエラーにはならないが、Adaptive Thinkingが自動的にインターリーブ思考を有効化するため削除推奨。
output_format → output_config.format
Structured Outputsのパラメータ名が変更。旧パラメータは動作するが将来削除予定。
output_format={"type": "json_schema", ...}
output_config={"format": {"type": "json_schema", ...}}
🚨 破壊的変更(Breaking Changes)
Opus 4.6で既存のコードが動作しなくなる可能性のある変更。特にPrefillの廃止は要対応。
Prefill の完全廃止
アシスタントメッセージのプレフィル(最終アシスタントターンのプレフィル)はOpus 4.6でサポート終了。 プレフィル付きのリクエストを送ると400エラーが返る。 JSONの開始文字をプレフィルしてフォーマットを強制していた場合は、代替手段への移行が必須。
代替手段:
JSON Schemaを指定してレスポンス形式を厳密に制御。最も強力な代替手段。
システムプロンプトでレスポンスのスタイルやフォーマットを指示。
JSON出力を指定するための新しい公式パラメータ。
Tool パラメータのJSONエスケープ変更
ツールコール引数のJSON文字列エスケープが微妙に異なる場合がある(Unicodeエスケープやフォワードスラッシュの処理)。 json.loads()やJSON.parse()などの
標準JSONパーサーを使っていれば問題ない。生文字列として処理している場合は要確認。
👨💻 コーディング性能
エージェントコーディングとソフトウェアエンジニアリングのベンチマークで業界最高水準を達成。
Terminal-Bench 2.0
エージェントがターミナルを操作して複雑なコーディングタスクを実行するベンチマーク。
SWE-bench Verified
実際のGitHubイシューをAIが解決できるかを測定。実用性に最も近いコーディングベンチマーク。
🏆 知識ワーク & 推論
経済的に価値のある実務能力と、人類最高難度の問題解決能力で全モデル中トップ。
GDPval-AA(経済的に価値のある知識ワーク)
企業で実際に価値を生む知識ワーク(文書作成、分析、意思決定支援等)の能力を測定するEloレーティング。
Humanity's Last Exam
人間の専門家が作成した最高難度の問題セット。数学、物理、哲学など多分野を横断。
人類が作れる最難の問題に最も正確に回答
🔍 長文コンテキスト & 検索
100万トークンの長文でも情報を正確に保持し、マルチステップの深い検索でも最高性能。
MRCR v2(1M, 8-needle)
100万トークン中に埋められた8つの情報を正確に見つけるテスト。長文コンテキストの実用的な品質を測定。
4倍以上の精度差。 長文で情報が薄まる「コンテキスト劣化(context rot)」問題が大幅に改善されている。
BrowseComp(エージェント検索)
Web検索を複数ステップ行い、深い情報を見つけるエージェント能力の測定。
深層マルチステップのエージェント検索で最高性能を記録
🔬 専門分野の性能
金融、生命科学、サイバーセキュリティなど、高度な専門知識が必要な分野でも大幅な性能向上。
金融
Anthropic内部のReal-World Finance評価で、Opus 4.5から23ポイント以上改善。実際の金融業務(リスク分析、レポート作成、データ解釈等)で専門家レベルの出力品質。
生命科学
計算・構造生物学、有機化学、系統学で約2倍の性能向上。論文解析やタンパク質構造の推論など、高度な科学的知識を要するタスクで飛躍的に正確に。
サイバーセキュリティ
実際のコード中の脆弱性を競合モデル以上に発見する能力。6つの新しいサイバーセキュリティプローブで評価。防御的セキュリティ用途に最適。
🧩 長期コヒーレンス
長時間のタスクでも文脈を正確に保持し、一貫性のある判断を続けられるか。
Vending-Bench 2
長期的な文脈維持と一貫性のある判断力を測定するベンチマーク。 Opus 4.5と比較して$3,050.53多く稼ぐ結果に。 エージェントタスクが長時間にわたっても品質が劣化しにくいことを示している。
💳 API トークン料金
Opus 4.6のAPI料金体系。200Kトークンを境にスタンダードとプレミアムに分かれる。US限定推論は1.1倍。
通常利用。ほとんどのユースケースに対応
大規模コンテキスト利用時。100万トークン対応
データレジデンシー要件がある場合。inference_geo="us"
🧮 コスト計算例
実際のユースケースごとの概算コスト。使い方によって1回あたり数円〜数千円と幅がある。
チャットボット
約3円。カジュアルなQ&Aに。日常的な質問応答では非常に安価。
コードレビュー
約57円。中規模PRのレビュー1回分。ファイル数が多いほどコスト増。
大規模分析(1Mコンテキスト)
約1,540円。大規模コードベース全体の解析や、長文ドキュメントの横断分析。プレミアム料金が適用。
🌐 利用可能プラットフォーム
Opus 4.6は主要なAIプラットフォームで即利用可能。API直接アクセスからIDE統合、クラウドサービスまで。