
Anthropicが新モデルClaude Opus 4.5を発表しました。コーディングとエージェント機能で世界最高の性能を持つこのモデルは、同社の採用試験で過去の人間候補者全員を上回るスコアを記録しています。AIが実務で人間と同等以上の能力を発揮する時代の到来を告げる、この発表の詳細をお伝えします。
ARCHETYP Staffingでは現在クリエイターを募集しています。
エンジニア、デザイナー、ディレクター以外に、生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
ボタンから募集中の求人一覧ページに移動できます。
人間を超えた技術試験のスコア

Anthropicは新モデルのテストに、社内のパフォーマンスエンジニア採用試験を使用しています。難易度の高さで知られるこの試験は、技術的な能力と時間的プレッシャー下での判断力を評価するものです。Claude Opus 4.5にこの試験を受けさせたところ、驚くべき結果が出ました。規定の2時間という制限時間内で、過去のどの人間候補者よりも高いスコアを記録したのです。
もちろん、この試験がすべてを測るわけではありません。Anthropicも認めているように、コラボレーションやコミュニケーション、長年の経験から培われる直感といった要素は測定していません。それでも、重要な技術スキルでAIが優秀な人間候補者を上回った事実は無視できないものです。同社はこの結果を受けて、AIがエンジニアリングという職業をどう変えていくのかという問いを投げかけています。社会的影響と経済の未来に関する研究チームが多くの分野にわたってこうした変化を調査しており、近日中に結果を公開する予定です。
実は、試験の結果だけがOpus 4.5の能力を示しているわけではありません。リリース前のテストでは、社員から一貫したフィードバックが寄せられました。手取り足取りの指示なしで曖昧な状況を処理し、トレードオフについて推論できるというのです。複雑なマルチシステムのバグを示すと修正方法を見つけ出すことができ、「数週間前にはSonnet 4.5ではほぼ不可能だったタスクが、今では手の届く範囲になった」とテスターは語りました。多くの関係者がOpus 4.5について、単に「理解している」という印象を共有しています。
では、この理解力は実際の問題解決でどう発揮されるのでしょうか。
創造的問題解決が示す新しい可能性

Opus 4.5の進化はソフトウェアエンジニアリングにとどまりません。視覚認識、推論、数学といった分野でも前世代のモデルを大きく上回る性能を示しており、多くの領域で最先端の水準に到達しています。そして興味深いのは、モデルの能力が一部のベンチマークテストの想定を超え始めている点です。
エージェント機能を測定する一般的なベンチマーク「τ2-bench」では、実世界のマルチターンタスクでAIの性能を評価します。あるシナリオでは、航空会社のサービスエージェントとして困っている顧客を支援しなければなりません。ベンチマークは、ベーシックエコノミー予約の変更依頼に対して「航空会社がそのクラスのチケット変更を許可していない」という理由で拒否することを正解としています。
しかしOpus 4.5は、ルールに従いながらも別の道を見つけました。まずキャビンクラスをアップグレードしてから、フライトを変更するという方法です。航空会社の規則に則った正当な手段でありながら、顧客の要望を満たす解決策でした。ベンチマークのシステムは想定外の解決方法だったため、技術的にこれを「失敗」と判定しましたが、実際の顧客サービスの観点から見れば理想的な対応といえます。Anthropicは、こうした創造的な問題解決こそが「Opus 4.5の本質」だと説明しています。
ただし、この能力には慎重に向き合う必要があります。AI研究の分野では「報酬ハッキング」と呼ばれる現象があり、モデルが意図しない方法でルールや目的を出し抜いてしまうケースを指します。創造的な問題解決と報酬ハッキングの線引きは微妙で、文脈によって判断が分かれるのです。だからこそAnthropicは、こうした不整合を防ぐことを安全性テストの重要な目的として位置づけています。
高い能力を持つモデルだからこそ、安全性の確保が欠かせません。
安全性と効率性の大幅向上

Anthropicが公開したシステムカードによれば、Opus 4.5は同社がこれまでにリリースした中で最も堅牢に整合されたモデルであり、おそらくどの開発者による最先端モデルの中でも最も整合性の高いモデルだとしています。特に大きく進展したのがプロンプトインジェクション攻撃への耐性です。これは欺瞞的な指示を密かに埋め込んでモデルを騙し、有害な行動を取らせる手法で、重要なタスクにAIを使用する際の深刻な脅威となります。Opus 4.5は、こうした攻撃に対して業界の他のどの最先端モデルよりも騙されにくい設計になっています。
安全性だけでなく、効率性も大きく向上しました。トークン使用量、つまりAIが処理するテキストの単位が大幅に削減され、使用量がそのままコストに直結するため、この改善は利用者にとって重要な意味を持ちます。モデルが賢くなるほど無駄なバックトラックや冗長な探索が減り、より少ないステップで問題を解決できるようになるのです。具体的には、中程度のeffortレベルでOpus 4.5はSWE-bench VerifiedでSonnet 4.5の最高スコアに匹敵しながら出力トークンを76%削減し、最高レベルではパフォーマンスを4.3ポイント上回りながらトークンを48%削減しました。
新しく追加されたeffortパラメータでは、タスクに応じて時間とコストを最小化するか能力を最大化するかを選択できます。さらにコンテキスト管理とメモリ機能を組み合わせると、エージェントタスクのパフォーマンスが劇的に向上し、深い調査を行う評価では約15ポイントのパフォーマンス向上が確認されています。
そして価格は100万トークンあたり5ドル/25ドルで、本日よりアプリ、API、主要な3つのクラウドプラットフォームすべてで利用可能になりました。製品面では複数のアップデートも発表されています。Claude Codeはデスクトップアプリに対応し複数のセッションを並行実行でき、Claude for ChromeはすべてのMaxユーザーに、Claude for ExcelはMax、Team、Enterpriseユーザーに提供されます。Claudeアプリでは長い会話の制限が解除され、使用上限も引き上げられました。
高い性能と安全性を兼ね備えたOpus 4.5が、いよいよ日常業務で本格的に使える環境が整ったのです。
まとめ

いかがだったでしょうか?
Claude Opus 4.5は、採用試験で人間を上回るスコアを記録し、創造的な問題解決能力を示しました。安全性を高めながらトークン使用量を大幅に削減し、より低コストで高い性能を実現しています。AIが実務レベルで人間と同等以上の能力を発揮する時代が、すでに始まっています。
ARCHETYP Staffingではクリエイターを募集しています!
私たちはお客様の課題を解決するweb制作会社です。現在webサイト制作以外にも、動画編集者や生成AI人材など幅広い職種を募集していますのでぜひチェックしてみてください!
また、アーキタイプではスタッフ1人1人が「AI脳を持ったクリエイター集団」としてこれからもクライアントへのサービス向上を図り、事業会社の生成AI利活用の支援及び、業界全体の生成AIリテラシー向上に貢献していきます。
生成AIの活用方法がわからない、セミナーを開催してほしい、業務を効率化させたいなどご相談ベースからお気軽にお問い合わせください!
ボタンから募集中の求人一覧ページに移動できます。



