生成AI

最終更新日:2025/10/03
Anthropicは、世界最高のコーディング性能を持つ「Claude Sonnet 4.5」を発表しました。様々なベンチマークで最先端の性能を発揮しており、安全性や価値整合性についても大幅に改善されています。
このニュースのポイント
米Anthropic社は、世界最高のコーディング性能を持つ「Claude Sonnet 4.5」を発表しました。あわせて既存プロダクトの大幅アップデートが実施されます。
Claude Codeには、進行状況を保存して即座に以前の状態に戻せる「チェックポイント」機能が追加されました。ターミナルのインターフェイスも刷新され、ネイティブのVS Code拡張機能が提供されています。
Claude APIには、コンテキスト編集機能とメモリツールが追加され、エージェントがより長時間稼働し、より複雑な処理に対応できるようになりました。
また「Claude Sonnet 4.5」は、コーディング性能だけでなく、推論能力や数学能力にも大きな改善が行われ、様々なベンチマークで最先端の性能を発揮しています。
実際のソフトウェアコーディング能力を測定する「SWE-bench Verified」ベンチマークでは、最先端の性能を示しました。実際の運用でも、複数のステップを踏む必要がある複雑なタスクにおいて、30時間以上集中して取り組めることが確認されています。
AIモデルを実際のコンピュータータスクで実行する「OSWorld」ベンチマークでは「Claude Sonnet 4.5」が61.4%を記録し、トップの性能を発揮しています。あわせて提供される拡張機能「Claude for Chrome」はこの機能を活用し、Claudeがブラウザ内で直接操作を行い、サイトの閲覧やスプレッドシートの記入、タスクの完了ができます。
それ以外にも、推論や数学を含む幅広いベンチマークにおいても能力の向上を示しています。金融、法律、医学、STEMの専門家によると「Claude Sonnet 4.5」は、「Opus 4.1」などの古いモデルと比較し、特化分野の知識や推論能力において大幅に優れていると評価しました。
また「Claude Sonnet 4.5」は、性能面だけでなく安全性やモデル整合性についても大幅に改善されています。追従や欺瞞、権力追求、妄想的な思考を助長する傾向が抑えられています。
自律的な行動やコンピューター操作機能において、リスクとされるプロンプトインジェクション攻撃への対策も大きく改善されており、システムカードでは、安全性と整合性に関する詳細な評価が記載されています。
さらに、開発者向けにAIエージェント構築用ツールキット「Claude Agent SDK」も公開されました。これはClaude Codeを支える基盤技術であり、長期タスクにおけるメモリ管理、ユーザー制御と自律性のバランスを取る権限システム、複数のサブエージェントの協調といった課題を解決しており、開発者はこれを利用してコーディングに限らず多様な分野で独自のエージェントを構築できます。
出典:Anthropic
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら