GPT-5.4: コンピュータを支配しようとするOpenAIの新しいモデル

  • GPT-5.4 では、ネイティブ コンピュータの使用と最大 100 万トークンのコンテキスト ウィンドウが導入されています。
  • このモデルにより、専門的なタスクでのパフォーマンスが向上し、スプレッドシートやプレゼンテーションでのエラーが減り、効率が向上します。
  • OpenAI は、より高価だがトークン消費がより効率的な GPT-5.4 Thinking および GPT-5.4 Pro バリアントをリリースしました。
  • この立ち上げは、Google や Anthropic との激しい競争と、OpenAI の評判が危機に瀕している中で行われた。

GPT-5.4

OpenAI 新たな展開を見せた 人工知能戦略に GPT-5.4このモデルは、より高い計算能力と合成ベンチマークにおける優れたスコアを約束するだけでなく、実世界の業務自動化に向けた明確な一歩を踏み出すものです。同社はこのシステムを、専門的な環境、長時間のタスク、そしてまるでコンピューターの前に座っている人間のように操作できるエージェントに焦点を当て、これまでで最も有能で効率的なモデルであると位置付けています。

この発表は、サム・アルトマン氏の会社にとって、米国防総省との合意や#QuitGPTのようなボイコット運動に関連した評判の危機に陥っている微妙な時期に行われた。GPT-5.4の発表は、 GPT-5.3 インスタントこれは技術的かつ政治的な動きとして機能し、ユーザーと主要クライアントの信頼を取り戻そうとしながら、技術的な力を発揮します。

異なるプロファイルの2つのバリエーション:GPT-5.4 ThinkingとGPT-5.4 Pro

OpenAIはGPT-5.4を2つの主要なバージョンでリリースしました。 GPT-5.4の思考ChatGPTの有料プラン(Plus、Team、Pro)で利用可能で、 深く多段階的な推論このモデルは、ユーザーにタスクへのアプローチ方法のプレビューを示し、ユーザーが最初からやり直すことなく、応答の途中で介入して指示をリダイレクトすることを可能にします。OpenAIが「推論をカットしてリダイレクトする」と呼んでいるこの能力は、 操縦性ユーザーがプロセスをより細かく制御したい複雑な問題向けに設計されています。

一方、 GPT-5.4 プロこのバリアントは、持続的なパフォーマンスが最も重要となる大規模な企業や開発を対象としています。 集中的なタスクと複雑なワークフロー長時間労働を強いられ、多数の文書を処理し、逐次的な意思決定を行う必要があるエージェントに特に重点を置いています。APIでは、どちらのバージョンもカスタム製品のエンジンとして利用可能で、Codexの後継であるコード指向プラットフォームとの統合も可能です。

人間のユーザーのようにコンピューターを操作する AI。

最も注目を集めている機能は、GPT-5.4がOpenAIの最初の汎用モデルであることです。 ネイティブコンピュータ使用機能同社では「コンピュータの使用」という用語を、システムがテキスト生成に限定されず、 彼は画面に映っているものを解釈する (高解像度のキャプチャと表示を通じて)そして マウスとキーボードの操作を発する タスクを完了します。

実際には、これにより、最近まで日常的なSFのように聞こえたシナリオ、例えばAIにメールを開いたり、請求書をダウンロードしたり、重要なデータを抽出してスプレッドシートに貼り付けたり、あるいは様々なビジネスアプリケーションを操作してフォームに入力したり、データベースに問い合わせたり、レポートを作成したりといったことを実行できるようになります。社内ベンチマークによると、テストでは OSWorld検証済みデスクトップ環境を扱う能力を正確に測定するGPT-5.4は、 成功率75%、 の上に GPT-5.2の47,3% また、平均的な人間のパフォーマンスは、 72,4%.

これらのスキルは、 エージェントベースAIOpenClawエージェントのようなツールは、ユーザーのコンピュータを「制御」して反復的なタスクを自動化するように設計されており、画面を解釈し、一連のアクションを完全に実行するように事前設定されたモデルから直接恩恵を受けます。管理部門、財務部門、技術サポート部門でエージェントをテストしている欧州企業にとって、単に応答するだけのチャットボットと実際に行動するモデルの違いは顕著です。

最大100万トークンのコンテキストウィンドウ

GPT-5.4のもう一つの大きな特徴は、短期記憶容量です。APIとCodexとの統合により、モデルは以下をサポートします。 最大100万トークンのコンテキストウィンドウこれにより、GPT-5.2 に関連付けられたオペレーティング メモリ (約 400.000 トークン) が 2 倍以上に増加し、数百ページに及ぶ契約書、膨大なコード リポジトリ、顧客データベース、年次財務レポートなど、膨大な量の情報を扱う人にとっては大きな飛躍となります。

銀行規制からコンプライアンス文書まで、広範な規制への対応に慣れている欧州企業や法律事務所にとって、 RGPDこの拡張されたコンテキストにより、文書を人為的に断片化することなく、文書セット全体を処理することが可能になります。その結果、 失われるコンテキストが少なくなり、省略エラーが削減され、一貫性がよりよく維持されます。 多くのステップを通じて正確な指示に従う必要があるタスクの場合。

GPT-5.4は、記憶に加えて、いくつかの情報源が「 「極端な推論」このアプローチにより、複雑な質問により多くの計算能力を割くことができ、数秒ではなく数時間かかるプロセスを実行できるようになります。これは単に迅速に応答することではなく、 より深く、より一貫性のある長期分析を維持するこれは、長期プロジェクトでヨーロッパで活動するコンサルタント会社、監査人、または研究チームにとって特に重要です。

ツールの検索とツールの使用効率

APIを構築する開発者にとって、最も実用的な新機能の1つは ツール検索これまで、モデルはコンテキスト内で利用可能なすべてのツールの定義を受け取る必要があり、機能豊富なシステムではトークンの消費量が大幅に増加していました。ツール検索により、GPT-5.4は 必要なツールを動的に検索する 常に、必要な情報のみを参照します。

36の異なるツールサーバーを使用した250のMCP Atlasベンチマークタスクのテストでは、この形式の動的アクセスは トークンの総消費量を約47%削減同じレベルの精度を維持しながら。課金システムから社内CRMやERPまで、数十のマイクロサービスを備えたエージェントプラットフォームを設計している欧州企業にとって、この改善は次のようなメリットをもたらします。 運用コストの削減と応答時間の短縮ワークフローの複雑さを犠牲にすることなく。

プロフェッショナルなパフォーマンス: オフィスからスプレッドシートまで

技術的な見出しを超えて、GPT-5.4は次のようなタスクのために明確に設計されています。 専門知識テストでは GDP値44の異なる職業でAIエージェントが実際の仕事を生み出す能力を測定する新しいモデル 比較の83%において人間の専門家と同等か上回るこれらのタイプのタスクは、ビジネスプレゼンテーションの準備から基本的な財務分析、法的文書の草稿作成まで多岐にわたります。

OpenAIは特にスプレッドシートとプレゼンテーションの操作性の向上を強調しています。社内の財務モデリングベンチマークでは、GPT-5.4は 87,3%のスコアの前 GPT-5.2の68,4%Excel または同等のツールで複雑なモデルを扱う欧州の銀行、保険会社、またはフィンテック企業にとって、この違いは、サポート ツールと、限られた監督の下でジュニア アナリストのタスクを実行できるアシスタントとの間の大きな違いとなります。

プレゼンテーションの分野では、人間の評価者が好まれ、 スライドの68%はGPT-5.4によって生成された 前バージョンと比較して、美観とビジュアルの多様性の両方において大幅な改善が図られています。これらの機能強化は、明確で構造化されたプレゼンテーションの作成に多くの時間を費やすスペインの営業、マーケティング、コンサルティングチームの日常業務に最適です。

長い回答でもエラーが少なくなり、信頼性が高まります

以前のモデルに対するよくある批判の一つは、「幻覚」を起こす傾向があること、つまり、データを捏造したり、信頼性の低い情報源を混ぜたりする傾向があることでした。OpenAIは、GPT-5.4は 虚偽の陳述をする可能性が33%低下 GPT-5.2とその完全な回答は エラーの可能性が18%低下これらの数値は社内テストから得られたものですが、AI は次のような規制対象分野に適していることを示唆しています... 財政または健康不正確な情報は深刻な問題を引き起こす可能性があります。

より広い文脈的視野、拡張された推論モード、そして途中でプロセスを中断して軌道修正できる能力の組み合わせが、この信頼性の向上に貢献しています。マドリードの法律事務所やブリュッセルのコンサルティング会社にとって、完全な報告書の作成が完了する前にモデルの「攻撃計画」を確認できることは、 逸脱や不適切なアプローチを時間内に検出する後続のレビューにリソースや時間を無駄にすることなく。

技術ベンチマークにおけるプログラミングとパフォーマンス

ソフトウェア開発の分野では、GPT-5.4は GPT-5.3-コーデックス そしてOpenAIによれば、次のような厳しいテストでは同等かそれ以上の性能を発揮している。 SWE-ベンチプロ レイテンシが低い。スコアの向上は目覚ましいものではない(解決されたインシデントの割合が中程度に上昇した程度)が、コード、推論、そしてネイティブコンピュータの使用を単一のモデルに組み合わせることで、興味深いシナリオが生まれる。 コード リポジトリを読み取り、ファイルを変更し、実際の環境で変更をテストします。すべて同じフロー内にあります。

API経由でGPT-5.4を統合するヨーロッパの開発者にとって、重要なのは正確なベンチマーク数値ではなく、 モデルはより少ないトークンを使用して同様のタスクを解決しますOpenAIは、GPT-5.4がこれまでで最もトークン効率の高い推論システムであると主張しており、より少ない「内部単語」で同じ結論に到達できることを意味します。トークン単位で料金を支払う企業にとって、この効率性は100万トークンあたりの料金増加を十分に相殺できる可能性があります。

ウェブ閲覧と複雑な検索

GPT-5.4が以前のバージョンより改善されたもう一つの領域は、ウェブインタラクションです。 ブラウズコンプ新しいモデルは、オンライン検索とリサーチのタスクに焦点を当て、 82,7%の前 GPT-5.2の65,8%OpenAI は、GPT-5.4 が特に優れていると主張しています... 関連情報を特定する 大量のデータの中から、いわゆる「干し草の山の中の針」を探すようなクエリです。

欧州のジャーナリスト、市場アナリスト、研究者にとって、この機能は、監督と最終検証の役割を維持しながら、情報選別作業の一部をAIに委託できることを意味します。このモデルは複数の情報源を追跡し、最も信頼性が高いと思われる情報源を選択し、根拠のある要約を提供することで、繰り返しの検索にかかる時間を削減します。

価格は高くなるが、効率も向上する

価格面では、GPT-5.4はGPT-5.2に比べて価格が上昇しています。標準モデルは 入力トークン2,50万個あたり15ドル、出力トークンXNUMX万個あたりXNUMXドルGPT-5.2ではそれぞれ1,75ドルと14ドルであった。 GPT-5.4 プロ かなり高価です: 入力トークン30万個あたり180ドル、出力トークンXNUMX万個あたりXNUMXドル明らかに高付加価値のビジネスプロジェクトに向けた数字です。

OpenAIはこれらの手数料を擁護するために、 トークン消費の効率向上 そしてエラーの削減にも貢献します。モデルが同じタスクを実行するのに必要なトークン数が大幅に少なく、手動修正を必要とするエラーも少ない場合、トークン価格が高くてもプロジェクトあたりの総コストは低くなります。欧州の大口顧客、システム上重要な銀行から大手産業グループに至るまで、議論の焦点はもはや百万トークンあたりの名目価格ではなく、結果が保証されたプロセスを自動化するための総コストにあります。

論争と激しい競争の中での立ち上げ

GPT-5.4はどこからともなく現れるわけではありません。 AnthropicとGoogleとの非常に熾烈な競争OpenAIと国防総省の合意をめぐるメディアの騒動の中、AnthropicはClaude Opus 4.6などのモデルとセキュリティ重視のアプローチでエンタープライズ分野で地位を確立している一方、GoogleはGeminiファミリーと高度なマルチモーダル機能で競合している。こうした状況において、GPT-5.4はベンチマークモデルとしての地位を確立することを目指している。 エージェント能力、コンピュータの使用、長期的な文脈.

同時に、この運動は次のようなキャンペーンの後に起こった。 #CancelChatGPT と QuitGPTこれらの行動により、数十万人がサブスクリプションを解約したり、ソーシャルメディアでボイコットを表明したりしました。OpenAIが十分な保障措置なしに軍事契約を受諾し、Anthropicがそれを拒否したという認識は、同社の評判を一部損ないました。AIの倫理的利用と規制に関する議論が、近々施行されるAI法などの枠組みとともに進展している欧州では、これらの契約は特に注目されています。

インフラコストと収益性へのプレッシャー

GPTの新しいバージョンが登場するたびに、目に見えない現実が隠されている。それは、巨大なコンテキストウィンドウを持つ、ますます大規模になるモデルを運用するコストだ。OpenAIは、数百万ドル規模の インフラとコンピューティングの支出収益の大幅な増加にもかかわらず、今後数年間は大幅な損失が見込まれています。GPT-5.4のようなモデルは、最大100万トークンを処理でき、推論モードは数時間にわたって実行できるため、リクエストごとにかなりの計算能力を必要とします。

これらのコストを抑えるために、同社は 独自仕様または特殊なハードウェア 主要クラウドプロバイダーとの契約を通じて実現しています。また、カタログを複数の階層(Instant、Thinking、Pro、Codex)に分割し、各リクエストの種類に割り当てる処理能力を調整しています。GPT-5.4で導入された構成可能なモードは、ユーザーがより高速で安価な応答とより詳細な分析を選択できるようにすることで、容量と費用対効果のバランスをとるというこの試みと一致しています。データセンターと電力消費が規制の厳しい監視下にある欧州では、この種のモデルはAIのエネルギーへの影響に関する議論を再燃させています。

新たな常態に向けて:エージェント、セキュリティ、そして絶え間ない変化

GPT-5.4 は、技術仕様を超えて、すでに現れていたトレンドを強化します。 チャットボットから自律エージェントへの移行ネイティブなコンピュータの使用、長期的なコンテキスト管理、そして動的なツールの組み合わせは、時折の人間の介入を伴うプロセス全体を管理できるシステムを示唆しています。分析企業は、2026年末までに、大企業の大部分が、顧客サービスから社内文書管理に至るまで、重要なタスクにGPT-5.xシリーズのエージェントベースアーキテクチャを採用すると予測しています。

この動きには、次のような不快な疑問が伴う。 セキュリティとコントロールモデルが何時間も稼働し、機密データを参照し、内部システムに対してアクションを実行する場合、監視メカニズムとセキュリティバリアははるかに堅牢でなければなりません。欧州の研究コミュニティを含む業界内外の人々は、ますます強力なモデルのリリース競争が、効果的な安全対策の開発を上回ってはならないと長年警告してきました。

OpenAIはGPT-5.4で、信頼性を損なうことなく、より強力で、より自律的で、より効率的な処理を実現できることを実証しようとしています。このモデルはベンチマークで性能が向上し、エラーが減り、トークンの使用量が減り、コンピューターをスムーズに操作できるようになりましたが、倫理的なジレンマ、競争圧力、そしてこのイノベーションのペースが経済的に持続可能かどうかという疑問も抱えています。スペインをはじめとするヨーロッパの企業や専門家にとって、もはや問題は技術が優れているかどうかだけではありません。 それを責任を持って日常生活に取り入れる方法明確なメリットと管理可能なリスクを伴います。

ChatGPTエージェント
関連記事
ChatGPTエージェント:OpenAIが複雑なタスクを自動化する自律エージェントへ飛躍