
先日開催されたGoogle I/Oイベントにおいて、GoogleはGemini APIの強化に関する重要なアップデートを発表しました。このアップデートは、特にコンピュータインタラクション機能に特化したものです。Gemini 2.5 Computer Useの発表は、ユーザーインターフェース(UI)の操作とインタラクションを目的としたAI駆動型モデルの飛躍的な進歩を表しています。Googleは、この新しいモデルがWebとモバイルの両方の制御タスクにおいて、様々なベンチマークで競合製品を凌駕していると主張しています。
Gemini API コンピュータ使用ツールの理解
コンピュータ使用ツール用に設計されたワークフローは、シームレスなインタラクション モデルを中心に構築されており、複数の重要なステップが含まれます。
- 開発者は、まずインターフェースのスクリーンショットと最近実行したアクションのログを含むユーザー リクエストを送信します。
- さらに、開発者は、利用可能な UI アクションの広範なリストから特定の機能を除外するか、カスタム機能を含めるかを指定できます。
- この入力を受け取ると、モデルは情報を処理し、クリックや入力などの対応するアクションを生成します。
- モデルが選択に自信を持てないシナリオでは、エンドユーザーに確認を求めることがあります。例えば、金融取引に関連するアクションを実行する前に、ユーザーによる確認を求めることがあります。
- その後、ボタンを押したり、ユーザーに確認を求めたりするなど、クライアント側のコードを通じてアクションが実行されます。
- タスクが実行されると、現在のグラフィカル ユーザー インターフェイス (GUI) の新しいスクリーンショットがアクティブな URL とともにコンピューター使用モデルに送信され、プロセスがリセットされます。
- 定義されたタスクが正常に完了するまで、これらの手順が繰り返されます。
パフォーマンス分析とアクセシビリティ
Gemini 2.5のコンピュータ利用モデルは、ウェブブラウザでのパフォーマンスを最適化するように微調整されていますが、GoogleはモバイルUI操作においても優れた結果をもたらすと述べています。ただし、このモデルはまだ開発中であり、デスクトップOSレベルの制御向けにはまだ微調整されていない点に注目すべきです。この点は、Googleが最近の発表で強調した点です。

開発者向けの可用性
Gemini 2.5 コンピュータ利用モデルがパブリックプレビューとして開始され、Google AI StudioやVertex AIなどのプラットフォーム上の Gemini API を通じて開発者がアクセスできるようになりました。この開発者向け強化機能は、高度な AI 機能を通じてユーザーインタラクションを強化し、タスクを効率化することを目的としています。
より詳しい情報やビジュアルリソースについては、元の発表をこちらでご覧ください。
コメントを残す