2024 年は、テクノロジー業界、特に Google にとって大きな変化の年となり、同社は Gemini の旗印のもと、さまざまな AI イノベーションを発表しました。この取り組みでは、複数の基礎 AI モデルとともに、会話型チャットボットが大きな特徴となっています。
Google は、この 1 年を通じて、生成 AI 分野で数多くの製品と機能強化を導入しました。これらの新しい Gemini 機能のハイライトに加えて、このテクノロジー大手が 2024 年に廃止するさまざまな製品や、予想される Instagram 機能のウィッシュリストを調べる価値はあります。
注:次のリストは主に 2024 年にリリースされた Gemini の主要な機能に焦点を当てていますが、すべての開発を網羅しているわけではありません。
吟遊詩人から双子座へ: リブランディング革命
今年の大きな変革は、Google が Bard チャットボットを Gemini にリブランドし、命名規則を既存のモデルと一致させたことです。この移行と並行して、このテクノロジー企業は Gemini 1.0 Pro モデルを展開し、チャットボットを 230 か国 40 を超える言語で利用できるようにしました。
Google のエンジニアは、ジェミニという名前に込められた象徴的な意味について、二重性で知られる星座に関連付けて説明し、それがジェミニのさまざまなデータ タイプを処理する能力と似ていると述べました。さらに、この名前は、NASA の初期の月探査計画であるジェミニ計画に敬意を表したものでした。
モバイルアプリとサブスクリプションモデルの導入
2月にGoogleはAndroid向けのGeminiアプリを発表し、最終的にGoogle Assistantに取って代わりデフォルトの音声アシスタントとなった。Androidユーザーは新しいチャットボットを歓迎したが、iOSユーザーはGoogleアプリを通じてアクセスできた。
同月、Gemini Advanced と呼ばれる有料サブスクリプション サービスが導入され、ユーザーは Gemini Ultra 1.0、1.5 Pro、Gemini-Exp-1206 などの実験バージョンを含む最上位モデルにアクセスできるようになりました。
さらに、「Help Me Write」などの機能が Chromebook Plus デバイスで利用できるようになり、ホーム画面のアプリ シェルフに便利な Gemini ボタンが提供されるようになりました。
Google マップに AI を統合
3月にGoogleは、Googleマップのサポートを統合することで、Geminiチャットボットの有用性を高めました。ユーザーはチャットボットから直接ナビゲーションコマンドを発行できるようになりました。
たとえば、ユーザーが「[X] までナビゲートして」と言うと、Gemini は移動距離、予想所要時間、Google マップへのリンクなどの情報を表示し、その後すぐにナビゲーションを開始します。
Vids の紹介: 新しいビデオ作成ツール
Google は 4 月に、トレーニング、マーケティング、その他の目的のためのビデオ作成を簡素化することを目的とした Gemini 強化ツールである Vids をリリースしました。タイムライン スタイルのインターフェースにより、ユーザーは Google ドライブからビデオ アセットをシームレスに組み立てたり、ナレーションを録音したり、アプリケーションから直接撮影したりできます。
コラボレーション機能を使用すると、ユーザーは自分のプロジェクトを編集、コメント、表示できるユーザーを管理できます。Google Vids は Workspace スイート内の有料アドオンであることに注意してください。
YouTubeミュージック統合
5 月に新しい YouTube Music 拡張機能が導入され、Gemini ユーザーは YouTube Music と連携してトラックを発見したり、ラジオ局を聴いたり、新しいアーティストやプレイリストを探したりできるようになりました。
継続的な開発: 新しいジェミニモデル
2024 年には、Gemini モデルのさまざまなアップグレードも行われました。5 月にリリースされた Gemini 1.5 Flash では、要約、チャット インタラクション、画像や動画のキャプション作成、データ抽出などのタスクに最適化された軽量 LLM が提供されました。
さらなる機能強化には、よりコンパクトなバージョンの Gemini 1.5 Flash-8B と、コーディング タスクのパフォーマンスが向上した新しい Gemini 1.5 Pro モデルが含まれています。12 月には、Google はネイティブに生成された画像と多言語オーディオ機能のサポートを特徴とする実験的な Gemini 2.0 Flash モデルを発表しました。
写真アシスタントに質問する
Google I/O 2024 で、Ask Photos アシスタントが発表されました。Gemini を搭載したこのデジタル ヘルパーは、ギャラリーを精査し、パーソナライズされたキャプションを生成し、旅行のスナップショットを作成するように設計されています。
教育分野への進出
5月にGoogleは、Gemini EducationとGemini Education Premiumという2つの新しいアドオンをリリースし、Geminiの機能を教育分野に拡張しました。これらの機能には、AI駆動のメモ作成機能や強化されたデータ保護対策などが含まれます。
ワークスペースアプリケーションへの Gemini の組み込み
Google は、プラットフォーム間で AI を統合するという使命を継続し、6 月に Workspace アプリケーション内に Gemini サイド パネルを発表しました。これらのパネルは、アプリのコンテキストに基づいて機能をカスタマイズします。たとえば、Gemini は Gmail でメール スレッドを要約したり、Google スライドでプレゼンテーション スライドの作成を支援したりできます。
11 月までに、Google Chat に Gemini サイドパネルが追加され、ユーザーは会話を効率的に要約できるようになりました。
Gemini Live のご紹介
8 月の Pixel ハードウェア イベントで、Google は AI チャットボットによるダイナミックな会話体験を実現する Gemini Live を発表しました。ユーザーは、アプリがバックグラウンドで実行されているときやデバイスがロックされているときでも、自然な対話に参加し、会話を再開できます。
この機能は当初 Gemini Advanced プランの一部でしたが、その後 Android と iOS の両方の Gemini アプリを通じてすべてのユーザーが利用できるようになり、その後すぐに 40 を超える言語のサポートが追加されました。
カスタマイズされた宝石の作成
Custom Gems の導入により、ユーザーはイベントのアイデアをブレインストーミングしたり、仮想チューターとして機能したりするなど、特定のタスクに合わせて独自の Gemini チャットボットをカスタマイズできるようになりました。
このプレミアム機能は、150 か国以上の Gemini Advanced、Business、Enterprise プランのユーザーが利用できます。ユーザーは、Gem マネージャーを通じて、あらかじめ作成された Gem を検索したり、新しい Gem を直接作成したりできます。
Imagen 3とWhisk Generatorのリリース
Google は 10 月に、テキストから画像を生成する最高レベルのモデルである Imagen 3 をリリースしました。これは Gemini エコシステムとシームレスに統合され、すべての言語をサポートしています。このモデルは、ユーザー指示の理解度を高め、写真のようにリアルな風景、芸術的な絵画、想像力豊かなシーンの作成を可能にし、その後の改良も可能です。
Google は Imagen 3 に加えて、既存の画像から画像を生成できる Whisk ツールも発表し、クリエイティブな提供内容をさらに拡大しました。
ジェミニ、オペラとスナップチャットとのコラボレーション
Google は Opera と提携して Gemini の機能をブラウザ内 AI である Aria に統合し、高度なテキスト音声変換機能と画像生成機能によってブラウジング体験を向上させました。
さらに、Snapchat は Google と協力して My AI チャットボットを改良し、より洗練されたマルチモーダル エクスペリエンスを実現しました。レポートによると、この統合により、米国ではプラットフォームでのユーザー エンゲージメントが 2.5 倍に増加しました。
ディープリサーチ:新しいAIリサーチアシスタント
大規模な調査に携わる人々のために、新しい Deep Research アシスタントはプロセスを効率化することを目的としています。このツールは、徹底的なドキュメント分析、要約、大規模なデータセットからの重要な洞察の抽出を容易にします。
また、Gemini Advanced では、ディープ リサーチと呼ばれる新しいエージェント機能も導入しています。これは、複雑なトピックを掘り下げて、関連するソースへのリンクを含むレポートを作成できるリサーチ アシスタントです。pic.twitter.com/ imYd4tktEG
— サンダー・ピチャイ (@sundarpichai) 2024 年 12 月 11 日
Deep Research は Gemini Advanced の一部として利用可能で、150 か国以上で 45 を超える言語をサポートしています。
マップで自然言語を使ってナビゲートする
Google マップの最近の機能強化により、ユーザーは自然言語検索を実行できるようになりました。たとえば、「夜に友達とやるべきこと」と入力すると、提案された場所の要約レビューが表示され、より直感的なブラウジング体験が提供されます。
Spotifyからのストリーミング
Gemini の最新アップデートでは、YouTube Music とともに Spotify との互換性が導入されました。Spotify Premium アカウントを持っているユーザーは、Android の Gemini インターフェースから曲をリクエストしたり、プレイリストを閲覧したり、歌詞を使って音楽を検索したりできるようになりました。
ジェミニをめぐる論争
グーグルのジェミニは、その進歩にもかかわらず、論争に直面している。2月には、画像生成機能が偏向していると批判され、グーグルが懸念に対処するまでの間、サービスが一時的に停止された。
他の報告では、特定の設定が無効になっている場合でも、許可されていない PDF 要約のインシデントが発生したことが指摘されています。さらに、調査結果では、請負業者のチームが競合モデルと比較して Gemini の出力を評価するのに協力していたことが明らかになり、応答の類似性について疑問が生じています。
コメントを残す