AI競争は激化し、ハイテク業界の大手企業同士のキャッチボールになっている。 グーグルI/Oの直前にGPT-4oが発表されたのは偶然ではない。 GPT-4oのマルチモーダリティ、正確にはオムニモーダリティにおける驚異的な能力は、ジェネレーティブAIコンペティションに大きなインパクトを与えた。 しかし、グーグルは決して手をこまねいているわけではない。 Google I/O期間中、GeminiとGemmaの新モデルが発表された。 発表されたすべてのモデルの中で、ジェミニ1.5フラッシュは最もインパクトのあるモデルとして際立っている。 このブログでは、ジェミニ1.5フラッシュの最大の特徴を探り、ジェミニ1.5プロとジェミニ1.5フラッシュ対GPT-4oを比較し、どちらが優れているかを判断する。
ジェミニ1.5フラッシュとGPT-4oの比較
グーグルが発表したベンチマークスコアによると、ジェミニ1.5フラッシュは、グーグルが発表した他のすべてのLLMと比較して、オーディオで優れた性能を発揮し、他のベンチマークでは、現行モデルのジェミニ1.5プロ(2024年2月)と同等である。 LLMの性能を評価するのにベンチマークに完全に頼ることはお勧めできないが、性能の差やマイナーアップグレードを定量化するのには役立つ。 部屋の中の象は、ジェミニ1.5フラッシュのコストである。 GPT-4oに比べ、ジェミニ1.5フラッシュははるかに手頃な価格だ。
コンテキスト・ウィンドウ
Gemini 1.5 Proと同様に、Flashには100万トークンのコンテキストウィンドウが搭載されている。これはOpenAIのどのモデルよりも多く、プロダクショングレードのLLMとしては最大級のコンテキストウィンドウである。 コンテキストウィンドウを大きくすることで、より多くのデータを理解することができ、チャンクサイズを大きくすることで、大きな知識ベースを持つユースケースのためのRAG(Retrieval-Augmented Generation)のようなサードパーティ技術を向上させることができる。 さらに、より大きなコンテキストウィンドウは、より多くのテキストを生成することができ、記事、電子メール、プレスリリースを書くようなシナリオで役立ちます。
マルチモーダリティ
ジェミニ1.5フラッシュはマルチモーダルだ。 マルチモダリティは、音声、ビデオ、文書などの形で文脈を入力することを可能にする。 マルチモーダリティを持つLLMはより汎用性が高く、前処理を必要としない生成AIのより多くの応用への扉を開く。
「Gemini 1.5モデルは、非常に長い文脈を扱うために構築されており、少なくとも10Mトークンまでの細かい情報を想起し、推論する能力を持つ。このスケールは、現代の大規模言語モデル(LLM)の中でも前例がなく、ドキュメントのコレクション全体、複数時間のビデオ、ほぼ5日分の音声を含む、長い形式の混合モダリティ入力の処理を可能にする。”- ディープマインド・レポート
ダッバス=ヒンディー語で列車の客車。 マルチモーダリティと多言語パフォーマンスの実証。
また、マルチモダリティを持つことで、LLMを他の専門サービスの代用として使うこともできる。 例えば。 OCRまたはウェブスクレイピング。
ウェブページからデータを簡単にスクレイピングし、変換します。
スピード
ジェミニ1.5フラッシュは、その名の通り、レスポンスタイムの点で他のモデルより優位に立つように設計されている。 前述のウェブスクレイピングの例では、レスポンスタイムに約2.5秒の差があり、これはほぼ40%高速であるため、Gemini 1.5 Flashは、オートメーション用途や低レイテンシを必要とするユースケースに適した選択肢となる。
ジェミニ1.5フラッシュの興味深い使用例
ビデオの要約
ジェミニ1.5プロのビデオ理解は、AIで最も過小評価されているものだ。
50年代には、スポーツ界で最も象徴的な瞬間の11分のYoutubeビデオ(~175kトークン)を「見て」、(私の知る限り)18の瞬間を完璧にリストアップすることができた。 こんなにいいビデオAIは他にない!pic.twitter.com/LaVGR3ATfU– ディーディー (@deedydas)April 5, 2024
ビデオを使ってコードを書く
これは衝撃的だ。
Geminiに1.5Flashで録画した私の買い物のビデオを渡すと、Seleniumコードを5秒で表示してくれた。 これは多くのことを変えることができるpic.twitter.com/Ojm6aueLe7– Min Choi (@minchoi)2024年5月18日
ゲームプレイの自動化
Gemini 1.5 Flashを使って、スーパーマリオ64を案内してくれるオムニ・アシスタントを自作した。
ジェミニは、私がスクリーンで何をしているかを見ることができ、音声でリアルタイムに私とコミュニケーションをとることができる。 信じられないpic.twitter.com/doTngufjFL– Pietro Schirano (@skirano)May 21, 2024