カテゴリーなし - Cody - The AI Trained on Your Business

Gemini Embedding 2：グーグル初のマルチモーダル埋め込みモデル

Om Kamath — Tue, 24 Mar 2026 03:02:17 +0000

Gemini Embedding 2：機能、ベンチマーク、価格、開始方法

先週、グーグルはジェミニエンベッディング2は、Geminiアーキテクチャ上に構築された初のネイティブなマルチモーダルエンベッディングモデルである。エンベッディングを何らかの形で扱うのであれば、これは注目に値する。これは、今日ほとんどのチームが依存しているマルチモデルのエンベッディングパイプラインを大きく破壊する可能性を秘めています。

これまで、OpenAI、Cohere、Voyageの主要な埋め込みモデルは、主にテキストベースでした。画像とテキストのアライメントにはCLIP、画像とビデオにはVoyage Multimodal 3.5など、いくつかのマルチモーダル・オプションは存在しましたが、単一の統一されたベクトル空間で、あらゆるモダリティをカバーするものはありませんでした。音声は通常、埋め込む前に書き起こす必要があった。ビデオでは、フレーム抽出と個別のトランスクリプト埋め込みが必要でした。画像は、完全に独自のベクトル空間に存在していました。

Gemini Embedding 2はその方程式を変える。1つのモデル、1つのAPIコール、1つのベクトル空間。

新情報を掘り下げてみよう。

Gemini Embedding 2とは何ですか？

Gemini Embedding 2(gemini-embedding-2-preview) は、Google DeepMind初の完全なマルチモーダル埋め込みモデルである。テキスト、画像、ビデオクリップ、音声記録、PDF文書を取り込み、それらすべてを同じ共有意味空間に存在するベクトルに変換する。

CLIPのような以前のマルチモーダルアプローチは、ビジョンエンコーダとテキストエンコーダをペアにして、最後に対比学習でそれらを調整するものであったが、Gemini Embedding 2は、Geminiの基礎モデルそのものに基づいて構築されている。これは、深いクロスモーダル理解を基礎から受け継いでいることを意味する。

ナノバナナを使用した画像

実例ビデオチュートリアル、オーディオレクチャー、文書によるガイドで学習管理システム（LMS）を構築しているとします。Gemini Embedding 2を使用すると、これらすべてのコンテンツのエンベッディングを単一のベクトル空間に格納し、ビデオ、オーディオ、ドキュメントから関連するチャンクを取得するRAGベースのチャットボットを構築することができます。これまでは、何層ものエンベッディングパイプラインが必要でしたが、それでも、トランスクリプトをキャプチャするだけで、ビデオのビジュアルコンテキストやスピーカーの声のトーンを逃していました。

このモデルはマトリョーシカ表現学習を使用しているため、必要なければ3072次元すべてを使用する必要はない。1536や768に縮小しても、使用可能な結果を得ることができる。

マトリョーシカ表現学習(MRL)は、学習された表現が完全な次元だけでなく、ロシアのマトリョーシカ人形のように互いに入れ子になっている様々な小さな次元でも有用であるように、埋め込みモデルを学習する手法です。学習中、損失関数は完全な埋め込みだけでなく、埋め込みベクトルの複数の接頭辞に対しても計算されます。これによりモデルは、最も重要な情報を最も初期の次元に詰め込み、それに続く各次元がより細かいディテールを追加していく、つまり粗いものから細かいものへの構造を持つようになる。

対応モダリティと入力制限

このモデルは5種類の入力を受け入れ、すべて同じ埋め込み空間にマッピングされる：

モダリティ	入力制限	フォーマット
テキスト	最大8,192トークン	プレーンテキスト
画像	1リクエストにつき6枚まで	PNG, JPEG
ビデオ	最大120秒	MP4、MOV
音声	最大80秒（ネイティブ、トランスクリプションなし）	MP3, WAV
PDF	直接埋め込む	PDFドキュメント

既存モデルとの比較

TLDR:Googleの新しいGemini Embedding 2モデルは、テキスト、画像、ビデオ、音声のほぼ全てのモダリティにおいて、競合他社（自身の前身、Amazon Nova 2、Voyage Multimodal 3.5）を圧倒している。ビデオ検索と画像とテキストのマッチングでは、最も説得力を持ってリードしている。唯一勝てなかったベンチマークは文書検索で、Voyageがわずかにリードしている。音声テキスト検索は、競合他社がサポートしていないため、ジェミニの独壇場である。

Googleは、自社のレガシーモデル、Amazon Nova 2 Multimodal Embeddings、Voyage Multimodal 3.5とのベンチマーク比較を発表した。これがその全貌だ：

テキスト-テキスト

メトリック	ジェミニエンベッディング2	ジェミニ・エンベディング001	アマゾン・ノヴァ 2	ボヤージュ・マルチモーダル3.5
MTEB多言語（平均タスク）	69.9	68.4	63.8**	58.5***
MTEBコード（平均課題）	84.0	76.0	*	*

Gemini Embedding 2は、多言語テキストでは余裕でリードし、コード検索では前作を8ポイント上回った。Amazon Nova 2もVoyageもコードスコアを報告していない。

テキスト画像

メトリック	ジェミニエンベッディング2	マルチモーダルエンベディング@001	アマゾン・ノヴァ2	ボヤージュ・マルチモーダル3.5
テキストキャップス（リコール@1）	89.6	74.0	76.0	79.4
ドッチ（リコール@1）	93.4	–	84.0	83.8

テキストから画像への検索では、両ベンチマークで最も近い競合他社に9ポイント以上の差をつけている。

画像-テキスト

メトリック	ジェミニエンベッディング2	マルチモーダルエンベディング@001	アマゾン・ノヴァ2	ボヤージュ・マルチモーダル3.5
テキストキャップス（リコール@1）	97.4	88.1	88.9	88.6
ドッチ（リコール@1）	91.3	–	76.5	77.4

画像からテキストへの検索では、DocciのAmazon Nova 2に15ポイント近い差をつけている。

テキスト・ドキュメント

メトリック	ジェミニエンベッディング2	マルチモーダルエンベディング@001	アマゾン・ノヴァ2	ボヤージュ・マルチモーダル3.5
ViDoRe v2 (ndcg@10)	64.9	28.9	60.6	65.5**

Voyage Multimodal 3.5が優位に立つベンチマークは1つ（自己申告）。文書検索は上位モデル間で拮抗している。

テキスト-ビデオ

メトリック	ジェミニエンベッディング2	マルチモーダルエンベディング@001	アマゾン・ノヴァ2	ボヤージュ・マルチモーダル3.5
バテックス（ndcg@10）	68.8	54.9	60.3	55.2
MSR-VTT (ndcg@10)	68.0	57.9	67.0	63.0**
ユーコック2 (ndcg@10)	52.5	34.9	34.7	31.4**

ビデオ検索では、Gemini Embedding 2が最も優位に立っており、Youcook2ではVoyageを17ポイント以上、Vatexでは13ポイント以上上回っている。

スピーチ・テキスト

メトリック	ジェミニ・エンベッディング2
MSEB (mrr@10)	73.9
MSEB ASR**** (mrr@10)	70.4

音声テキスト検索は、AmazonもVoyageもサポートしていない。これはGemini Embedding 2が完全に所有しているカテゴリーである。

– スコアは不明 ** 自己申告 **** voyage-3.5 **** ASRモデルが音声クエリをテキストに変換

価格設定

このモデルは現在、パブリックプレビュー中は無料です。有料版になると、その内訳は以下のようになる：

	無料ティア	有料ティア（1Mトークンあたり）
テキスト入力	無料	$0.20
画像入力	無料	0.45ドル（画像1枚につき0.00012ドル）
音声入力	無料	6.50ドル（1秒あたり0.00016ドル）
ビデオ入力	無料	12ドル（1フレームあたり0.00079ドル）
Google 製品の改善に使用	利用目的	いいえ

はじめに

このモデルは現在、Gemini APIおよびVertex AIを通じて、モデルID gemini-embedding-2-preview. LangChain、LlamaIndex、Haystack、Weaviate、Qdrant、ChromaDB、Vector Searchと統合されています。

from google import genai
from google.genai import types

# For Vertex AI:
# PROJECT_ID=''
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')

client = genai.Client()

with open("example.png", "rb") as f:
    image_bytes = f.read()

with open("sample.mp3", "rb") as f:
    audio_bytes = f.read()

# Embed text, image, and audio 
result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type="image/png",
        ),
        types.Part.from_bytes(
            data=audio_bytes,
            mime_type="audio/mpeg",
        ),
    ],
)

print(result.embeddings)

ここで試してみよう！

gemini-embedding-2のマルチモーダル検索性能をテストできるデモアプリを作りました。

APIキーはaistudio.google.comにログインして取得できます。

注意すべき制限

このモデルはまだ公開プレビュー中だ（「プレビュー」タグは、GA前に価格や動作が変更される可能性があることを意味する）。
ビデオ入力の上限は120秒、オーディオは80秒。
金融QAのようなニッチな領域でのパフォーマンスは弱い。
マルチモーダル計画を持たない純粋なテキストパイプラインの場合、テキストのみのモデルに対するコストプレミアムは正当化されないかもしれない。

結論

Gemini Embedding 2は、単なる漸進的な改善ではなく、カテゴリーシフトである。マルチモーダルなRAGシステム、メディアタイプにまたがるセマンティック検索、または統合されたナレッジベースを構築するチームにとって、マルチモデル、マルチパイプラインの問題であったものが、単一のAPI呼び出しに集約される。もしあなたのデータがテキスト以上のものに及ぶのであれば、まずこのモデルを評価すべきだろう。

マルチモーダルRAGの構築は、エンベッディングモデル、ベクターデータベース、検索ロジックをゼロからつなぎ合わせることを意味すべきではありません。エンベッディング・パイプラインを処理するマネージドRAG-as-a-Serviceソリューションをお望みなら、Codyの無料トライアルにサインアップして、今すぐ構築を開始してください。

The post Gemini Embedding 2：グーグル初のマルチモーダル埋め込みモデル appeared first on Cody - The AI Trained on Your Business.

ジェミニ2.5プロとGPT-4.5：AI革命をリードするのは誰か？

Om Kamath — Wed, 26 Mar 2025 15:36:01 +0000

2025年、人工知能の世界は非常にエキサイティングなものとなっており、大手ハイテク企業はこれまでにない最先端のAIシステムを作ろうと熾烈な競争を繰り広げている。この激しい競争は多くの新しいアイデアを生み出し、AIが人間のように思考し、問題を解決し、対話できることの限界を押し広げている。この1ヶ月の間に、2つの主要プレーヤーが先導する驚くべき改善があった：グーグルのGemini 2.5 ProとOpenAIのGPT-4.5だ。2025年3月の大々的な発表で、グーグルはジェミニ2.5プロを発表した。このジェミニ2.5プロは、LMArenaのリーダーボードで、競合他社を抑えてすぐにトップに躍り出た。ジェミニ2.5が特別なのは、応答を注意深く検討する能力であり、深い思考を必要とする複雑なタスクで優れたパフォーマンスを発揮するのに役立つ。

オープンAIは遅れをとるまいと、これまでで最大かつ最も先進的なチャットモデルであるGPT-4.5を発表した。このモデルは、パターンを認識し、つながりを作り、創造的なアイデアを思いつくことに優れています。初期のテストによると、GPT-4.5は幅広い知識を持ち、ユーザーの言いたいことを理解する能力が向上しているため、GPT-4.5との対話は非常に自然に感じられるという。OpenAIは、GPT-4.5が、人間とのスムーズなコラボレーションのために設計された、直接の監視なしでの学習において大幅に改善されたことを強調している。

これらのAIシステムは、単に印象的なテクノロジーというだけでなく、ビジネスのあり方を変え、科学的発見を加速させ、創造的なプロジェクトを変革している。AIが日常生活の普通の一部となるにつれ、ジェミニ2.5プロやGPT-4.5のようなモデルは、私たちが可能だと考えることを拡大しつつある。より優れた推論能力、誤った情報を広める可能性の低さ、複雑な問題に対する熟達度によって、人類の進歩を真にサポートするAIシステムへの道が開かれつつある。

ジェミニ2.5プロを理解する

2025年3月25日、グーグルは「最もインテリジェントなAIモデル」と評されるジェミニ2.5プロを正式に発表した。このリリースは、2.0モデルを何度か繰り返した後、グーグルのAI開発における重要なマイルストーンとなった。リリース戦略は、まず実験的バージョンから始まり、ジェミニ・アドバンスド加入者にその機能をテストするための早期アクセスを提供した。

Gemini 2.5 Proが前世代と異なるのは、“思考モデル“としての基本的なアーキテクチャである。主に訓練されたデータパターンに依存していた前世代とは異なり、このモデルは、人間の問題解決プロセスを模倣し、応答する前に能動的に思考を推論することができる。これは、AIシステムが情報を処理し、応答を生成する方法における大きな進歩を意味する。

主な特徴と能力

強化された推論能力– 複雑な領域にわたって、段階的な問題解決が可能。
コンテキスト・ウィンドウの拡張– 100万メダル収容可能（200万メダルまで拡張予定）
ネイティブなマルチモダリティ– テキスト、画像、音声、動画、コードをシームレスに処理
高度なコード機能– ウェブアプリの作成とコード変換が大幅に改善されました。

Gemini 2.5 Proは、LMArenaリーダーボードで初登場1位を獲得し、パフォーマンスリーダーとしての地位を確立した。Gemini 2.5 Proは、高度な推論を必要とするベンチマークにおいて特に優れており、外部ツールを使用せずに「Humanity’s Last Exam（人類最後の試験）」で業界トップクラスの18.8%を記録した。数学と科学では、それぞれAIME2025で86.7%、GPQAダイヤモンドで79.7%という驚異的な能力を示している。

以前のGeminiモデルと比較して、バージョン2.5 Proは大幅な飛躍を遂げている。Gemini 2.0が重要な基本機能を導入したのに対し、2.5 Proは大幅に強化された基本モデルと改良されたポストトレーニングテクニックを組み合わせている。最も顕著な改善は、コーディングパフォーマンス、推論の深さ、および文脈理解である。

GPT-4.5を探る

2025年4月、OpenAIはGPT-4.5を発表し、これを「これまでで最大かつ最も先進的なチャットモデル」と説明した。この研究プレビューは、AIコミュニティ内ですぐに興奮を呼び起こし、最初のテストでは、その広範な知識ベースとユーザーの意図を理解するための強化された能力のおかげで、モデルとの対話が非常に自然に感じられることが示されました。

GPT-4.5は、教師なし学習機能において大きな進歩を示しています。OpenAIは、革新的なアーキテクチャと最適化戦略を採用すると同時に、計算能力とデータ入力の両方を拡張することで、この進歩を実現しました。このモデルはMicrosoft Azure AIスーパーコンピュータ上で学習され、OpenAIが可能性の限界を押し広げることを可能にするパートナーシップを継続しています。

コアの改善と能力：

パターン認識の強化– パターンを認識し、関連性を導き出し、創造的な洞察を生み出す能力が大幅に向上。
幻覚の減少–GPT-4oや o1のような以前のモデルと比較して、誤った情報を生成する可能性が低い。
EQ」の向上-感情的知性の向上と微妙な人間関係の理解
高度な操舵性– 複雑なユーザー指示のより良い理解と遵守

OpenAIは、GPT-4.5を人間との共同作業のために訓練することに特に重点を置いています。新しい技術により、モデルの操縦性、ニュアンスの理解、自然な会話の流れが強化されました。これにより、ライティングやデザイン支援において特に効果を発揮し、以前のバージョンよりも強い美的直感と創造性を発揮します。

実世界での応用において、GPT-4.5は驚くべき汎用性を発揮します。拡張された知識ベースと改良された推論能力により、詳細なコンテンツ作成から高度な問題解決まで、幅広いタスクに適している。OpenAIのCEOであるサム・アルトマンは、すべてのベンチマークカテゴリーでリードしていないにもかかわらず、このモデルを肯定的に評価し、その「ユニークな有効性」を強調しています。

GPT-4.5の展開戦略は、強力なAIシステムをリリースするためのOpenAIの慎重なアプローチを反映しています。当初はChatGPT Proサブスクライバーと開発者が様々なAPIを通じて有料層で利用できるようにし、徐々にChatGPT Plus、Team、Edu、Enterpriseサブスクライバーへのアクセスを拡大する予定です。この段階的な展開により、OpenAIは利用が拡大するにつれて、パフォーマンスと安全性を監視することができます。

パフォーマンス指標：比較分析

これらの高度なAIモデルの技術的能力を検証する際、ベンチマーク性能はその能力を最も客観的に測る尺度となる。Gemini 2.5 ProとGPT-4.5は、それぞれ様々な領域で独自の強みを発揮しており、ベンチマークテストによって、その明確な優位性が明らかになりました。

ベンチマーク	ジェミニ 2.5 プロ (03-25)	オープンAI GPT-4.5	クロード 3.7 ソネット	Grok 3 プレビュー
LMArena（総合）	#1	2	21	2
人類最後の試験（道具なし）	18.8%	6.4%	8.9%	–
GPQAダイヤモンド（シングルアテンプト）	84.0%	71.4%	78.2%	80.2%
AIME 2025 (シングルアタンプト)	86.7%	–	49.5%	77.3%
SWEベンチ検証済み	63.8%	38.0%	70.3%	–
アイダー・ポリグロット（全体／差分）	74.0% / 68.6%	44.9% 差分	64.9% 差分	–
MRCR (128k)	91.5%	48.8%	–	–

Gemini 2.5 Proは、推論を多用するタスクにおいて卓越した強さを示し、特にロングコンテクスト推論と知識保持に優れている。人間の知識のフロンティアを試す「人類最後の試験」では、競合他社を大きく上回っている。しかし、コード生成やエージェントコーディングでは相対的な弱点を示し、特定のドメインでは時折、事実性に苦戦する。

逆にGPT-4.5は、パターン認識、創造的洞察力生成、科学的推論において特に優れた能力を発揮する。GPQAダイアモンドベンチマークでは、GPT-4.5が科学的な領域で高い能力を発揮しています。このモデルはまた、感情的知能と美的直感の強化も示しており、創造的でデザイン志向のアプリケーションに特に有用である。主な利点は、先行モデルと比較して誤った情報を生成する傾向が少ないことである。

実用的な面では、Gemini 2.5 Proは、深い推論、マルチモーダルな理解、非常に長い文脈の処理を必要とするタスクに最適です。GPT-4.5は、クリエイティブな作業、デザイン補助、事実の正確さと自然な会話の流れが最優先されるアプリケーションにおいて優位性を発揮します。

アプリケーションと使用例

ベンチマークの性能は貴重な技術的洞察を提供するが、これらの高度なAIモデルの真の評価基準は、さまざまな領域にわたる実用的な応用にある。Gemini 2.5 ProとGPT-4.5はどちらも、さまざまなユースケースに適した明確な強みを示しており、組織はすでに複雑な問題を解決するためにその能力を活用し始めている。

科学技術分野におけるGemini 2.5 Pro

Gemini 2.5 Proの卓越した推論能力と広範なコンテキストウィンドウは、科学研究や技術的なアプリケーションに特に有用です。テキスト、画像、オーディオ、ビデオ、コードを含むマルチモーダルデータを処理し分析する能力により、多様なソースからの情報を合成する必要がある複雑な問題に対応することができます。この汎用性により、技術的な正確さと包括的な分析を必要とする業界において、多くの可能性が広がります。

科学研究とデータ分析– Gemini 2.5 ProのGPQA (79.7%)のようなベンチマークでの高い性能は、複雑な科学文献の分析、仮説の作成、実験結果の解釈において研究者を支援する可能性を示している。
ソフトウェア開発とエンジニアリング– このモデルは、ウェブアプリケーションの作成、コード変換の実行、複雑なプログラムの開発に優れており、カスタムエージェントのセットアップを使用して検証されたSWE-Benchのスコアは63.8%でした。
医療診断とヘルスケア– その推論機能により、医療画像と患者データの分析が可能になり、医療従事者の診断プロセスをサポートします。
ビッグデータ解析とナレッジマネジメント– 100万トークンのコンテキストウィンドウ（まもなく200万まで拡張）により、データセット全体とコードリポジトリを1回のプロンプトで処理できます。

GPT-4.5のクリエイティブ・コミュニケーション・タスクの優秀性

一方、GPT-4.5は、微妙なコミュニケーション、創造的思考、審美的判断を必要とするタスクに特に強みを発揮する。OpenAIは、このモデルを人間との共同作業に特化してトレーニングすることを重視し、その結果、コンテンツ作成、デザイン支援、自然なコミュニケーションなどの機能が強化されました。

コンテンツの作成とライティング– GPT-4.5は、美的直感と創造性が強化されており、マーケティング・コピー、記事、脚本、その他のライティング・コンテンツの作成に適している。
デザイン・コラボレーション– ニュアンスとコンテクストの理解が深まったモデルは、コンセプト作りから改良に至るまで、デザイン・プロセスにおける効果的なパートナーとなる。
顧客エンゲージメント– より優れた感情的知性により、GPT-4.5は顧客サービスの場面でより適切で自然な対応を提供する。
教育コンテンツの開発– このモデルは、さまざまな知識レベルや学習スタイルに合わせた説明に優れています。

様々な分野の企業が、すでにこれらのモデルをワークフローに組み込んでいる。マイクロソフトはOpenAIの技術を直接自社の製品スイートに組み込み、企業ユーザーにGPT-4.5の機能への即時アクセスを提供している。同様に、GoogleのGemini 2.5 Proは、その推論とマルチモーダルな強みを活用しようとする研究機関やテクノロジー企業で応用されている。

これらのモデルの補完的な強みは、多くの組織が、特定のユースケースに応じて、両方を活用することで利益を得られる可能性があることを示唆している。これらの技術が成熟し続けるにつれて、知識労働、創造的プロセス、問題解決を根本的に変革するような、ますます洗練されたアプリケーションを、業界全体で目にすることができるようになるだろう。

AIの未来：次に何が起こるのか？

Gemini 2.5 ProとGPT-4.5が可能性の限界を押し広げるにつれ、AI開発の将来的な軌跡がより鮮明に見えてくる。グーグルの「すべてのモデルに思考能力を直接組み込む」というコミットメントは、推論がAIシステム全体の標準となる未来を示唆している。同様に、OpenAIの「教師なし学習と推論を拡張する」というアプローチは、人間のようなコンテンツを理解し、生成する能力が拡大し続けるモデルを示唆している。

今後数年間は、現在の限界を超えてコンテキストのウィンドウを劇的に拡大し、より洗練された推論を行い、あらゆるモダリティをシームレスに統合したAIモデルが登場することになるだろう。また、人間の監視を最小限に抑えて複雑なタスクを実行できる、真に自律的なAIエージェントの台頭を目の当たりにするかもしれない。しかし、こうした進歩は大きな課題をもたらす。AIの能力が高まるにつれて、誤情報、プライバシー、人間の労働力の代替に関連する潜在的なリスクに対処することの重要性も高まっている。

倫理的配慮はAI開発の最前線にあり続けなければならない。OpenAIは、「モデル能力の向上は、モデルをより安全にする機会である」と認識し、進歩と保護の二重の責任を強調している。AIコミュニティは、悪用から保護しながらイノベーションを奨励する強固なガバナンスの枠組みを開発する必要がある。

ジェミニ2.5プロとGPT-4.5に代表されるAI革命は、まだ始まったばかりである。進歩のペースは興奮と不安の両方をもたらすが、1つだけはっきりしていることがある。AIの未来は、単に技術的な能力によって定義されるのではなく、人間の利益のためにそれをどのように活用するかによって定義されるということだ。人間の可能性に取って代わるのではなく、それを補強する責任ある開発を優先することで、次世代のAIモデルが集団的進歩のための強力なツールとなることを確実にすることができる。

The post ジェミニ2.5プロとGPT-4.5：AI革命をリードするのは誰か？ appeared first on Cody - The AI Trained on Your Business.

GPT-4.5対クロード3.7ソネット：AIの進化を深く掘り下げる

Om Kamath — Sun, 02 Mar 2025 15:52:48 +0000

人工知能を取り巻く環境は急速に進化しているが、最近目立ったのは2つのモデルだ：GPT-4.5とクロード3.7ソネットだ。GPT-4.5」と「Claude 3.7 Sonnet」です。これらの高度な言語モデルは、AIの能力を大きく飛躍させるもので、それぞれが独自の強みを発揮します。

OpenAIのGPT-4.5は、マイナーアップデートながら、幻覚の軽減や自然な会話の強化などの改善を誇っている。一方、AnthropicのClaude 3.7 Sonnetは、その卓越したコーディング能力とコストパフォーマンスで注目を集めている。両モデルとも、開発者や研究者から最先端のAIソリューションを求める企業まで、幅広いユーザーに対応している。

これらのモデルがAIで可能なことの限界を押し広げるにつれて、様々な業界における期待や用途が再形成され、近い将来さらに大きな変革をもたらす舞台が整いつつある。

GPT-4.5とクロード3.7ソネットの主な特徴

GPT-4.5とクロード3.7ソネットは、それぞれ独自の強みを持ち、AIの展望に大きな進歩をもたらす。GPT-4.5は、OpenAIの「これまでで最大かつ最も知識豊富なモデル」として説明されており、教師なし学習を拡張することに重点を置き、幻覚を減らしつつ、単語の知識と直感を強化します。このモデルは推論能力を向上させ、より深い文脈理解によってチャットでの対話を強化することに優れています。

一方、クロード3.7ソネットは、画期的なハイブリッド推論モデルを導入しており、素早い応答と、段階を追った拡張的な思考の両方を可能にしています。特にコーディングとフロントエンド・ウェブ開発で輝きを放ち、優れた指示追従能力と一般的な推論能力を発揮します。

主な改善点

GPT-4.5：教師なし学習と会話機能の強化
クロード3.7ソネット高度なハイブリッド推論と優れたコーディング能力
両方のモデル改善されたマルチモーダル能力と適応的推論

パフォーマンスと評価

タスク	GPT-4.5（対4o）	クロード 3.7 ソネット* （対 3.5）
コーディング	向上	大幅に上回る
数学	中程度の改善	AIME’24の問題で改善
理由	同様のパフォーマンス	同様のパフォーマンス
マルチモーダル	同様のパフォーマンス	同様のパフォーマンス

* 思考を広げずに

GPT-4.5では、チャットでの対話が顕著に改善され、幻覚が減少しました。人間のテスターは、以前のモデルと比べてより正確で事実に基づいていると評価しており、より信頼できる会話パートナーとなっています。

一方、クロード3.7ソネットは、リアルタイム・アプリケーションやコーディング・タスクで卓越した効率性を発揮。SWE-bench VerifiedとTAU-benchで最先端の性能を達成し、ソフトウェアエンジニアリングと複雑な問題解決におけるその能力を示しています。さらに、GPT-4.5と比較してスループットが高いため、迅速な応答や大量のデータ処理を必要とするタスクに特に適しています。

ソースアンソロピック

価格とアクセシビリティ

GPT-4.5は、素晴らしい能力を誇る一方で、高額な値札が付いている。GPT-4.5の価格は前モデルのGPT-4の75倍で、その大幅な値上げを正当化する明確な理由もない。この価格戦略は、多くの潜在的なユーザーへのアクセスを制限するかもしれない。

対照的に、クロード3.7ソネットはより手頃なオプションを提供している。その価格体系はかなり競争力がある：

GPT-4.5と比べ、投入トークンが25倍安い
出力トークンが10倍安い
具体的な価格設定：100万投入トークンあたり3ドル、100万出力トークンあたり15ドル

GPT-4.5は現在、GPT Proユーザーと開発者がAPI経由でアクセス可能で、Plusユーザー、教育機関、チームにもアクセスを拡大する予定です。一方、クロード3.7ソネットは、クロードの全プラン（フリー、プロ、チーム、エンタープライズ）、およびAnthropic API、Amazon Bedrock、Google CloudのVertex AIを通じて、より幅広いアクセスを提供しています。

このような価格設定や利用しやすさの違いは、各モデルの潜在的な普及率やユースケースに大きく影響し、クロード3.7ソネットは、費用対効果や幅広い利用可能性から、より幅広いユーザーにアピールできる可能性がある。

使用例

GPT-4.5とクロード3.7ソネットはともに、多様な実世界のアプリケーションに対応するユニークな機能を備えています。GPT-4.5は高度な会話パートナーとして優れており、精度と幻覚の低減において従来のモデルを上回っています。文脈理解の向上により、カスタマーサービス、コンテンツ作成、パーソナライズされた学習体験に理想的です。

一方、クロード3.7ソネットは、コーディングとソフトウェア開発の領域で輝いている。クロード・コードで実証されたそのエージェント的コーディング機能は、コードの検索、テストの実行、コマンドラインツールの使用などのタスクを自動化する。これは、開発プロセスの合理化を目指す企業にとって、非常に貴重な資産となる。

今後の展望と結論

GPT-4.5とクロード3.7ソネットのリリースは、AI開発における重要なマイルストーンであり、さらなる画期的な進歩のための舞台となる。GPT-4.5はマイナーアップデートと見られているが、推論能力を強化した将来のモデルの基礎を築くものである。ハイブリッド推論モデルを持つClaude 3.7 Sonnetは、AIの状況にダイナミックな変化をもたらし、将来の開発の方向性に影響を与える可能性がある。

これらのモデルが進化を続けるにつれて、教師なし学習、推論能力、タスク固有の最適化がさらに改善されることが予想される。教師なし学習と推論の相補的な性質は、将来のAIモデルがさらに洗練された問題解決能力を示す可能性が高いことを示唆している。

The post GPT-4.5対クロード3.7ソネット：AIの進化を深く掘り下げる appeared first on Cody - The AI Trained on Your Business.

錯綜する彗星：エージェント検索への大胆な飛躍

Om Kamath — Thu, 27 Feb 2025 17:53:18 +0000

AIを搭載した検索エンジンの巨人、Perplexityが最新のベンチャー企業、Cometと呼ばれる革新的なウェブ・ブラウザでテック界に波紋を広げている。Cometは「A Browser forAgenticSearch by Perplexity」と銘打たれ、競争の激しいブラウザ市場に大胆な一歩を踏み出した。デザインやリリース時期についての詳細はまだ明らかにされていないが、同社はすでにサインアップリストを立ち上げており、Cometが「間もなく登場する」ことを予告している。

この動きは、パープレクシティが大きく成長している時に行われた。90億ドルという驚異的な評価を受けている同社は、現在、検索エンジンを通じて毎週1億件以上のクエリを処理している。Cometの導入は、Perplexityがその影響力を検索以外にも拡大し、ユーザーのウェブとの関わり方を再構築する可能性があることを意味する。期待が高まる中、CometはPerplexityの拡大するデジタル・エコシステムにおいて極めて重要な要素となる準備が整っている。

コメットの主な特徴

コメットは、自律的なタスク実行を可能にする強力な機能である「エージェント検索」を活用している。つまり、ユーザーはフライトの予約や予約管理のような複雑なタスクをブラウザに委ねることができ、生産性が大幅に向上します。

Chromiumベースの基盤上に構築されたCometは、クロスプラットフォームの互換性を保証し、デスクトップとモバイルデバイス間でシームレスな体験を提供します。この設計は、確立されたブラウザ技術の安定性とPerplexityの最先端のAIイノベーションを組み合わせたものです。

深いリサーチの統合：コメットは包括的な分析ツールを提供し、ブラウザー内で直接詳細な調査を容易にします。
リアルタイムの情報処理：正確性と信頼性を保証し、出典の引用を含む最新の情報を利用できます。
豊富なアプリケーション統合：800以上のアプリケーションをサポートするCometは、ユーザーのデジタル活動の中心的なハブになることを目指しています。

従来のブラウザー機能にAIを融合させることで、Cometはユーザーのウェブとの接し方を変え、生産性と情報処理の状況を変える可能性を秘めている。Perplexityが言うように、Cometはまさに「エージェント検索のためのブラウザ」であり、インテリジェントなウェブナビゲーションの新時代を約束する。

戦略的ポジショニングと市場背景

PerplexityがCometで競争の激しいブラウザ市場に参入する際、Google Chromeのような既存プレイヤーや、The Browser CompanyのDiaのようなAIを強化した新興ブラウザからの手ごわい挑戦に直面する。しかし、高度なタスク自動化機能を備えたAI搭載のChromiumベースのブラウザというCometのユニークなポジショニングは、従来の製品とは一線を画している。

Google Chromeが膨大なユーザーベースと基本的なAI機能を誇る一方で、Cometは洗練されたAI機能、広範なアプリ統合、深いリサーチツール-すべて追加の拡張機能を必要としない-によって差別化を図ることを目指している。このアプローチは、よりインテリジェントで合理的なブラウジング体験を求めるユーザーにアピールし、特定のセグメントにおけるクロームの優位性に挑戦する可能性がある。

Perplexity社のCometのマーケティング戦略は、すでに毎週1億件以上のクエリを処理している既存の検索エンジンのユーザーベースを巧みに活用している。Perplexityは、この既存のユーザーを活用することで、Cometのスムーズな導入を促進し、競争の激しいブラウザー業界において、ユーザー獲得とエンゲージメントで大きなアドバンテージを得る可能性を狙っている。

法的および倫理的考察

パープレクシティがコメットでブラウザ市場に参入する際、同社は技術的な課題だけでなく、法的・倫理的な大きなハードルにも直面している。同社は最近、コンテンツ利用をめぐる大手出版社との法的紛争に巻き込まれている。ニューズ・コーポレーションのダウ・ジョーンズとニューヨーク・ポストはパープレクシティ社を相手取って訴訟を起こし、無許可のコンテンツ複製を非難し、同社を “コンテンツ・クレプトクラシー “とレッテルを貼った。さらに、ニューヨーク・タイムズ紙は営業停止を通告し、法的圧力をさらに強めている。

これらの疑惑に対し、パープレクシティはパブリッシャーのコンテンツを尊重していると主張し、メディア・アウトレット向けに収益分配プログラムを導入した。この動きは、懸念に対処し、コンテンツ制作者とのより協力的な関係を確立しようとする試みと思われる。しかし、このプログラムが法的紛争の解決に有効かどうかはまだわからない。

Q：AIによるウェブ閲覧の倫理的意味合いは？

A: CometのようなAIを搭載したブラウザーの導入は、データプライバシーとユーザーの自律性に関する重要な倫理的問題を提起している。マーク・トンプソンなどのサイバーセキュリティ・アナリストは、AI駆動のブラウジング・ツールを使用する際に、ユーザー・データがどのように収集、処理され、共有される可能性があるかについて懸念を表明しています。Cometは、エージェント型検索や広範なアプリの統合といった機能を通じてウェブ・インタラクションに革命を起こすことを約束する一方で、透明性のあるデータ慣行と強固なプライバシー保護の必要性を増幅させている。

専門家の意見と業界の洞察

Perplexity社のCometブラウザが市場参入の準備を進める中、専門家たちがその潜在的な影響と意義について意見を交わしている。著名なAI研究者であるサラ・チェン博士は、Cometはその高度なエージェント検索機能により、ユーザーのオンライン情報への接し方を根本的に変える可能性があると指摘している。この視点は、Perplexity社の急成長と一致している。同社のAI検索エンジンは現在、毎週約1億件のクエリを処理していることからも明らかだ。

こうした懸念にもかかわらず、業界の観測筋はウェブ技術におけるAI統合の著しい成長を予測している。Perplexityの90億ドルという評価額と、AI検索エンジン分野でのトップ・コンペティターとしての位置づけは、この傾向を裏付けている。Cometは単なる新製品ではなく、イノベーションと責任あるAI実装の必要性のバランスを取りながら、インターネットをどのように認識し、どのように相互作用するかを変える可能性を示している。

これが検索を変える？

検索エンジンへのアプローチと同様に、ウェブ・ブラウジングを再発明するという同社のビジョンは、AI駆動型ブラウザが標準となる未来を示唆している。Perplexityの急速な拡大と革新的な製品の導入により、Cometはウェブ技術におけるAI統合の拡大傾向に資本参加する態勢を整えている。

ユーザーがよりインテリジェントでタスク指向のブラウジング体験に慣れるにつれ、ブラウザ市場は大きな変化を見せるかもしれない。Perplexity が Comet のエージェント型検索機能に注力することで、デジタル・インタラクションが再定義され、複雑なオンライン・タスクが効率化され、ブラウジングの習慣が再構築される可能性がある。AIがテクノロジーの様々な側面に浸透し続ける中、Cometは、ウェブブラウザがインテリジェントなアシスタントとして機能し、生産性を向上させ、デジタル世界のナビゲート方法を変革する未来に向けた大胆な一歩を表している。

The post 錯綜する彗星：エージェント検索への大胆な飛躍 appeared first on Cody - The AI Trained on Your Business.