
تضمين الجوزاء 2: أول نموذج تضمين متعدد الوسائط من Google
تضمين الجوزاء 2: الميزات والمعايير والتسعير وكيفية البدء
في الأسبوع الماضي، أصدرت جوجل الجوزاء التضمين 2، أول نموذج تضمين متعدد الوسائط أصلاً مبني على بنية Gemini. إذا كنت تعمل مع التضمينات بأي صفة، فهذا يستحق اهتمامك. لديه القدرة على تعطيل خطوط أنابيب التضمين متعدد النماذج التي تعتمد عليها معظم الفرق اليوم بشكل كبير.
حتى الآن، كانت نماذج التضمين الرئيسية من OpenAI و Cohere و Voyage تعتمد بشكل أساسي على النصوص. كان هناك عدد قليل من الخيارات متعددة الوسائط – CLIP لمحاذاة الصور والنصوص، و Voyage Multimodal 3.5 للصور والفيديو – ولكن لم يكن أي منها يغطي مجموعة كاملة من الطرائق في مساحة متجهية واحدة موحدة. كان يجب نسخ الصوت عادةً قبل التضمين. كان الفيديو يتطلب استخراج الإطار مع تضمين نص منفصل. كانت الصور تعيش في فضاء متجه خاص بها بالكامل.
تضمين الجوزاء 2 يغير هذه المعادلة. نموذج واحد، استدعاء واحد لواجهة برمجة التطبيقات، مساحة متجهة واحدة.
دعنا نتعمق في الجديد.
ما هو تضمين الجوزاء 2؟
Gemini Embedding 2 (gemini-embedding-2-preview) هو أول نموذج تضمين متعدد الوسائط بالكامل من Google DeepMind. فهو يأخذ النصوص والصور ومقاطع الفيديو والتسجيلات الصوتية ومستندات PDF ويحولها جميعًا إلى متجهات تعيش في نفس الفضاء الدلالي المشترك.
على عكس المقاربات السابقة متعددة الوسائط مثل CLIP، والتي تقرن مشفر الرؤية مع مشفر النص وتوائم بينهما مع التعلم المتباين في النهاية، فإن Gemini Embedding 2 مبني على نموذج أساس Gemini نفسه. وهذا يعني أنه يرث الفهم العميق متعدد الوسائط من الألف إلى الياء.

صورة تم إنشاؤها باستخدام نانو موزة
مثال عملي: تخيل أنك تقوم ببناء نظام إدارة التعلم (LMS) مع مقاطع فيديو تعليمية ومحاضرات صوتية وأدلة مكتوبة. باستخدام تضمين Gemini Embedding 2، يمكنك تخزين التضمينات لكل هذا المحتوى في مساحة متجه واحدة وإنشاء روبوت محادثة قائم على RAG يسترجع الأجزاء ذات الصلة من مقاطع الفيديو والصوت والمستندات على حد سواء. في السابق، كان هذا يتطلب خط أنابيب تضمين متعدد الطبقات – وحتى في ذلك الحين، كان هذا يتطلب التقاط النصوص فقط، مع فقدان السياق المرئي للفيديو أو نبرة صوت المتحدث.
يستخدم النموذج تعلُّم تمثيل ماتريوشكا، مما يعني أنك لست مضطرًا لاستخدام جميع الأبعاد الـ 3072 إذا لم تكن بحاجة إليها. يمكنك تصغير حجمه إلى 1536 أو 768 ولا يزال بإمكانك الحصول على نتائج قابلة للاستخدام.
الطرائق المعتمدة وحدود الإدخال
يقبل النموذج خمسة أنواع من المدخلات، وكلها معيّنة في نفس مساحة التضمين:
| الطريقة | حد الإدخال | التنسيقات |
|---|---|---|
| نص | ما يصل إلى 8,192 رمزاً | نص عادي |
| الصور | ما يصل إلى 6 صور لكل طلب | PNG، JPEG |
| فيديو | حتى 120 ثانية | MP4، MOV |
| الصوت | ما يصل إلى 80 ثانية (أصلي، بدون نسخ) | MP3، WAV |
| ملفات PDF | مضمنة مباشرة | مستندات PDF |
كيف تقارن بالنماذج الحالية
نشرت جوجل مقارنات معيارية مع النماذج القديمة الخاصة بها، ونماذج أمازون نوفا 2 متعدد الوسائط، وفوياج متعدد الوسائط 3.5. إليكم الصورة كاملة:
نص-نص
| متري | تضمين الجوزاء 2 | تضمين الجوزاء-001 | أمازون نوفا 2 | رحلة متعددة الوسائط 3.5 |
|---|---|---|---|---|
| MTEB متعدد اللغات (متوسط المهمة) | 69.9 | 68.4 | 63.8** | 58.5*** |
| رمز MTEB (متوسط المهمة) | 84.0 | 76.0 | * | * |
يتفوق Gemini Embedding 2 على النص متعدد اللغات بهامش مريح ويقفز 8 نقاط على سابقه في استرجاع الرموز. لا يقدم أمازون نوفا 2 ولا Voyage نتائج في استرجاع الرموز.
نص-صورة
| متري | تضمين الجوزاء 2 | تضمين متعدد الوسائط@001 | أمازون نوفا 2 | فوياج متعدد الوسائط 3.5 |
|---|---|---|---|---|
| قبعات النص (الاستدعاء@1) | 89.6 | 74.0 | 76.0 | 79.4 |
| دوتشي (استدعاء@1) | 93.4 | – | 84.0 | 83.8 |
تقدم واضح في استرجاع النص إلى الصورة – أكثر من 9 نقاط على أقرب منافس في كلا المعيارين.
صورة-نص-صورة
| متري | تضمين الجوزاء 2 | تضمين متعدد الوسائط@001 | أمازون نوفا 2 | فوياج متعدد الوسائط 3.5 |
|---|---|---|---|---|
| قبعات النص (الاستدعاء@1) | 97.4 | 88.1 | 88.9 | 88.6 |
| دوتشي (استدعاء@1) | 91.3 | – | 76.5 | 77.4 |
يُظهر استرجاع الصور إلى نصوص أوسع الفجوات – ما يقرب من 15 نقطة متقدمًا على Amazon Nova 2 على Docci.
نص-مستند نصي
| متري | تضمين الجوزاء 2 | تضمين متعدد الوسائط@001 | أمازون نوفا 2 | فوياج متعدد الوسائط 3.5 |
|---|---|---|---|---|
| ViDoRe v2 (ndcg@10) | 64.9 | 28.9 | 60.6 | 65.5** |
المعيار الوحيد الذي تتفوق فيه Voyage Multimodal 3.5 على النماذج الأخرى (المبلغ عنها ذاتيًا). استرجاع المستندات متقارب بين أفضل النماذج.
نص-فيديو
| متري | تضمين الجوزاء 2 | تضمين متعدد الوسائط@001 | أمازون نوفا 2 | فوياج متعدد الوسائط 3.5 |
|---|---|---|---|---|
| فاتكس (NDCG@10) | 68.8 | 54.9 | 60.3 | 55.2 |
| MSR-VTT (NDCG@10) | 68.0 | 57.9 | 67.0 | 63.0** |
| يوكوك 2 (ndcg@10) | 52.5 | 34.9 | 34.7 | 31.4** |
إن استرجاع الفيديو هو المكان الذي يتقدم فيه Gemini Embedding 2 بأكبر عدد من النقاط – أكثر من 17 نقطة على Voyage على Youcook2 وأكثر من 13 نقطة على Vatex.
نص-خطاب-نص
| متري | تضمين الجوزاء 2 |
|---|---|
| MSEB (mrr@10) | 73.9 |
| MSEB ASR**** (mr@10) | 70.4 |
استرجاع النصوص الكلامية غير متنازع عليه تمامًا – لا تدعمه أمازون ولا Voyage. هذه هي الفئة التي يمتلكها Gemini Embedding 2 بشكل مباشر.
– النتيجة غير متوفرة ** تم الإبلاغ عنها ذاتيًا *** voyage-3.5 **** نموذج ASR يحول الاستعلامات الصوتية إلى نص
التسعير
النموذج مجاني حاليًا أثناء المعاينة العامة. بمجرد الوصول إلى الفئة المدفوعة، إليك التفاصيل:
| الفئة المجانية | الفئة المدفوعة (لكل 1 مليون توكن) | |
|---|---|---|
| إدخال النص | مجاناً | $0.20 |
| إدخال الصورة | مجاناً | 0.45 دولار (0.00012 دولار لكل صورة) |
| إدخال الصوت | مجاناً | 6.50 دولار (0.00016 دولار في الثانية) |
| إدخال الفيديو | مجاناً | 12.00 دولار (0.00079 دولار لكل إطار) |
| تُستخدم لتحسين منتجات جوجل | نعم | لا |
الشروع في العمل
يتوفر النموذج الآن في المعاينة العامة عبر واجهة برمجة تطبيقات Gemini و Vertex AI تحت معرف النموذج gemini-embedding-2-preview. وهو يتكامل مع LangChain وLlamaIndex وHaystack وWeaviate وQdrant وChromaDB وVector Search.
from google import genai
from google.genai import types
# For Vertex AI:
# PROJECT_ID='<add_here>'
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
client = genai.Client()
with open("example.png", "rb") as f:
image_bytes = f.read()
with open("sample.mp3", "rb") as f:
audio_bytes = f.read()
# Embed text, image, and audio
result = client.models.embed_content(
model="gemini-embedding-2-preview",
contents=[
"What is the meaning of life?",
types.Part.from_bytes(
data=image_bytes,
mime_type="image/png",
),
types.Part.from_bytes(
data=audio_bytes,
mime_type="audio/mpeg",
),
],
)
print(result.embeddings)
جربها هنا!
لقد أنشأنا تطبيقًا تجريبيًا يمكنك من خلاله اختبار أداء الاسترجاع متعدد الوسائط لتضمين الجيميني-2.
يمكنك الحصول على مفتاح API من خلال تسجيل الدخول إلى aistudio.google.com.
القيود التي يجب مراقبتها
- لا يزال النموذج قيد المعاينة العامة (علامة “معاينة” تعني أن السعر والسلوك قد يتغيران قبل GA).
- يبلغ الحد الأقصى لإدخال الفيديو 120 ثانية والصوت 80 ثانية.
- الأداء في المجالات المتخصصة مثل ضمان الجودة المالية أضعف؛ قم بتقييمه مقابل بياناتك المحددة قبل الالتزام.
- بالنسبة لخطوط الأنابيب النصية البحتة مع عدم وجود خطط متعددة الوسائط، قد لا يكون هناك ما يبرر علاوة التكلفة على النماذج النصية فقط.
خلاصة القول
إن Gemini Embedding 2 ليس مجرد تحسين تدريجي، بل هو نقلة نوعية. بالنسبة للفرق التي تقوم ببناء أنظمة RAG متعددة الوسائط، أو البحث الدلالي عبر أنواع الوسائط، أو قواعد المعرفة الموحدة، فإنه يطوي ما كان يمثل مشكلة متعددة النماذج ومتعددة الخطوط في استدعاء واحد لواجهة برمجة التطبيقات. إذا كانت بياناتك تشمل أكثر من مجرد نص، فهذا هو النموذج الذي يجب تقييمه أولاً.
لا ينبغي أن يعني بناء RAG متعدد الوسائط تجميع نماذج التضمين وقواعد البيانات المتجهة ومنطق الاسترجاع من الصفر. إذا كنت ترغب في الحصول على حل RAG كخدمة مُدار يتعامل مع خط أنابيب التضمين نيابةً عنك، اشترك في الإصدار التجريبي المجاني في Cody وابدأ في البناء اليوم.

