{"id":70679,"date":"2026-03-24T03:02:17","date_gmt":"2026-03-24T03:02:17","guid":{"rendered":"https:\/\/meetcody.ai\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/"},"modified":"2026-03-26T18:07:51","modified_gmt":"2026-03-26T18:07:51","slug":"gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google","status":"publish","type":"post","link":"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/","title":{"rendered":"Gemini Embedding 2: Das erste multimodale Einbettungsmodell von Google"},"content":{"rendered":"<p style=\"text-align: center;\"><em>Gemini Embedding 2: Funktionen, Benchmarks, Preise und wie man anf\u00e4ngt<\/em><!-- notionvc: c383b1b6-2ff8-40bd-8227-0a70d481c796 --><\/p>\n<p>Letzte Woche ver\u00f6ffentlichte Google  <a href=\"https:\/\/meetcody.ai\/blog\/google-introduces-the-multimodal-gemini-ultra-pro-nano-models\/\">Zwillinge<\/a>  Embedding 2, das erste nativ multimodale Einbettungsmodell, das auf der Gemini-Architektur basiert. Wenn Sie in irgendeiner Weise mit Einbettungen arbeiten, verdient dies Ihre Aufmerksamkeit. Es hat das Potenzial, die Multi-Modell-Einbettungspipelines, auf die sich die meisten Teams heute verlassen, erheblich zu st\u00f6ren.  <\/p>\n<p>Bis jetzt waren die f\u00fchrenden Einbettungsmodelle von OpenAI, Cohere und Voyage haupts\u00e4chlich textbasiert. Es gab zwar ein paar multimodale Optionen &#8211; <a href=\"https:\/\/openai.com\/index\/clip\/\">CLIP<\/a> f\u00fcr den Abgleich von Bild und Text, <a href=\"https:\/\/blog.voyageai.com\/2026\/01\/15\/voyage-multimodal-3-5\/\">Voyage Multimodal 3.5<\/a> f\u00fcr Bilder und Videos &#8211; aber keine deckte das gesamte Spektrum der Modalit\u00e4ten in einem einzigen, einheitlichen Vektorraum ab. Audio musste in der Regel vor der Einbettung transkribiert werden. Video erforderte eine Frame-Extraktion in Kombination mit separaten Transkript-Einbettungen. Bilder lebten in einem ganz eigenen Vektorraum.    <\/p>\n<p>Gemini Embedding 2 \u00e4ndert diese Gleichung. Ein Modell, ein API-Aufruf, ein Vektorraum. <\/p>\n<p>Schauen wir uns an, was es Neues gibt.<\/p>\n<h2>Was ist Gemini Embedding 2?<\/h2>\n<p><a href=\"https:\/\/blog.google\/innovation-and-ai\/models-and-research\/gemini-models\/gemini-embedding-2\/\">Gemini Embedding 2<\/a> (<code>gemini-embedding-2-preview<\/code>) ist das erste vollst\u00e4ndig multimodale <a href=\"https:\/\/meetcody.ai\/blog\/text-embedding-models\/\">Einbettungsmodell<\/a> von Google DeepMind. Es nimmt Texte, Bilder, Videoclips, Audioaufnahmen und PDF-Dokumente und wandelt sie alle in Vektoren um, die im selben gemeinsamen semantischen Raum leben. <\/p>\n<p>Im Gegensatz zu fr\u00fcheren multimodalen Ans\u00e4tzen wie CLIP, die einen Bildverarbeitungs-Encoder mit einem Text-Encoder koppeln und sie am Ende mit kontrastivem Lernen abgleichen, baut Gemini Embedding 2 auf dem Gemini-Grundmodell selbst auf. Das bedeutet, dass es von Grund auf ein tiefes cross-modales Verst\u00e4ndnis besitzt. <\/p>\n<div id=\"attachment_70663\" style=\"width: 1034px\" class=\"wp-caption aligncenter\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-70663\" class=\"wp-image-70663 size-full\" src=\"https:\/\/meetcody.ai\/wp-content\/uploads\/2026\/03\/embedding.png\" alt=\"Multimodale Einbettungen\" width=\"1024\" height=\"587\" srcset=\"https:\/\/meetcody.ai\/wp-content\/uploads\/2026\/03\/embedding.png 1024w, https:\/\/meetcody.ai\/wp-content\/uploads\/2026\/03\/embedding-300x172.png 300w, https:\/\/meetcody.ai\/wp-content\/uploads\/2026\/03\/embedding-768x440.png 768w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><p id=\"caption-attachment-70663\" class=\"wp-caption-text\">Mit Nano Banana erzeugtes Bild<\/p><\/div>\n<p><strong>Praktisches Beispiel:<\/strong> Stellen Sie sich vor, Sie bauen ein Learning Management System (LMS) mit Videotutorials, Audiovortr\u00e4gen und schriftlichen Anleitungen auf. Mit Gemini Embedding 2 k\u00f6nnen Sie Einbettungen f\u00fcr all diese Inhalte in einem einzigen Vektorraum speichern und einen <a href=\"https:\/\/meetcody.ai\/blog\/rag-private-clouds\/\">RAG-basierten Chatbot<\/a> erstellen, der relevante <a href=\"https:\/\/meetcody.ai\/blog\/how-does-cody-generate-responses-using-your-documents\/\">Teile von<\/a> Videos, Audios und Dokumenten gleicherma\u00dfen abruft. Zuvor war daf\u00fcr eine mehrstufige Einbettungspipeline erforderlich &#8211; und selbst dann wurden nur Transkripte erfasst, ohne den visuellen Kontext eines Videos oder den Tonfall eines Sprechers.  <\/p>\n<p>Das Modell verwendet <a href=\"https:\/\/arxiv.org\/abs\/2205.13147\">Matrjoschka Representation Learning<\/a>, d.h. Sie m\u00fcssen nicht alle 3072 Dimensionen verwenden, wenn Sie sie nicht brauchen. Sie k\u00f6nnen auf 1536 oder 768 verkleinern und erhalten trotzdem brauchbare Ergebnisse. <\/p>\n<p><em>Matryoshka Representation Learning (MRL) ist eine Technik zum Trainieren von Einbettungsmodellen, so dass die erlernten Darstellungen nicht nur in ihrer vollen Dimensionalit\u00e4t, sondern auch in verschiedenen kleineren Dimensionen n\u00fctzlich sind &#8211; ineinander verschachtelt wie russische Matryoshka-Puppen. W\u00e4hrend des Trainings wird die Verlustfunktion nicht nur f\u00fcr die vollst\u00e4ndige Einbettung berechnet, sondern auch f\u00fcr mehrere Pr\u00e4fixe des Einbettungsvektors. Dadurch wird das Modell ermutigt, die wichtigsten Informationen in die ersten Dimensionen zu packen, wobei jede nachfolgende Dimension feinere Details hinzuf\u00fcgt &#8211; eine Grob-zu-Fein-Struktur.  <\/em><\/p>\n<h2>Unterst\u00fctzte Modalit\u00e4ten &amp; Eingabebeschr\u00e4nkungen<\/h2>\n<p>Das Modell akzeptiert f\u00fcnf Arten von Eingaben, die alle auf denselben Einbettungsraum abgebildet werden:<\/p>\n<table>\n<thead>\n<tr>\n<th>Modalit\u00e4t<\/th>\n<th>Eingabe Grenze<\/th>\n<th>Formate<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>Text<\/td>\n<td>Bis zu 8.192 Token<\/td>\n<td>Einfacher Text<\/td>\n<\/tr>\n<tr>\n<td>Bilder<\/td>\n<td>Bis zu 6 Bilder pro Anfrage<\/td>\n<td>PNG, JPEG<\/td>\n<\/tr>\n<tr>\n<td>Video<\/td>\n<td>Bis zu 120 Sekunden<\/td>\n<td>MP4, MOV<\/td>\n<\/tr>\n<tr>\n<td>Audio<\/td>\n<td>Bis zu 80 Sekunden (nativ, keine Transkription)<\/td>\n<td>MP3, WAV<\/td>\n<\/tr>\n<tr>\n<td>PDFs<\/td>\n<td>Direkt eingebettete<\/td>\n<td>PDF-Dokumente<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2>Im Vergleich zu bestehenden Modellen<\/h2>\n<p><strong>TLDR:<\/strong> Das neue Gemini Embedding 2 Modell von Google \u00fcbertrifft seine Konkurrenten (seinen eigenen Vorg\u00e4nger, Amazon Nova 2 und Voyage Multimodal 3.5) in fast jeder Modalit\u00e4t: Text, Bild, Video und Sprache. Am \u00fcberzeugendsten ist der Vorsprung beim Abrufen von Videos und beim Bild-Text-Abgleich. Der einzige Benchmark, bei dem es nicht gewinnt, ist die Dokumentensuche, bei der Voyage leicht vorne liegt. Die Abfrage von Sprachtexten ist eine Kategorie, die Gemini allein geh\u00f6rt, da kein Konkurrent sie unterst\u00fctzt.   <\/p>\n<p>Google hat Benchmark-Vergleiche mit seinen eigenen Legacy-Modellen, Amazon Nova 2 Multimodal Embeddings und Voyage Multimodal 3.5 ver\u00f6ffentlicht. Hier ist das vollst\u00e4ndige Bild: <\/p>\n<h3>Text-Text<\/h3>\n<table>\n<thead>\n<tr>\n<th>Metrisch<\/th>\n<th>Gemini Einbettung 2<\/th>\n<th>gemini-einbettung-001<\/th>\n<th>Amazon Nova 2<\/th>\n<th>Voyage Multimodal 3.5<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>MTEB Mehrsprachig (Mittlere Aufgabe)<\/td>\n<td><strong>69.9<\/strong><\/td>\n<td>68.4<\/td>\n<td>63.8**<\/td>\n<td>58.5***<\/td>\n<\/tr>\n<tr>\n<td>MTEB Code (Mittlere Aufgabe)<\/td>\n<td><strong>84.0<\/strong><\/td>\n<td>76.0<\/td>\n<td>*<\/td>\n<td>*<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Gemini Embedding 2 liegt bei mehrsprachigem Text mit einem komfortablen Vorsprung vorn und \u00fcbertrifft seinen Vorg\u00e4nger bei der Code-Suche um 8 Punkte. Weder Amazon Nova 2 noch Voyage melden Code-Ergebnisse. <\/p>\n<h3>Text-Bild<\/h3>\n<table>\n<thead>\n<tr>\n<th>Metrisch<\/th>\n<th>Zwillingseinbettung 2<\/th>\n<th>multimodale Einbettung@001<\/th>\n<th>Amazon Nova 2<\/th>\n<th>Voyage Multimodal 3.5<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>TextCaps (Abruf@1)<\/td>\n<td><strong>89.6<\/strong><\/td>\n<td>74.0<\/td>\n<td>76.0<\/td>\n<td>79.4<\/td>\n<\/tr>\n<tr>\n<td>Docci (R\u00fcckruf@1)<\/td>\n<td><strong>93.4<\/strong><\/td>\n<td>&#8211;<\/td>\n<td>84.0<\/td>\n<td>83.8<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Ein klarer Vorsprung bei der Text-zu-Bild-Suche &#8211; \u00fcber 9 Punkte Vorsprung vor dem n\u00e4chsten Mitbewerber bei beiden Benchmarks.<\/p>\n<h3>Bild-Text<\/h3>\n<table>\n<thead>\n<tr>\n<th>Metrisch<\/th>\n<th>Zwillingseinbettung 2<\/th>\n<th>multimodale Einbettung@001<\/th>\n<th>Amazon Nova 2<\/th>\n<th>Voyage Multimodal 3.5<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>TextCaps (R\u00fcckruf@1)<\/td>\n<td><strong>97.4<\/strong><\/td>\n<td>88.1<\/td>\n<td>88.9<\/td>\n<td>88.6<\/td>\n<\/tr>\n<tr>\n<td>Docci (R\u00fcckruf@1)<\/td>\n<td><strong>91.3<\/strong><\/td>\n<td>&#8211;<\/td>\n<td>76.5<\/td>\n<td>77.4<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Bei der Bild-zu-Text-Suche ist der Abstand am gr\u00f6\u00dften &#8211; fast 15 Punkte vor Amazon Nova 2 auf Docci.<\/p>\n<h3>Textdokumente<\/h3>\n<table>\n<thead>\n<tr>\n<th>Metrisch<\/th>\n<th>Zwillingseinbettung 2<\/th>\n<th>multimodale Einbettung@001<\/th>\n<th>Amazon Nova 2<\/th>\n<th>Voyage Multimodal 3.5<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>ViDoRe v2 (ndcg@10)<\/td>\n<td>64.9<\/td>\n<td>28.9<\/td>\n<td>60.6<\/td>\n<td><strong>65.5**<\/strong><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Der einzige Benchmark, bei dem Voyage Multimodal 3.5 die Nase vorn hat (Selbstauskunft). Bei der Dokumentensuche liegen die Top-Modelle dicht beieinander. <\/p>\n<h3>Text-Video<\/h3>\n<table>\n<thead>\n<tr>\n<th>Metrisch<\/th>\n<th>Zwillingseinbettung 2<\/th>\n<th>multimodale Einbettung@001<\/th>\n<th>Amazon Nova 2<\/th>\n<th>Voyage Multimodal 3.5<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>Vatex (ndcg@10)<\/td>\n<td><strong>68.8<\/strong><\/td>\n<td>54.9<\/td>\n<td>60.3<\/td>\n<td>55.2<\/td>\n<\/tr>\n<tr>\n<td>MSR-VTT (ndcg@10)<\/td>\n<td><strong>68.0<\/strong><\/td>\n<td>57.9<\/td>\n<td>67.0<\/td>\n<td>63.0**<\/td>\n<\/tr>\n<tr>\n<td>Youcook2 (ndcg@10)<\/td>\n<td><strong>52.5<\/strong><\/td>\n<td>34.9<\/td>\n<td>34.7<\/td>\n<td>31.4**<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Beim Abrufen von Videos liegt Gemini Embedding 2 am weitesten vorne &#8211; \u00fcber 17 Punkte vor Voyage auf Youcook2 und \u00fcber 13 Punkte auf Vatex.<\/p>\n<h3>Sprache &#8211; Text<\/h3>\n<table>\n<thead>\n<tr>\n<th>Metrisch<\/th>\n<th>Zwillingseinbettung 2<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>MSEB (mrr@10)<\/td>\n<td><strong>73.9<\/strong><\/td>\n<\/tr>\n<tr>\n<td>MSEB ASR**** (mrr@10)<\/td>\n<td><strong>70.4<\/strong><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Die Abfrage von Sprachtexten ist v\u00f6llig unumstritten &#8211; weder Amazon noch Voyage unterst\u00fctzen sie. Dies ist eine Kategorie, die Gemini Embedding 2 vollst\u00e4ndig beherrscht. <\/p>\n<p><em>&#8211; Wertung nicht verf\u00fcgbar ** Selbstauskunft *** voyage-3.5 **** ASR-Modell wandelt Audioanfragen in Text um<\/em><\/p>\n<h2>Preisgestaltung<\/h2>\n<p>Das Modell ist derzeit w\u00e4hrend der \u00f6ffentlichen Vorschau kostenlos. Sobald Sie die kostenpflichtige Stufe erreicht haben, sehen Sie hier die Aufschl\u00fcsselung: <\/p>\n<table>\n<thead>\n<tr>\n<th><\/th>\n<th>Kostenloses Tier<\/th>\n<th>Bezahlte Stufe (pro 1M Token)<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>Texteingabe<\/td>\n<td>Kostenfrei<\/td>\n<td>$0.20<\/td>\n<\/tr>\n<tr>\n<td>Bild-Eingabe<\/td>\n<td>Kostenfrei<\/td>\n<td>$0,45 ($0,00012 pro Bild)<\/td>\n<\/tr>\n<tr>\n<td>Audio-Eingang<\/td>\n<td>Kostenfrei<\/td>\n<td>$6,50 ($0,00016 pro Sekunde)<\/td>\n<\/tr>\n<tr>\n<td>Video-Eingang<\/td>\n<td>Kostenfrei<\/td>\n<td>$12.00 ($0.00079 pro Bild)<\/td>\n<\/tr>\n<tr>\n<td>Wird zur Verbesserung der Google-Produkte verwendet<\/td>\n<td>Ja<\/td>\n<td>Nein<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2><strong>Erste Schritte<\/strong><\/h2>\n<p>Das Modell ist jetzt in der \u00f6ffentlichen Vorschau \u00fcber die Gemini API und Vertex AI unter der Modell-ID  <code>gemini-embedding-2-preview<\/code>. Es l\u00e4sst sich mit LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB und Vector Search integrieren.<\/p>\n<pre><code class=\"language-jsx\">from google import genai\nfrom google.genai import types\n\n# For Vertex AI:\n# PROJECT_ID='&lt;add_here&gt;'\n# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')\n\nclient = genai.Client()\n\nwith open(\"example.png\", \"rb\") as f:\n    image_bytes = f.read()\n\nwith open(\"sample.mp3\", \"rb\") as f:\n    audio_bytes = f.read()\n\n# Embed text, image, and audio \nresult = client.models.embed_content(\n    model=\"gemini-embedding-2-preview\",\n    contents=[\n        \"What is the meaning of life?\",\n        types.Part.from_bytes(\n            data=image_bytes,\n            mime_type=\"image\/png\",\n        ),\n        types.Part.from_bytes(\n            data=audio_bytes,\n            mime_type=\"audio\/mpeg\",\n        ),\n    ],\n)\n\nprint(result.embeddings)\n<\/code><\/pre>\n<h2>Probieren Sie es hier aus!<\/h2>\n<p>Wir haben eine <a href=\"https:\/\/gemini-2-trial.vercel.app\">Demo-App<\/a> erstellt, mit der Sie die multimodale Abrufleistung von gemini-embedding-2 testen k\u00f6nnen.<\/p>\n<p>Sie k\u00f6nnen den API-Schl\u00fcssel erhalten, indem Sie sich bei <a href=\"http:\/\/aistudio.google.com\">aistudio.google.com<\/a> anmelden.<\/p>\n<h2>Zu beachtende Beschr\u00e4nkungen<\/h2>\n<ul>\n<li>Das Modell befindet sich noch in der \u00f6ffentlichen Vorschau (das Etikett &#8220;Vorschau&#8221; bedeutet, dass sich die Preise und das Verhalten vor der GA \u00e4ndern k\u00f6nnen).<\/li>\n<li>Der Videoeingang ist auf 120 Sekunden und der Audioeingang auf 80 Sekunden begrenzt.<\/li>\n<li>Die Leistung in Nischenbereichen wie der Finanz-QS ist schw\u00e4cher; bewerten Sie sie anhand Ihrer spezifischen Daten, bevor Sie sich festlegen.<\/li>\n<li>Bei reinen Text-Pipelines ohne multimodale Pl\u00e4ne ist der Kostenaufschlag gegen\u00fcber reinen Textmodellen m\u00f6glicherweise nicht gerechtfertigt.<\/li>\n<\/ul>\n<h2>Die Quintessenz<\/h2>\n<p>Gemini Embedding 2 ist nicht nur eine schrittweise Verbesserung, sondern ein Wechsel der Kategorie. F\u00fcr Teams, die multimodale RAG-Systeme, eine medien\u00fcbergreifende semantische Suche oder vereinheitlichte Wissensdatenbanken aufbauen, wird das, was fr\u00fcher ein Problem mit mehreren Modellen und Pipelines war, zu einem einzigen API-Aufruf zusammengefasst. Wenn Ihre Daten mehr als nur Text umfassen, ist dies das Modell, das Sie zuerst testen sollten.  <\/p>\n<p>Multimodale RAG zu erstellen sollte nicht bedeuten, dass Sie Einbettungsmodelle, Vektordatenbanken und Abfragelogik von Grund auf neu zusammensetzen m\u00fcssen. Wenn Sie eine verwaltete <a href=\"https:\/\/meetcody.ai\/blog\/rag-as-a-service-unlock-generative-ai-for-your-business\/\">RAG-as-a-Service-L\u00f6sung<\/a> w\u00fcnschen, die die Einbettungspipeline f\u00fcr Sie \u00fcbernimmt, <a href=\"https:\/\/getcody.ai\/\">melden Sie sich<\/a> f\u00fcr die kostenlose Testversion bei Cody an und beginnen Sie noch heute mit der Erstellung. <\/p>\n<p><!-- notionvc: 1819203a-dd06-4804-9886-3355db49e8de --><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Gemini Embedding 2: Funktionen, Benchmarks, Preise und wie man anf\u00e4ngt Letzte Woche ver\u00f6ffentlichte Google Zwillinge Embedding 2, das erste nativ multimodale Einbettungsmodell, das auf der Gemini-Architektur basiert. Wenn Sie in irgendeiner Weise mit Einbettungen arbeiten, verdient dies Ihre Aufmerksamkeit. Es hat das Potenzial, die Multi-Modell-Einbettungspipelines, auf die sich die meisten Teams heute verlassen, erheblich zu<a class=\"excerpt-read-more\" href=\"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/\" title=\"ReadGemini Embedding 2: Das erste multimodale Einbettungsmodell von Google\">&#8230; Read more &raquo;<\/a><\/p>\n","protected":false},"author":2,"featured_media":70657,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"inline_featured_image":false,"footnotes":""},"categories":[30],"tags":[],"class_list":["post-70679","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-unkategorisiert"],"acf":[],"yoast_head":"<!-- This site is optimized with the Yoast SEO Premium plugin v21.8 (Yoast SEO v24.2) - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Gemini Embedding 2: Das erste multimodale Einbettungsmodell von Google<\/title>\n<meta name=\"description\" content=\"Gemini Embedding 2 von Google bildet Text, Bilder, Video, Audio und PDFs in einem Vektorraum ab. Wir erl\u00e4utern Ihnen die Benchmarks, die Preise und was das f\u00fcr Ihre RAG-Pipeline bedeutet.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Gemini Embedding 2: Das erste multimodale Einbettungsmodell von Google\" \/>\n<meta property=\"og:description\" content=\"Gemini Embedding 2 von Google bildet Text, Bilder, Video, Audio und PDFs in einem Vektorraum ab. Wir erl\u00e4utern Ihnen die Benchmarks, die Preise und was das f\u00fcr Ihre RAG-Pipeline bedeutet.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/\" \/>\n<meta property=\"og:site_name\" content=\"Cody - The AI Trained on Your Business\" \/>\n<meta property=\"article:published_time\" content=\"2026-03-24T03:02:17+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2026-03-26T18:07:51+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/meetcody.ai\/wp-content\/uploads\/2026\/03\/embedding-cover-scaled.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"2560\" \/>\n\t<meta property=\"og:image:height\" content=\"1440\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Om Kamath\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:creator\" content=\"@meetcodyai\" \/>\n<meta name=\"twitter:site\" content=\"@meetcodyai\" \/>\n<meta name=\"twitter:label1\" content=\"Written by\" \/>\n\t<meta name=\"twitter:data1\" content=\"Om Kamath\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. reading time\" \/>\n\t<meta name=\"twitter:data2\" content=\"6 minutes\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/#article\",\"isPartOf\":{\"@id\":\"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/\"},\"author\":{\"name\":\"Om Kamath\",\"@id\":\"https:\/\/meetcody.ai\/#\/schema\/person\/cde65ec55b79cd833a9777d0a62e83c8\"},\"headline\":\"Gemini Embedding 2: Das erste multimodale Einbettungsmodell von Google\",\"datePublished\":\"2026-03-24T03:02:17+00:00\",\"dateModified\":\"2026-03-26T18:07:51+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/\"},\"wordCount\":1177,\"publisher\":{\"@id\":\"https:\/\/meetcody.ai\/#organization\"},\"image\":{\"@id\":\"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/meetcody.ai\/wp-content\/uploads\/2026\/03\/embedding-cover-scaled.jpg\",\"articleSection\":[\"Unkategorisiert\"],\"inLanguage\":\"de-DE\"},{\"@type\":\"WebPage\",\"@id\":\"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/\",\"url\":\"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/\",\"name\":\"Gemini Embedding 2: Das erste multimodale Einbettungsmodell von Google\",\"isPartOf\":{\"@id\":\"https:\/\/meetcody.ai\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/meetcody.ai\/wp-content\/uploads\/2026\/03\/embedding-cover-scaled.jpg\",\"datePublished\":\"2026-03-24T03:02:17+00:00\",\"dateModified\":\"2026-03-26T18:07:51+00:00\",\"description\":\"Gemini Embedding 2 von Google bildet Text, Bilder, Video, Audio und PDFs in einem Vektorraum ab. Wir erl\u00e4utern Ihnen die Benchmarks, die Preise und was das f\u00fcr Ihre RAG-Pipeline bedeutet.\",\"breadcrumb\":{\"@id\":\"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/#breadcrumb\"},\"inLanguage\":\"de-DE\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"de-DE\",\"@id\":\"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/#primaryimage\",\"url\":\"https:\/\/meetcody.ai\/wp-content\/uploads\/2026\/03\/embedding-cover-scaled.jpg\",\"contentUrl\":\"https:\/\/meetcody.ai\/wp-content\/uploads\/2026\/03\/embedding-cover-scaled.jpg\",\"width\":2560,\"height\":1440},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/meetcody.ai\/de\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Gemini Embedding 2: Das erste multimodale Einbettungsmodell von Google\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/meetcody.ai\/#website\",\"url\":\"https:\/\/meetcody.ai\/\",\"name\":\"Cody AI - The AI Trained on Your Business\",\"description\":\"AI Powered Knowledge Base for Employees\",\"publisher\":{\"@id\":\"https:\/\/meetcody.ai\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/meetcody.ai\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"de-DE\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/meetcody.ai\/#organization\",\"name\":\"Cody AI - The AI Trained on Your Business\",\"url\":\"https:\/\/meetcody.ai\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de-DE\",\"@id\":\"https:\/\/meetcody.ai\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/meetcody.ai\/wp-content\/uploads\/2023\/05\/logo-codyai.svg\",\"contentUrl\":\"https:\/\/meetcody.ai\/wp-content\/uploads\/2023\/05\/logo-codyai.svg\",\"width\":\"1024\",\"height\":\"1024\",\"caption\":\"Cody AI - The AI Trained on Your Business\"},\"image\":{\"@id\":\"https:\/\/meetcody.ai\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/x.com\/meetcodyai\",\"https:\/\/discord.com\/invite\/jXEVDcFxqs\"]},{\"@type\":\"Person\",\"@id\":\"https:\/\/meetcody.ai\/#\/schema\/person\/cde65ec55b79cd833a9777d0a62e83c8\",\"name\":\"Om Kamath\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de-DE\",\"@id\":\"https:\/\/meetcody.ai\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/3903c678cd7f6c8df0a843ae177998f5d413954afa3062f984a030a889a97849?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/3903c678cd7f6c8df0a843ae177998f5d413954afa3062f984a030a889a97849?s=96&d=mm&r=g\",\"caption\":\"Om Kamath\"},\"description\":\"Om Kamath\",\"sameAs\":[\"http:\/\/meetcody.ai\"],\"url\":\"https:\/\/meetcody.ai\/de\/blog\/author\/omkamath\/\"}]}<\/script>\n<!-- \/ Yoast SEO Premium plugin. -->","yoast_head_json":{"title":"Gemini Embedding 2: Das erste multimodale Einbettungsmodell von Google","description":"Gemini Embedding 2 von Google bildet Text, Bilder, Video, Audio und PDFs in einem Vektorraum ab. Wir erl\u00e4utern Ihnen die Benchmarks, die Preise und was das f\u00fcr Ihre RAG-Pipeline bedeutet.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/","og_locale":"de_DE","og_type":"article","og_title":"Gemini Embedding 2: Das erste multimodale Einbettungsmodell von Google","og_description":"Gemini Embedding 2 von Google bildet Text, Bilder, Video, Audio und PDFs in einem Vektorraum ab. Wir erl\u00e4utern Ihnen die Benchmarks, die Preise und was das f\u00fcr Ihre RAG-Pipeline bedeutet.","og_url":"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/","og_site_name":"Cody - The AI Trained on Your Business","article_published_time":"2026-03-24T03:02:17+00:00","article_modified_time":"2026-03-26T18:07:51+00:00","og_image":[{"width":2560,"height":1440,"url":"https:\/\/meetcody.ai\/wp-content\/uploads\/2026\/03\/embedding-cover-scaled.jpg","type":"image\/jpeg"}],"author":"Om Kamath","twitter_card":"summary_large_image","twitter_creator":"@meetcodyai","twitter_site":"@meetcodyai","twitter_misc":{"Written by":"Om Kamath","Est. reading time":"6 minutes"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/#article","isPartOf":{"@id":"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/"},"author":{"name":"Om Kamath","@id":"https:\/\/meetcody.ai\/#\/schema\/person\/cde65ec55b79cd833a9777d0a62e83c8"},"headline":"Gemini Embedding 2: Das erste multimodale Einbettungsmodell von Google","datePublished":"2026-03-24T03:02:17+00:00","dateModified":"2026-03-26T18:07:51+00:00","mainEntityOfPage":{"@id":"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/"},"wordCount":1177,"publisher":{"@id":"https:\/\/meetcody.ai\/#organization"},"image":{"@id":"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/#primaryimage"},"thumbnailUrl":"https:\/\/meetcody.ai\/wp-content\/uploads\/2026\/03\/embedding-cover-scaled.jpg","articleSection":["Unkategorisiert"],"inLanguage":"de-DE"},{"@type":"WebPage","@id":"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/","url":"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/","name":"Gemini Embedding 2: Das erste multimodale Einbettungsmodell von Google","isPartOf":{"@id":"https:\/\/meetcody.ai\/#website"},"primaryImageOfPage":{"@id":"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/#primaryimage"},"image":{"@id":"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/#primaryimage"},"thumbnailUrl":"https:\/\/meetcody.ai\/wp-content\/uploads\/2026\/03\/embedding-cover-scaled.jpg","datePublished":"2026-03-24T03:02:17+00:00","dateModified":"2026-03-26T18:07:51+00:00","description":"Gemini Embedding 2 von Google bildet Text, Bilder, Video, Audio und PDFs in einem Vektorraum ab. Wir erl\u00e4utern Ihnen die Benchmarks, die Preise und was das f\u00fcr Ihre RAG-Pipeline bedeutet.","breadcrumb":{"@id":"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/#breadcrumb"},"inLanguage":"de-DE","potentialAction":[{"@type":"ReadAction","target":["https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/"]}]},{"@type":"ImageObject","inLanguage":"de-DE","@id":"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/#primaryimage","url":"https:\/\/meetcody.ai\/wp-content\/uploads\/2026\/03\/embedding-cover-scaled.jpg","contentUrl":"https:\/\/meetcody.ai\/wp-content\/uploads\/2026\/03\/embedding-cover-scaled.jpg","width":2560,"height":1440},{"@type":"BreadcrumbList","@id":"https:\/\/meetcody.ai\/de\/blog\/gemini-embedding-2-das-erste-multimodale-einbettungsmodell-von-google\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/meetcody.ai\/de\/"},{"@type":"ListItem","position":2,"name":"Gemini Embedding 2: Das erste multimodale Einbettungsmodell von Google"}]},{"@type":"WebSite","@id":"https:\/\/meetcody.ai\/#website","url":"https:\/\/meetcody.ai\/","name":"Cody AI - The AI Trained on Your Business","description":"AI Powered Knowledge Base for Employees","publisher":{"@id":"https:\/\/meetcody.ai\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/meetcody.ai\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"de-DE"},{"@type":"Organization","@id":"https:\/\/meetcody.ai\/#organization","name":"Cody AI - The AI Trained on Your Business","url":"https:\/\/meetcody.ai\/","logo":{"@type":"ImageObject","inLanguage":"de-DE","@id":"https:\/\/meetcody.ai\/#\/schema\/logo\/image\/","url":"https:\/\/meetcody.ai\/wp-content\/uploads\/2023\/05\/logo-codyai.svg","contentUrl":"https:\/\/meetcody.ai\/wp-content\/uploads\/2023\/05\/logo-codyai.svg","width":"1024","height":"1024","caption":"Cody AI - The AI Trained on Your Business"},"image":{"@id":"https:\/\/meetcody.ai\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/x.com\/meetcodyai","https:\/\/discord.com\/invite\/jXEVDcFxqs"]},{"@type":"Person","@id":"https:\/\/meetcody.ai\/#\/schema\/person\/cde65ec55b79cd833a9777d0a62e83c8","name":"Om Kamath","image":{"@type":"ImageObject","inLanguage":"de-DE","@id":"https:\/\/meetcody.ai\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/3903c678cd7f6c8df0a843ae177998f5d413954afa3062f984a030a889a97849?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/3903c678cd7f6c8df0a843ae177998f5d413954afa3062f984a030a889a97849?s=96&d=mm&r=g","caption":"Om Kamath"},"description":"Om Kamath","sameAs":["http:\/\/meetcody.ai"],"url":"https:\/\/meetcody.ai\/de\/blog\/author\/omkamath\/"}]}},"_links":{"self":[{"href":"https:\/\/meetcody.ai\/de\/wp-json\/wp\/v2\/posts\/70679","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/meetcody.ai\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/meetcody.ai\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/meetcody.ai\/de\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/meetcody.ai\/de\/wp-json\/wp\/v2\/comments?post=70679"}],"version-history":[{"count":2,"href":"https:\/\/meetcody.ai\/de\/wp-json\/wp\/v2\/posts\/70679\/revisions"}],"predecessor-version":[{"id":70705,"href":"https:\/\/meetcody.ai\/de\/wp-json\/wp\/v2\/posts\/70679\/revisions\/70705"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/meetcody.ai\/de\/wp-json\/wp\/v2\/media\/70657"}],"wp:attachment":[{"href":"https:\/\/meetcody.ai\/de\/wp-json\/wp\/v2\/media?parent=70679"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/meetcody.ai\/de\/wp-json\/wp\/v2\/categories?post=70679"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/meetcody.ai\/de\/wp-json\/wp\/v2\/tags?post=70679"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}