Gemini Embedding 2: o primeiro modelo de incorporação multimodal do Google

Gemini Embedding 2: recursos, benchmarks, preços e como começar

Na semana passada, o Google lançou Gémeos Embedding 2, o primeiro modelo de embedding nativamente multimodal criado na arquitetura Gemini. Se você trabalha com incorporações de alguma forma, isso merece sua atenção. Ele tem o potencial de interromper significativamente os pipelines de incorporação de vários modelos com os quais a maioria das equipes conta atualmente.

Até agora, os principais modelos de incorporação da OpenAI, Cohere e Voyage eram baseados principalmente em texto. Havia algumas opções multimodais – CLIP para alinhamento imagem-texto, Voyage Multimodal 3.5 para imagens e vídeo – mas nenhuma abrangia todo o espectro de modalidades em um único espaço vetorial unificado. Normalmente, o áudio tinha que ser transcrito antes da incorporação. O vídeo exigia a extração de quadros combinada com a incorporação de transcrições separadas. As imagens viviam inteiramente em seu próprio espaço vetorial.

O Gemini Embedding 2 muda essa equação. Um modelo, uma chamada de API, um espaço vetorial.

Vamos ver o que há de novo.

O que é o Gemini Embedding 2?

O Gemini Embedding 2 (gemini-embedding-2-preview) é o primeiro modelo de incorporação totalmente multimodal do Google DeepMind. Ele usa texto, imagens, videoclipes, gravações de áudio e documentos PDF e converte todos eles em vetores que vivem no mesmo espaço semântico compartilhado.

Diferentemente de abordagens multimodais anteriores, como o CLIP, que emparelha um codificador de visão com um codificador de texto e os alinha com o aprendizado contrastivo no final, o Gemini Embedding 2 foi desenvolvido com base no próprio modelo de fundação do Gemini. Isso significa que ele herda uma profunda compreensão multimodal desde o início.

Embeddings multimodais

Imagem gerada usando o Nano Banana

Exemplo prático: Imagine que você está criando um Sistema de Gerenciamento de Aprendizagem (LMS) com tutoriais em vídeo, palestras em áudio e guias escritos. Com o Gemini Embedding 2, você pode armazenar embeddings de todo esse conteúdo em um único espaço vetorial e criar um chatbot baseado em RAG que recupera partes relevantes de vídeos, áudios e documentos. Anteriormente, isso exigia um pipeline de incorporação em várias camadas e, mesmo assim, ele só capturava transcrições, deixando de lado o contexto visual de um vídeo ou o tom de voz de um locutor.

O modelo usa o Matryoshka Representation Learning, o que significa que você não precisa usar todas as 3072 dimensões se não precisar delas. Você pode reduzir para 1536 ou 768 e ainda assim obter resultados úteis.

Modalidades suportadas e limites de entrada

O modelo aceita cinco tipos de entrada, todos mapeados no mesmo espaço de incorporação:

Modalidade Limite de entrada Formatos
Texto Até 8.192 tokens Texto simples
Imagens Até 6 imagens por solicitação PNG, JPEG
Vídeo Até 120 segundos MP4, MOV
Áudio Até 80 segundos (nativo, sem transcrição) MP3, WAV
PDFs Incorporados diretamente Documentos PDF

Como ele se compara aos modelos existentes

O Google publicou comparações de benchmark com seus próprios modelos legados, Amazon Nova 2 Multimodal Embeddings e Voyage Multimodal 3.5. Aqui está o quadro completo:

Texto-Texto

Métrica Incorporação Gemini 2 gemini-embedding-001 Amazon Nova 2 Voyage Multimodal 3.5
MTEB Multilíngue (tarefa média) 69.9 68.4 63.8** 58.5***
Código MTEB (tarefa média) 84.0 76.0 * *

O Gemini Embedding 2 é líder em texto multilíngue por uma margem confortável e salta 8 pontos em relação ao seu antecessor na recuperação de código. Nem o Amazon Nova 2 nem o Voyage apresentam pontuações de código.

Texto-Imagem

Métrica Incorporação Gemini 2 multimodalembedding@001 Amazon Nova 2 Voyage Multimodal 3.5
TextCaps (recall@1) 89.6 74.0 76.0 79.4
Docci (recall@1) 93.4 84.0 83.8

Uma clara liderança na recuperação de texto para imagem – mais de 9 pontos à frente do concorrente mais próximo em ambos os benchmarks.

Imagem-Texto

Métrica Incorporação Gemini 2 multimodalembedding@001 Amazon Nova 2 Voyage Multimodal 3.5
TextCaps (recall@1) 97.4 88.1 88.9 88.6
Docci (recall@1) 91.3 76.5 77.4

A recuperação de imagem para texto mostra as maiores lacunas – quase 15 pontos à frente do Amazon Nova 2 no Docci.

Documento de texto

Métrica Incorporação Gemini 2 multimodalembedding@001 Amazon Nova 2 Voyage Multimodal 3.5
ViDoRe v2 (ndcg@10) 64.9 28.9 60.6 65.5**

O único parâmetro de comparação em que o Voyage Multimodal 3.5 está à frente (auto-relatado). A recuperação de documentos está próxima entre os principais modelos.

Texto-Vídeo

Métrica Incorporação Gemini 2 multimodalembedding@001 Amazon Nova 2 Voyage Multimodal 3.5
Vatex (ndcg@10) 68.8 54.9 60.3 55.2
MSR-VTT (ndcg@10) 68.0 57.9 67.0 63.0**
Você é o cozinheiro2 (ndcg@10) 52.5 34.9 34.7 31.4**

A recuperação de vídeo é onde o Gemini Embedding 2 está mais à frente – mais de 17 pontos acima do Voyage no Youcook2 e mais de 13 pontos no Vatex.

Discurso-Texto

Métrica Incorporação Gemini 2
MSEB (mrr@10) 73.9
MSEB ASR**** (mrr@10) 70.4

A recuperação de texto de fala é totalmente incontestável – nem a Amazon nem o Voyage oferecem suporte a ela. Essa é uma categoria que a Gemini Embedding 2 domina completamente.

– Pontuação não disponível ** Autorrelatada *** voyage-3.5 **** O modelo ASR converte consultas de áudio em texto

Preços

No momento, o modelo é gratuito durante a visualização pública. Quando você estiver no nível pago, veja o detalhamento:

Nível gratuito Nível pago (por 1 milhão de tokens)
Entrada de texto Gratuito $0.20
Entrada de imagem Gratuito US$ 0,45 (US$ 0,00012 por imagem)
Entrada de áudio Gratuito US$ 6,50 (US$ 0,00016 por segundo)
Entrada de vídeo Gratuito US$ 12,00 (US$ 0,00079 por quadro)
Usado para melhorar os produtos do Google Sim Não

Primeiros passos

O modelo está disponível agora em visualização pública por meio da API Gemini e do Vertex AI com o ID do modelo gemini-embedding-2-preview. Ele se integra com LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB e Vector Search.

from google import genai
from google.genai import types

# For Vertex AI:
# PROJECT_ID='<add_here>'
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')

client = genai.Client()

with open("example.png", "rb") as f:
    image_bytes = f.read()

with open("sample.mp3", "rb") as f:
    audio_bytes = f.read()

# Embed text, image, and audio 
result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type="image/png",
        ),
        types.Part.from_bytes(
            data=audio_bytes,
            mime_type="audio/mpeg",
        ),
    ],
)

print(result.embeddings)

Experimente aqui!

Criamos um aplicativo de demonstração no qual você pode testar o desempenho de recuperação multimodal do gemini-embedding-2.

Você pode obter a chave de API fazendo login em aistudio.google.com.

Limitações a serem observadas

  • O modelo ainda está em pré-visualização pública (a tag “preview” significa que o preço e o comportamento podem mudar antes do GA).
  • A entrada de vídeo é limitada a 120 segundos e a de áudio a 80 segundos.
  • O desempenho em domínios de nicho, como o controle de qualidade financeiro, é mais fraco; avalie com base em seus dados específicos antes de se comprometer.
  • Para pipelines de texto puro sem planos multimodais, o prêmio de custo em relação aos modelos somente de texto pode não ser justificado.

O resultado final

O Gemini Embedding 2 não é apenas uma melhoria incremental, é uma mudança de categoria. Para as equipes que criam sistemas RAG multimodais, pesquisa semântica em tipos de mídia ou bases de conhecimento unificadas, ele reduz o que costumava ser um problema de vários modelos e vários pipelines a uma única chamada de API. Se seus dados abrangem mais do que apenas texto, este é o modelo que você deve avaliar primeiro.

Para criar um RAG multimodal, você não deve precisar costurar modelos de incorporação, bancos de dados vetoriais e lógica de recuperação do zero. Se você quiser uma solução gerenciada de RAG como serviço que lide com o pipeline de incorporação para você, inscreva-se para a avaliação gratuita na Cody e comece a criar hoje mesmo.

More From Our Blog

Gemini Embedding 2: o primeiro modelo de incorporação multimodal do Google

Gemini Embedding 2: o primeiro modelo de incorporação multimodal do Google

Gemini Embedding 2: recursos, benchmarks, preços e como começar Na semana passada, o Google lançou Gémeos Embedding 2, o primeiro modelo de embedding nativamente multimodal criado na arquitetura Gemini. Se você trabalha com incorporações de al...

Read More
Gemini 2.5 Pro e GPT-4.5: quem lidera a revolução da IA?

Gemini 2.5 Pro e GPT-4.5: quem lidera a revolução da IA?

Em 2025, o mundo da inteligência artificial se tornou muito empolgante, com grandes empresas de tecnologia competindo ferozmente para criar os sistemas de IA mais avançados de todos os tempos. Essa intensa competição gerou muitas ideias novas, am...

Read More

Build Your Own Business AI

Get Started Free
Top