Om Kamath, Author at Cody - The AI Trained on Your Business

Gemini Embedding 2: o primeiro modelo de incorporação multimodal do Google

Om Kamath — Tue, 24 Mar 2026 03:02:17 +0000

Gemini Embedding 2: recursos, benchmarks, preços e como começar

Na semana passada, o Google lançou Gémeos Embedding 2, o primeiro modelo de embedding nativamente multimodal criado na arquitetura Gemini. Se você trabalha com incorporações de alguma forma, isso merece sua atenção. Ele tem o potencial de interromper significativamente os pipelines de incorporação de vários modelos com os quais a maioria das equipes conta atualmente.

Até agora, os principais modelos de incorporação da OpenAI, Cohere e Voyage eram baseados principalmente em texto. Havia algumas opções multimodais – CLIP para alinhamento imagem-texto, Voyage Multimodal 3.5 para imagens e vídeo – mas nenhuma abrangia todo o espectro de modalidades em um único espaço vetorial unificado. Normalmente, o áudio tinha que ser transcrito antes da incorporação. O vídeo exigia a extração de quadros combinada com a incorporação de transcrições separadas. As imagens viviam inteiramente em seu próprio espaço vetorial.

O Gemini Embedding 2 muda essa equação. Um modelo, uma chamada de API, um espaço vetorial.

Vamos ver o que há de novo.

O que é o Gemini Embedding 2?

O Gemini Embedding 2 (gemini-embedding-2-preview) é o primeiro modelo de incorporação totalmente multimodal do Google DeepMind. Ele usa texto, imagens, videoclipes, gravações de áudio e documentos PDF e converte todos eles em vetores que vivem no mesmo espaço semântico compartilhado.

Diferentemente de abordagens multimodais anteriores, como o CLIP, que emparelha um codificador de visão com um codificador de texto e os alinha com o aprendizado contrastivo no final, o Gemini Embedding 2 foi desenvolvido com base no próprio modelo de fundação do Gemini. Isso significa que ele herda uma profunda compreensão multimodal desde o início.

Imagem gerada usando o Nano Banana

Exemplo prático: Imagine que você está criando um Sistema de Gerenciamento de Aprendizagem (LMS) com tutoriais em vídeo, palestras em áudio e guias escritos. Com o Gemini Embedding 2, você pode armazenar embeddings de todo esse conteúdo em um único espaço vetorial e criar um chatbot baseado em RAG que recupera partes relevantes de vídeos, áudios e documentos. Anteriormente, isso exigia um pipeline de incorporação em várias camadas e, mesmo assim, ele só capturava transcrições, deixando de lado o contexto visual de um vídeo ou o tom de voz de um locutor.

O modelo usa o Matryoshka Representation Learning, o que significa que você não precisa usar todas as 3072 dimensões se não precisar delas. Você pode reduzir para 1536 ou 768 e ainda assim obter resultados úteis.

O aprendizado de representação Matryoshka (MRL) é uma técnica para treinar modelos de incorporação de modo que as representações aprendidas sejam úteis não apenas em sua dimensionalidade total, mas também em várias dimensões menores, aninhadas umas dentro das outras como bonecas russas matryoshka. Durante o treinamento, a função de perda é calculada não apenas na incorporação completa, mas também em vários prefixos do vetor de incorporação. Isso incentiva o modelo a reunir as informações mais importantes nas primeiras dimensões, com cada dimensão subsequente adicionando detalhes mais refinados – uma estrutura de grosso a fino.

Modalidades suportadas e limites de entrada

O modelo aceita cinco tipos de entrada, todos mapeados no mesmo espaço de incorporação:

Modalidade	Limite de entrada	Formatos
Texto	Até 8.192 tokens	Texto simples
Imagens	Até 6 imagens por solicitação	PNG, JPEG
Vídeo	Até 120 segundos	MP4, MOV
Áudio	Até 80 segundos (nativo, sem transcrição)	MP3, WAV
PDFs	Incorporados diretamente	Documentos PDF

Como ele se compara aos modelos existentes

TLDR: O novo modelo Gemini Embedding 2 do Google supera seus concorrentes (seu próprio antecessor, o Amazon Nova 2 e o Voyage Multimodal 3.5) em quase todas as modalidades: texto, imagem, vídeo e fala. Ele lidera de forma mais convincente na recuperação de vídeo e na correspondência imagem-texto. O único parâmetro de comparação em que ele não vence é a recuperação de documentos, em que o Voyage está ligeiramente à frente. A recuperação de texto por fala é uma categoria que pertence exclusivamente ao Gemini, pois nenhum concorrente oferece suporte a ela.

O Google publicou comparações de benchmark com seus próprios modelos legados, Amazon Nova 2 Multimodal Embeddings e Voyage Multimodal 3.5. Aqui está o quadro completo:

Texto-Texto

Métrica	Incorporação Gemini 2	gemini-embedding-001	Amazon Nova 2	Voyage Multimodal 3.5
MTEB Multilíngue (tarefa média)	69.9	68.4	63.8**	58.5***
Código MTEB (tarefa média)	84.0	76.0	*	*

O Gemini Embedding 2 é líder em texto multilíngue por uma margem confortável e salta 8 pontos em relação ao seu antecessor na recuperação de código. Nem o Amazon Nova 2 nem o Voyage apresentam pontuações de código.

Texto-Imagem

Métrica	Incorporação Gemini 2	multimodalembedding@001	Amazon Nova 2	Voyage Multimodal 3.5
TextCaps (recall@1)	89.6	74.0	76.0	79.4
Docci (recall@1)	93.4	–	84.0	83.8

Uma clara liderança na recuperação de texto para imagem – mais de 9 pontos à frente do concorrente mais próximo em ambos os benchmarks.

Imagem-Texto

Métrica	Incorporação Gemini 2	multimodalembedding@001	Amazon Nova 2	Voyage Multimodal 3.5
TextCaps (recall@1)	97.4	88.1	88.9	88.6
Docci (recall@1)	91.3	–	76.5	77.4

A recuperação de imagem para texto mostra as maiores lacunas – quase 15 pontos à frente do Amazon Nova 2 no Docci.

Documento de texto

Métrica	Incorporação Gemini 2	multimodalembedding@001	Amazon Nova 2	Voyage Multimodal 3.5
ViDoRe v2 (ndcg@10)	64.9	28.9	60.6	65.5**

O único parâmetro de comparação em que o Voyage Multimodal 3.5 está à frente (auto-relatado). A recuperação de documentos está próxima entre os principais modelos.

Texto-Vídeo

Métrica	Incorporação Gemini 2	multimodalembedding@001	Amazon Nova 2	Voyage Multimodal 3.5
Vatex (ndcg@10)	68.8	54.9	60.3	55.2
MSR-VTT (ndcg@10)	68.0	57.9	67.0	63.0**
Você é o cozinheiro2 (ndcg@10)	52.5	34.9	34.7	31.4**

A recuperação de vídeo é onde o Gemini Embedding 2 está mais à frente – mais de 17 pontos acima do Voyage no Youcook2 e mais de 13 pontos no Vatex.

Discurso-Texto

Métrica	Incorporação Gemini 2
MSEB (mrr@10)	73.9
MSEB ASR**** (mrr@10)	70.4

A recuperação de texto de fala é totalmente incontestável – nem a Amazon nem o Voyage oferecem suporte a ela. Essa é uma categoria que a Gemini Embedding 2 domina completamente.

– Pontuação não disponível ** Autorrelatada *** voyage-3.5 **** O modelo ASR converte consultas de áudio em texto

Preços

No momento, o modelo é gratuito durante a visualização pública. Quando você estiver no nível pago, veja o detalhamento:

	Nível gratuito	Nível pago (por 1 milhão de tokens)
Entrada de texto	Gratuito	$0.20
Entrada de imagem	Gratuito	US$ 0,45 (US$ 0,00012 por imagem)
Entrada de áudio	Gratuito	US$ 6,50 (US$ 0,00016 por segundo)
Entrada de vídeo	Gratuito	US$ 12,00 (US$ 0,00079 por quadro)
Usado para melhorar os produtos do Google	Sim	Não

Primeiros passos

O modelo está disponível agora em visualização pública por meio da API Gemini e do Vertex AI com o ID do modelo gemini-embedding-2-preview. Ele se integra com LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB e Vector Search.

from google import genai
from google.genai import types

# For Vertex AI:
# PROJECT_ID=''
# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')

client = genai.Client()

with open("example.png", "rb") as f:
    image_bytes = f.read()

with open("sample.mp3", "rb") as f:
    audio_bytes = f.read()

# Embed text, image, and audio 
result = client.models.embed_content(
    model="gemini-embedding-2-preview",
    contents=[
        "What is the meaning of life?",
        types.Part.from_bytes(
            data=image_bytes,
            mime_type="image/png",
        ),
        types.Part.from_bytes(
            data=audio_bytes,
            mime_type="audio/mpeg",
        ),
    ],
)

print(result.embeddings)

Experimente aqui!

Criamos um aplicativo de demonstração no qual você pode testar o desempenho de recuperação multimodal do gemini-embedding-2.

Você pode obter a chave de API fazendo login em aistudio.google.com.

Limitações a serem observadas

O modelo ainda está em pré-visualização pública (a tag “preview” significa que o preço e o comportamento podem mudar antes do GA).
A entrada de vídeo é limitada a 120 segundos e a de áudio a 80 segundos.
O desempenho em domínios de nicho, como o controle de qualidade financeiro, é mais fraco; avalie com base em seus dados específicos antes de se comprometer.
Para pipelines de texto puro sem planos multimodais, o prêmio de custo em relação aos modelos somente de texto pode não ser justificado.

O resultado final

O Gemini Embedding 2 não é apenas uma melhoria incremental, é uma mudança de categoria. Para as equipes que criam sistemas RAG multimodais, pesquisa semântica em tipos de mídia ou bases de conhecimento unificadas, ele reduz o que costumava ser um problema de vários modelos e vários pipelines a uma única chamada de API. Se seus dados abrangem mais do que apenas texto, este é o modelo que você deve avaliar primeiro.

Para criar um RAG multimodal, você não deve precisar costurar modelos de incorporação, bancos de dados vetoriais e lógica de recuperação do zero. Se você quiser uma solução gerenciada de RAG como serviço que lide com o pipeline de incorporação para você, inscreva-se para a avaliação gratuita na Cody e comece a criar hoje mesmo.

The post Gemini Embedding 2: o primeiro modelo de incorporação multimodal do Google appeared first on Cody - The AI Trained on Your Business.

Gemini 2.5 Pro e GPT-4.5: quem lidera a revolução da IA?

Om Kamath — Wed, 26 Mar 2025 15:36:01 +0000

Em 2025, o mundo da inteligência artificial se tornou muito empolgante, com grandes empresas de tecnologia competindo ferozmente para criar os sistemas de IA mais avançados de todos os tempos. Essa intensa competição gerou muitas ideias novas, ampliando os limites do que a IA pode fazer para pensar, resolver problemas e interagir como os humanos. No último mês, houve melhorias incríveis, com dois participantes principais liderando o caminho: O Gemini 2.5 Pro do Google e o GPT-4.5 da OpenAI. Em uma grande revelação em março de 2025, o Google apresentou o Gemini 2.5 Pro, que eles chamam de sua criação mais inteligente até o momento. Ele rapidamente se tornou o melhor desempenho na tabela de classificação da LMArena, superando seus concorrentes. O que torna o Gemini 2.5 especial é sua capacidade de considerar cuidadosamente as respostas, o que o ajuda a ter um desempenho melhor em tarefas complexas que exigem raciocínio profundo.

Não querendo ficar para trás, a OpenAI lançou o GPT-4.5, seu maior e mais avançado modelo de bate-papo até agora. Esse modelo é excelente para reconhecer padrões, fazer conexões e ter ideias criativas. Os primeiros testes mostram que a interação com o GPT-4.5 é muito natural, graças à sua ampla gama de conhecimentos e à melhor compreensão do que os usuários querem dizer. A OpenAI enfatiza os aprimoramentos significativos do GPT-4.5 no aprendizado sem supervisão direta, projetado para uma colaboração tranquila com humanos.

Esses sistemas de IA não são apenas uma tecnologia impressionante; eles estão mudando a forma como as empresas operam, acelerando as descobertas científicas e transformando projetos criativos. À medida que a IA se torna uma parte normal da vida cotidiana, modelos como o Gemini 2.5 Pro e o GPT-4.5 estão expandindo o que pensamos ser possível. Com melhores habilidades de raciocínio, menos chances de espalhar informações falsas e domínio de problemas complexos, eles estão abrindo caminho para sistemas de IA que realmente apoiam o progresso humano.

Entendendo o Gemini 2.5 Pro

Em 25 de março de 2025, o Google apresentou oficialmente o Gemini 2.5 Pro, descrito como seu “modelo de IA mais inteligente” até o momento. Esse lançamento representou um marco significativo na jornada de desenvolvimento de IA do Google, após várias iterações de seus modelos 2.0. A estratégia de lançamento começou com a versão experimental primeiro, dando aos assinantes do Gemini Advanced acesso antecipado para testar seus recursos.

O que separa o Gemini 2.5 Pro de seus antecessores é sua arquitetura fundamental como um“modelo de pensamento”. Ao contrário das gerações anteriores, que se baseavam principalmente em padrões de dados treinados, esse modelo pode raciocinar ativamente em seus pensamentos antes de responder, imitando os processos humanos de solução de problemas. Isso representa um avanço significativo na forma como os sistemas de IA processam informações e geram respostas.

Principais recursos e capacidades:

Habilidades de raciocínio aprimoradas – capaz de resolver problemas passo a passo em domínios complexos
Janela de contexto expandida – capacidade de 1 milhão de tokens (com planos de expansão para 2 milhões)
Multimodalidade nativa – processa perfeitamente texto, imagens, áudio, vídeo e código
Recursos avançados de código – Melhorias significativas na criação de aplicativos da Web e na transformação de código

O Gemini 2.5 Pro se estabeleceu como líder em desempenho, estreando na posição número 1 na tabela de classificação da LMArena. Ele se destaca especialmente em benchmarks que exigem raciocínio avançado, obtendo uma pontuação líder do setor de 18,8% no Humanity’s Last Exam sem usar ferramentas externas. Em matemática e ciências, ele demonstra uma competência notável com pontuações de 86,7% no AIME 2025 e 79,7% no GPQA diamond, respectivamente.

Em comparação com os modelos Gemini anteriores, a versão 2.5 Pro representa um avanço substancial. Enquanto o Gemini 2.0 introduziu importantes recursos básicos, o 2.5 Pro combina um modelo básico significativamente aprimorado com técnicas aprimoradas de pós-treinamento. As melhorias mais notáveis aparecem no desempenho da codificação, na profundidade do raciocínio e na compreensão contextual – áreas em que as versões anteriores apresentavam limitações.

Explorando o GPT-4.5

Em abril de 2025, a OpenAI apresentou o GPT-4.5, descrevendo-o como seu “maior e mais avançado modelo de bate-papo até o momento”, o que significa uma conquista notável na evolução de grandes modelos de linguagem. Essa prévia da pesquisa provocou entusiasmo imediato na comunidade de IA, com testes iniciais indicando que as interações com o modelo parecem excepcionalmente naturais, graças à sua ampla base de conhecimento e à capacidade aprimorada de compreender a intenção do usuário.

O GPT-4.5 apresenta avanços significativos nos recursos de aprendizado não supervisionado. A OpenAI realizou esse progresso ao dimensionar a potência computacional e as entradas de dados, além de empregar estratégias inovadoras de arquitetura e otimização. O modelo foi treinado nos supercomputadores de IA do Microsoft Azure, dando continuidade a uma parceria que permitiu à OpenAI ampliar os limites das possibilidades.

Principais aprimoramentos e recursos:

Reconhecimento aprimorado de padrões – Capacidade significativamente maior de reconhecer padrões, estabelecer conexões e gerar percepções criativas
Alucinações reduzidas – Menor probabilidade de gerar informações falsas em comparação com modelos anteriores como GPT-4o e o1
Melhoria do “QE” – Maior inteligência emocional e compreensão das interações humanas diferenciadas
Capacidade de direção avançada – Melhor compreensão e adesão a instruções complexas do usuário

A OpenAI deu ênfase especial ao treinamento do GPT-4.5 para a colaboração humana. Novas técnicas aprimoram a capacidade de direção do modelo, a compreensão das nuances e o fluxo natural da conversa. Isso o torna particularmente eficaz na assistência à escrita e ao design, onde demonstra intuição estética e criatividade mais fortes do que as iterações anteriores.

Em aplicativos do mundo real, o GPT-4.5 demonstra uma versatilidade notável. Sua base de conhecimento ampliada e os recursos de raciocínio aprimorados o tornam adequado para uma ampla gama de tarefas, desde a criação de conteúdo detalhado até a solução de problemas sofisticados. O CEO da OpenAI, Sam Altman, descreveu o modelo em termos positivos, destacando sua “eficácia única”, apesar de não liderar em todas as categorias de benchmark.

A estratégia de implementação do GPT-4.5 reflete a abordagem ponderada da OpenAI para o lançamento de poderosos sistemas de IA. Inicialmente disponível para os assinantes e desenvolvedores do ChatGPT Pro em níveis pagos por meio de várias APIs, a empresa planeja expandir gradualmente o acesso aos assinantes do ChatGPT Plus, Team, Edu e Enterprise. Essa implementação em fases permite que a OpenAI monitore o desempenho e a segurança à medida que o uso aumenta.

Métricas de desempenho: Uma análise comparativa

Ao examinar os recursos técnicos desses modelos avançados de IA, o desempenho de benchmark fornece a medida mais objetiva de suas habilidades. O Gemini 2.5 Pro e o GPT-4.5 demonstram pontos fortes exclusivos em vários domínios, com testes de benchmark que revelam suas vantagens distintas.

Referência	Gemini 2.5 Pro (03-25)	OpenAI GPT-4.5	Claude 3.7 Sonnet	Grok 3 Preview
LMArena (geral)	#1	2	21	2
O Último Exame da Humanidade (sem ferramentas)	18.8%	6.4%	8.9%	–
GPQA Diamante (tentativa única)	84.0%	71.4%	78.2%	80.2%
AIME 2025 (tentativa única)	86.7%	–	49.5%	77.3%
SWE-Bench Verificado	63.8%	38.0%	70.3%	–
Aider Polyglot (Integral/Difuso)	74.0% / 68.6%	44,9% diff	64,9% diff	–
MRCR (128k)	91.5%	48.8%	–	–

O Gemini 2.5 Pro mostra uma força excepcional em tarefas de raciocínio intensivo, destacando-se particularmente no raciocínio de contexto longo e na retenção de conhecimento. Ele supera significativamente os concorrentes no Humanity’s Last Exam, que testa a fronteira do conhecimento humano. No entanto, ele apresenta fraquezas relativas na geração de código, codificação agêntica e, ocasionalmente, tem dificuldades com a factualidade em determinados domínios.

O GPT-4.5, por outro lado, demonstra excelência especial em reconhecimento de padrões, geração de insights criativos e raciocínio científico. Seu desempenho é superior ao do benchmark de diamante GPQA, demonstrando fortes capacidades em domínios científicos. O modelo também apresenta inteligência emocional e intuição estética aprimoradas, o que o torna particularmente valioso para aplicativos criativos e voltados para o design. Uma vantagem importante é sua tendência reduzida de gerar informações falsas em comparação com seus antecessores.

Em termos práticos, o Gemini 2.5 Pro representa a melhor opção para tarefas que exigem raciocínio profundo, compreensão multimodal e manipulação de contextos extremamente longos. O GPT-4.5 oferece vantagens no trabalho criativo, na assistência ao design e em aplicativos em que a precisão factual e o fluxo natural de conversação são fundamentais.

Aplicativos e casos de uso

Embora os desempenhos de benchmark forneçam percepções técnicas valiosas, a verdadeira medida desses modelos avançados de IA está em suas aplicações práticas em vários domínios. Tanto o Gemini 2.5 Pro quanto o GPT-4.5 demonstram pontos fortes distintos que os tornam adequados para diferentes casos de uso, com as organizações já começando a aproveitar seus recursos para resolver problemas complexos.

Gemini 2.5 Pro em domínios científicos e técnicos

Os excepcionais recursos de raciocínio e a ampla janela de contexto do Gemini 2.5 Pro o tornam particularmente valioso para pesquisas científicas e aplicações técnicas. Sua capacidade de processar e analisar dados multimodais – incluindo texto, imagens, áudio, vídeo e código – permite lidar com problemas complexos que exigem a síntese de informações de diversas fontes. Essa versatilidade abre inúmeras possibilidades nos setores que exigem precisão técnica e análise abrangente.

Pesquisa científica e análise de dados – O bom desempenho do Gemini 2.5 Pro em benchmarks como o GPQA (79,7%) demonstra seu potencial para auxiliar os pesquisadores na análise de literatura científica complexa, na geração de hipóteses e na interpretação de resultados experimentais.
Desenvolvimento e engenharia de software – O modelo se destaca na criação de aplicativos da Web, na realização de transformações de código e no desenvolvimento de programas complexos com uma pontuação de 63,8% no SWE-Bench Verified usando configurações de agentes personalizados
Diagnóstico médico e assistência médica – Seus recursos de raciocínio permitem a análise de imagens médicas juntamente com dados de pacientes para dar suporte aos profissionais de saúde nos processos de diagnóstico
Análise de Big Data e gerenciamento de conhecimento – A janela de contexto de 1 milhão de tokens (que será expandida em breve para 2 milhões) permite o processamento de conjuntos de dados e repositórios de código inteiros em um único prompt

Excelência em tarefas criativas e de comunicação do GPT-4.5

Por outro lado, o GPT-4.5 demonstra uma força especial em tarefas que exigem comunicação diferenciada, pensamento criativo e julgamento estético. A OpenAI enfatizou o treinamento desse modelo especificamente para a colaboração humana, resultando em recursos aprimorados para a criação de conteúdo, assistência ao design e comunicação natural.

Criação de conteúdo e redação – O GPT-4.5 mostra intuição estética e criatividade aprimoradas, o que o torna valioso para gerar textos de marketing, artigos, roteiros e outros conteúdos escritos
Colaboração no design – A melhor compreensão das nuances e do contexto do modelo o torna um parceiro eficaz nos processos de design, desde a conceituação até o refinamento
Envolvimento do cliente – Com maior inteligência emocional, o GPT-4.5 fornece respostas mais adequadas e naturais em contextos de atendimento ao cliente
Desenvolvimento de conteúdo educacional – O modelo é excelente para adaptar as explicações a diferentes níveis de conhecimento e estilos de aprendizagem

Empresas de vários setores já estão integrando esses modelos em seus fluxos de trabalho. A Microsoft incorporou a tecnologia da OpenAI diretamente ao seu pacote de produtos, proporcionando aos usuários corporativos acesso imediato aos recursos do GPT-4.5. Da mesma forma, o Gemini 2.5 Pro do Google está encontrando aplicações em instituições de pesquisa e empresas de tecnologia que buscam aproveitar seus recursos de raciocínio e multimodais.

Os pontos fortes complementares desses modelos sugerem que muitas organizações podem se beneficiar da utilização de ambos, dependendo dos casos de uso específicos. À medida que essas tecnologias continuam a amadurecer, podemos esperar ver aplicativos cada vez mais sofisticados que transformam fundamentalmente o trabalho de conhecimento, os processos criativos e a solução de problemas em todos os setores.

O futuro da IA: o que vem a seguir?

À medida que o Gemini 2.5 Pro e o GPT-4.5 ultrapassam os limites do que é possível, a trajetória futura do desenvolvimento da IA fica mais nítida. O compromisso do Google de “desenvolver recursos de raciocínio diretamente em todos os modelos” sugere um futuro em que o raciocínio se tornará padrão em todos os sistemas de IA. Da mesma forma, a abordagem da OpenAI de “escalonar o aprendizado e o raciocínio não supervisionados” aponta para modelos com recursos cada vez maiores para entender e gerar conteúdo semelhante ao humano.

É provável que nos próximos anos você veja modelos de IA com janelas de contexto muito mais amplas do que os limites atuais, raciocínio mais sofisticado e integração perfeita em todas as modalidades. Também poderemos testemunhar o surgimento de agentes de IA verdadeiramente autônomos, capazes de executar tarefas complexas com o mínimo de supervisão humana. No entanto, esses avanços trazem desafios significativos. À medida que os recursos de IA aumentam, também aumenta a importância de abordar os possíveis riscos relacionados à desinformação, à privacidade e ao deslocamento do trabalho humano.

As considerações éticas devem permanecer na vanguarda do desenvolvimento da IA. A OpenAI reconhece que “cada aumento nos recursos dos modelos é uma oportunidade de torná-los mais seguros”, destacando a dupla responsabilidade do avanço e da proteção. A comunidade de IA precisará desenvolver estruturas de governança robustas que incentivem a inovação e, ao mesmo tempo, protejam contra o uso indevido.

A revolução da IA representada pelo Gemini 2.5 Pro e pelo GPT-4.5 está apenas começando. Embora o ritmo do avanço traga tanto entusiasmo quanto apreensão, uma coisa permanece clara: o futuro da IA será definido não apenas pelas capacidades tecnológicas, mas pela forma como escolhermos aproveitá-las para o benefício humano. Ao priorizar o desenvolvimento responsável que aumenta o potencial humano em vez de substituí-lo, podemos garantir que a próxima geração de modelos de IA sirva como ferramentas poderosas para o progresso coletivo.

The post Gemini 2.5 Pro e GPT-4.5: quem lidera a revolução da IA? appeared first on Cody - The AI Trained on Your Business.

GPT-4.5 vs. Claude 3.7 Sonnet: Um mergulho profundo nos avanços da IA

Om Kamath — Sun, 02 Mar 2025 15:52:48 +0000

O cenário da inteligência artificial está evoluindo rapidamente, com dois modelos recentes se destacando: GPT-4.5 e Claude 3.7 Sonnet. Esses modelos avançados de linguagem representam saltos significativos nos recursos de IA, cada um trazendo pontos fortes exclusivos para a mesa.

O GPT-4.5 da OpenAI, embora seja uma atualização menor, apresenta melhorias na redução de alucinações e no aprimoramento de conversas naturais. Por outro lado, o Claude 3.7 Sonnet da Anthropic chamou a atenção por sua excepcional capacidade de codificação e economia. Ambos os modelos atendem a uma ampla gama de usuários, desde desenvolvedores e pesquisadores até empresas que buscam soluções de IA de ponta.

À medida que esses modelos ultrapassam os limites do que é possível em IA, eles estão remodelando as expectativas e os aplicativos em vários setores, preparando o terreno para avanços ainda mais transformadores no futuro próximo.

Principais recursos do GPT-4.5 e do Claude 3.7 Sonnet

Tanto o GPT-4.5 quanto o Claude 3.7 Sonnet trazem avanços significativos para o cenário da IA, cada um com seus pontos fortes exclusivos. O GPT-4.5, descrito como o “maior e mais experiente modelo da OpenAI até o momento”, concentra-se na expansão do aprendizado não supervisionado para aprimorar o conhecimento de palavras e a intuição, reduzindo as alucinações. Esse modelo é excelente para aprimorar os recursos de raciocínio e melhorar as interações de bate-papo com uma compreensão contextual mais profunda.

Por outro lado, o Claude 3.7 Sonnet apresenta um modelo de raciocínio híbrido inovador, que permite respostas rápidas e raciocínio ampliado, passo a passo. Ele se destaca especialmente na codificação e no desenvolvimento web front-end, apresentando excelentes habilidades de acompanhamento de instruções e raciocínio geral.

Principais aprimoramentos:

GPT-4.5: recursos aprimorados de aprendizagem não supervisionada e de conversação
Claude 3.7 Sonnet: Raciocínio híbrido avançado e capacidade superior de codificação
Ambos os modelos: Recursos multimodais aprimorados e raciocínio adaptativo

Desempenho e avaliação

Tarefa	GPT-4.5 (vs 4o)	Claude 3.7 Sonnet* (vs 3.5)
Codificação	Aprimorado	Supera significativamente o desempenho
Matemática	Melhoria moderada	Melhor nos problemas do AIME’24
Raciocínio	Desempenho semelhante	Desempenho semelhante
Multimodal	Desempenho semelhante	Desempenho semelhante

* Sem pensar muito

O GPT-4.5 apresentou melhorias notáveis nas interações de bate-papo e reduziu as alucinações. Os testadores humanos o avaliaram como mais preciso e factual em comparação com os modelos anteriores, tornando-o um parceiro de conversação mais confiável.

O Claude 3.7 Sonnet, por outro lado, demonstra uma eficiência excepcional em aplicativos em tempo real e tarefas de codificação. Ele alcançou um desempenho de ponta no SWE-bench Verified e no TAU-bench, demonstrando sua proeza em engenharia de software e solução de problemas complexos. Além disso, sua maior taxa de transferência em comparação com o GPT-4.5 o torna particularmente adequado para tarefas que exigem respostas rápidas e processamento de grandes quantidades de dados.

Fonte: Antrópico

Preços e acessibilidade

O GPT-4.5, embora apresente recursos impressionantes, vem com um preço elevado. Seu preço é 75 vezes maior que o de seu antecessor, o GPT-4, sem uma justificativa clara para esse aumento substancial. Essa estratégia de preços pode limitar sua acessibilidade a muitos usuários em potencial.

Em contrapartida, o Claude 3.7 Sonnet oferece uma opção mais econômica. Sua estrutura de preços é significativamente mais competitiva:

25 vezes mais barato para tokens de entrada em comparação com o GPT-4.5
10 vezes mais barato para tokens de saída
Preço específico: US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída

Em relação à disponibilidade, o GPT-4.5 está atualmente acessível aos usuários e desenvolvedores do GPT Pro via API, com planos de estender o acesso a usuários Plus, instituições educacionais e equipes. O Claude 3.7 Sonnet, no entanto, oferece acessibilidade mais ampla em todos os planos do Claude (Free, Pro, Team, Enterprise), bem como por meio da API Anthropic, Amazon Bedrock e Vertex AI do Google Cloud.

Essas diferenças de preço e acessibilidade afetam significativamente a adoção potencial e os casos de uso de cada modelo, com o Claude 3.7 Sonnet potencialmente atraente para uma gama maior de usuários devido à sua relação custo-benefício e disponibilidade mais ampla.

Casos de utilização

Tanto o GPT-4.5 quanto o Claude 3.7 Sonnet oferecem recursos exclusivos que atendem a diversas aplicações do mundo real. O GPT-4.5 se destaca como um parceiro de conversação avançado, superando os modelos anteriores em termos de precisão e reduzindo as alucinações. Sua compreensão contextual aprimorada o torna ideal para atendimento ao cliente, criação de conteúdo e experiências de aprendizagem personalizadas.

O Claude 3.7 Sonnet, por outro lado, brilha no campo da codificação e do desenvolvimento de software. Seus recursos de codificação agêntica, demonstrados pelo Claude Code, automatizam tarefas como pesquisa de código, execução de testes e uso de ferramentas de linha de comando. Isso o torna um recurso inestimável para empresas que buscam otimizar seus processos de desenvolvimento.

Perspectivas futuras e conclusão

O lançamento do GPT-4.5 e do Claude 3.7 Sonnet é um marco significativo no desenvolvimento da IA, preparando o terreno para avanços ainda mais revolucionários. Embora o GPT-4.5 seja visto como uma pequena atualização, ele estabelece a base para futuros modelos com recursos de raciocínio aprimorados. O Claude 3.7 Sonnet, com seu modelo de raciocínio híbrido, representa uma mudança dinâmica no cenário da IA, influenciando potencialmente a direção de desenvolvimentos futuros.

À medida que esses modelos continuam a evoluir, podemos prever mais melhorias na aprendizagem não supervisionada, nos recursos de raciocínio e nas otimizações específicas de tarefas. A natureza complementar da aprendizagem não supervisionada e do raciocínio sugere que os futuros modelos de IA provavelmente apresentarão habilidades de solução de problemas ainda mais sofisticadas.

The post GPT-4.5 vs. Claude 3.7 Sonnet: Um mergulho profundo nos avanços da IA appeared first on Cody - The AI Trained on Your Business.

Perplexity Comet: um salto ousado para a pesquisa agêntica

Om Kamath — Thu, 27 Feb 2025 17:53:18 +0000

A Perplexity, gigante dos mecanismos de busca com tecnologia de IA, está causando impacto no mundo da tecnologia com seu mais recente empreendimento: um navegador revolucionário chamado Comet. Anunciado como “A Browser for Agentic Search by Perplexity”, o Comet representa um passo ousado no competitivo mercado de navegadores. Embora os detalhes sobre o design e a data de lançamento permaneçam em segredo, a empresa já lançou uma lista de inscrições, informando que o Comet será lançado “em breve”.

Essa mudança ocorre em um momento de crescimento significativo para a Perplexity. A empresa, avaliada em impressionantes US$ 9 bilhões, processa atualmente mais de 100 milhões de consultas semanais por meio de seu mecanismo de busca. A introdução do Comet significa a ambição da Perplexity de estender sua influência para além da pesquisa, potencialmente reformulando a forma como os usuários interagem com a Web. À medida que a expectativa aumenta, o Comet está pronto para se tornar um elemento fundamental no ecossistema digital em expansão da Perplexity.

Principais recursos do Comet

O Comet utiliza o “Agentic Search”, um recurso avançado que permite a execução autônoma de tarefas. Isso significa que os usuários podem delegar tarefas complexas, como reservar voos ou gerenciar reservas, ao navegador, aumentando significativamente a produtividade.

Construído sobre uma base baseada no Chromium, o Comet garante compatibilidade entre plataformas, proporcionando uma experiência perfeita em desktops e dispositivos móveis. Essa escolha de design combina a estabilidade da tecnologia de navegador estabelecida com as inovações de IA de ponta da Perplexity.

Integração profunda de pesquisa: O Comet oferece ferramentas de análise abrangentes, facilitando a pesquisa aprofundada diretamente no navegador.
Processamento de informações em tempo real: Os usuários se beneficiam de informações atualizadas e completas com citações de fontes, garantindo precisão e credibilidade.
Extensas integrações de aplicativos: Com suporte para mais de 800 aplicativos, o Comet pretende se tornar um hub central para as atividades digitais dos usuários.

Ao combinar a IA com as funções tradicionais do navegador, o Comet está pronto para transformar a forma como os usuários interagem com a Web, alterando potencialmente o cenário da produtividade e do processamento de informações. De acordo com a Perplexity, o Comet é realmente “Um navegador para pesquisa agêntica”, prometendo uma nova era de navegação inteligente na Web.

Posicionamento estratégico e contexto de mercado

Ao se aventurar no mercado altamente competitivo de navegadores com o Comet, a Perplexity enfrenta desafios formidáveis de participantes estabelecidos, como o Google Chrome, e de navegadores emergentes aprimorados por IA, como o Dia, da The Browser Company. No entanto, o posicionamento exclusivo do Comet como um navegador baseado em Chromium e alimentado por IA, com recursos avançados de automação de tarefas, o diferencia das ofertas tradicionais.

Embora o Google Chrome tenha uma grande base de usuários e recursos básicos de IA, o Comet pretende se diferenciar por meio de seus sofisticados recursos de IA, extensas integrações de aplicativos e ferramentas de pesquisa profunda, tudo sem a necessidade de extensões adicionais. Essa abordagem poderia atrair os usuários que buscam uma experiência de navegação mais inteligente e simplificada, desafiando potencialmente o domínio do Chrome em determinados segmentos.

A estratégia de marketing da Perplexity para o Comet aproveita de forma inteligente a base de usuários do mecanismo de busca existente, que já processa mais de 100 milhões de consultas semanais. Ao aproveitar esse público estabelecido, a Perplexity pretende facilitar a adoção do Comet, o que pode lhe dar uma vantagem significativa na aquisição de usuários e no engajamento no competitivo cenário dos navegadores.

Considerações legais e éticas

Ao se aventurar no mercado de navegadores com o Comet, a Perplexity enfrenta não apenas desafios tecnológicos, mas também obstáculos legais e éticos significativos. Recentemente, a empresa se viu envolvida em disputas legais com grandes editoras sobre o uso de conteúdo. A Dow Jones, da News Corp, e o NY Post entraram com ações judiciais contra a Perplexity, acusando-a de replicação não autorizada de conteúdo e rotulando a empresa como uma “cleptocracia de conteúdo”. Além disso, o The New York Times emitiu uma notificação de cessação e desistência, intensificando ainda mais a pressão legal.

Em resposta a essas alegações, a Perplexity afirma que respeita o conteúdo dos editores e introduziu um programa de compartilhamento de receita para veículos de mídia. Essa medida parece ser uma tentativa de abordar as preocupações e estabelecer um relacionamento mais colaborativo com os criadores de conteúdo. No entanto, ainda não se sabe qual será a eficácia desse programa na resolução de disputas legais.

P: Quais são as implicações éticas da navegação na Web orientada por IA?

R: A introdução de navegadores com tecnologia de IA, como o Comet, levanta questões éticas importantes sobre a privacidade dos dados e a autonomia do usuário. Analistas de segurança cibernética, como Mark Thompson, expressaram preocupações sobre como os dados do usuário podem ser coletados, processados e possivelmente compartilhados ao usar ferramentas de navegação orientadas por IA. Como o Comet promete revolucionar a interação na Web por meio de recursos como pesquisa agêntica e integrações abrangentes de aplicativos, ele também amplia a necessidade de práticas transparentes de dados e proteções robustas de privacidade.

Opiniões de especialistas e percepções do setor

Enquanto o navegador Comet da Perplexity se prepara para entrar no mercado, os especialistas estão avaliando seu possível impacto e implicações. A Dra. Sarah Chen, uma proeminente pesquisadora de IA, sugere que o Comet pode alterar fundamentalmente a forma como os usuários interagem com as informações on-line, graças aos seus recursos avançados de pesquisa agêntica. Essa perspectiva se alinha com o rápido crescimento da Perplexity, conforme evidenciado por seu mecanismo de pesquisa de IA que agora processa cerca de 100 milhões de consultas por semana.

Apesar das preocupações, os observadores do setor preveem um crescimento significativo na integração da IA nas tecnologias da Web. A avaliação de US$ 9 bilhões da Perplexity e seu posicionamento como principal concorrente no espaço do mecanismo de pesquisa de IA ressaltam essa tendência. Enquanto o Comet se prepara para o lançamento, ele representa não apenas um novo produto, mas uma possível mudança na forma como percebemos e interagimos com a Internet, equilibrando a inovação com a necessidade de implementação responsável da IA.

Isso transformará a pesquisa?

A visão da empresa de reinventar a navegação na Web, assim como sua abordagem aos mecanismos de pesquisa, sugere um futuro em que os navegadores orientados por IA poderão se tornar a norma. Com a rápida expansão da Perplexity e a introdução de produtos inovadores, a Comet está pronta para capitalizar a tendência crescente de integração de IA em tecnologias da Web.

O mercado de navegadores poderá sofrer mudanças significativas à medida que os usuários se acostumarem a experiências de navegação mais inteligentes e orientadas para tarefas. O foco da Perplexity nos recursos de pesquisa agêntica do Comet pode redefinir as interações digitais, potencialmente simplificando tarefas on-line complexas e remodelando os hábitos de navegação. Como a IA continua a permear vários aspectos da tecnologia, o Comet representa um passo ousado em direção a um futuro em que os navegadores da Web atuam como assistentes inteligentes, aumentando a produtividade e transformando a forma como navegamos no mundo digital.

The post Perplexity Comet: um salto ousado para a pesquisa agêntica appeared first on Cody - The AI Trained on Your Business.