A corrida da IA se intensificou, tornando-se um jogo de recuperação entre os grandes nomes da tecnologia. O lançamento do GPT-4o pouco antes do Google I/O não é uma coincidência. Os incríveis recursos do GPT-4o em multimodalidade, ou omnimodalidade para ser mais preciso, criaram um impacto significativo na competição de IA generativa. No entanto, o Google não é de se conter. Durante o Google I/O, eles anunciaram novas variantes de seus modelos Gemini e Gemma. Entre todos os modelos anunciados, o Gemini 1.5 Flash se destaca como o mais impactante. Neste blog, exploraremos os principais recursos do Gemini 1.5 Flash e o compararemos com o Gemini 1.5 Pro e Gemini 1.5 Flash vs GPT-4o para determinar qual é o melhor.
Comparação do Gemini 1.5 Flash com o GPT-4o
Com base nas pontuações de benchmark divulgadas pelo Google, o Gemini 1.5 Flash tem um desempenho superior em áudio em comparação com todos os outros LLMs do Google e está no mesmo nível do modelo Gemini 1.5 Pro (fevereiro de 2024) para outros benchmarks. Embora não recomendemos que você se baseie totalmente em benchmarks para avaliar o desempenho de qualquer LLM, eles ajudam a quantificar a diferença de desempenho e as pequenas atualizações. O elefante na sala é o custo do Gemini 1.5 Flash. Em comparação com o GPT-4o, o Gemini 1.5 Flash é muito mais econômico.
Janela de contexto
Assim como o Gemini 1.5 Pro, o Flash vem com uma janela de contexto de 1 milhão de tokens, o que é mais do que qualquer um dos modelos da OpenAI e é uma das maiores janelas de contexto para LLMs de nível de produção. Uma janela de contexto maior permite maior compreensão dos dados e pode aprimorar técnicas de terceiros, como RAG (Retrieval-Augmented Generation), para casos de uso com uma grande base de conhecimento, aumentando o tamanho do bloco. Além disso, uma janela de contexto maior permite a geração de mais texto, o que é útil em cenários como a redação de artigos, e-mails e comunicados à imprensa.
Multimodalidade
O Gemini-1.5 Flash é multimodal. A multimodalidade permite a entrada de contexto na forma de áudio, vídeo, documentos etc. Os LLMs com multimodalidade são mais versáteis e abrem as portas para mais aplicações de IA generativa sem necessidade de pré-processamento.
“Os modelos Gemini 1.5 foram desenvolvidos para lidar com contextos extremamente longos; eles têm a capacidade de recuperar e raciocinar sobre informações refinadas de até pelo menos 10 milhões de tokens. Essa escala não tem precedentes entre os modelos de linguagem grandes (LLMs) contemporâneos e permite o processamento de entradas de modalidade mista de formato longo, incluindo coleções inteiras de documentos, várias horas de vídeo e quase cinco dias de áudio.” – Relatório do DeepMind
Dabbas = ônibus de trem em hindi. Demonstrando a multimodalidade e o desempenho multilíngue.
A multimodalidade também nos permite usar os LLMs como substitutos de outros serviços especializados. Por exemplo. OCR ou Web Scraping.
Extraia facilmente dados de páginas da Web e transforme-os.
Velocidade
O Gemini 1.5 Flash, como o nome sugere, foi projetado para ter uma vantagem sobre outros modelos em termos de tempo de resposta. Para o exemplo de raspagem da Web mencionado acima, há uma diferença de aproximadamente 2,5 segundos no tempo de resposta, o que é quase 40% mais rápido, tornando o Gemini 1.5 Flash a melhor opção para o uso de automação ou qualquer caso de uso que exija menor latência.
Alguns casos de uso interessantes do Gemini 1.5 Flash
Resumindo vídeos
A compreensão de vídeo do Gemini 1.5 Pro é o aspecto mais subestimado da IA.
Na década de 50, ele “viu” um vídeo de 11 minutos no YouTube (~175k tokens) dos momentos mais emblemáticos do esporte e conseguiu listar perfeitamente (até onde sei) todos os 18 momentos. Não existe outra IA de vídeo tão boa! pic.twitter.com/LaVGR3ATfU – Deedy (@deedydas) 5 de abril de 2024
Escrevendo código usando vídeo
Isso é incrível 🤯 Você está se surpreendendo?
Dei ao Gemini 1.5 uma gravação de vídeo em Flash de mim fazendo compras e ele me forneceu o código Selenium em cerca de 5 segundos. Isso pode mudar muitas coisas. pic.twitter.com/Ojm6aueLe7 – Min Choi (@minchoi) May 18, 2024
Automatizando a jogabilidade
Criei meu próprio assistente omni usando o Gemini 1.5 Flash para me orientar no Super Mario 64.
O Gemini pode ver o que eu faço na minha tela e se comunicar comigo em tempo real por voz e, graças ao longo contexto de 1M, ele tem uma memória de tudo o que fazemos juntos. Incrível. pic.twitter.com/doTngufjFL – Pietro Schirano (@skirano) 21 de maio de 2024