Author: Om Kamath

Om Kamath

Os melhores espaços para abraçar o rosto que você deve conhecer em 2024

Posted on May 31, 2024 by Om Kamath - Não categorizado

O Hugging Face tornou-se rapidamente uma plataforma de referência na comunidade de aprendizado de máquina, com um amplo conjunto de ferramentas e modelos para PNL, visão computacional e muito mais. Uma de suas ofertas mais populares é o Hugging Face Spaces, uma plataforma colaborativa em que os desenvolvedores podem compartilhar aplicativos e demonstrações de aprendizado de máquina. Esses “espaços” permitem que os usuários interajam diretamente com os modelos, oferecendo uma experiência prática com tecnologia de IA de ponta.

Neste artigo, destacaremos cinco espaços de destaque para o Hugging Face que você deve visitar em 2024. Cada um desses espaços oferece uma ferramenta ou gerador exclusivo que aproveita o imenso poder dos modelos de IA atuais. Vamos nos aprofundar nos detalhes.

EpicrealismoXL

O Epicrealismxl é um gerador de texto para imagem de última geração que usa o modelo stablediffusion epicrealism-xl. Esse espaço permite que você forneça ao aplicativo um prompt, prompts negativos e etapas de amostragem para gerar imagens de tirar o fôlego. Se você é um artista em busca de inspiração ou um profissional de marketing em busca de recursos visuais, o epicrealismxl oferece geração de imagens de alta qualidade que são tão realistas quanto épicas.

Podcastify

O Podcastify revoluciona a maneira como você consome conteúdo escrito, convertendo artigos em podcasts de áudio que podem ser ouvidos. Basta colar o URL do artigo que você deseja converter na caixa de texto, clicar em “Podcastify” e pronto! Você tem um podcast recém-gerado pronto para ser ouvido ou visualizado na guia de conversa. Essa ferramenta é perfeita para pessoas multitarefas que preferem o aprendizado auditivo ou pessoas em trânsito.

Dalle-3-xl-lora-v2

Outro gerador estelar de texto para imagem, o dalle-3-xl-lora-v2, utiliza o famoso modelo DALL-E 3. Com função semelhante à do epicrealismxl, essa ferramenta permite que você gere imagens a partir de prompts textuais. O DALL-E 3 é conhecido por sua versatilidade e criatividade, o que o torna uma excelente opção para gerar visuais complexos e exclusivos para várias aplicações.

Raspador da Web com IA

O AI Scraper coloca ao seu alcance recursos avançados de raspagem da Web sem exigir nenhuma habilidade de codificação. Essa ferramenta sem código permite que você extraia e resuma facilmente o conteúdo da Web usando modelos avançados de IA hospedados no Hugging Face Hub. Insira o prompt desejado e o URL de origem para começar a extrair informações úteis no formato JSON. Essa ferramenta é indispensável para jornalistas, pesquisadores e criadores de conteúdo.

Gerador de código QR AI

O AI QR Code Generator leva seus códigos QR a um nível artístico totalmente novo. Ao usar a imagem do código QR como imagem inicial e de controle, essa ferramenta permite que você gere códigos QR que se misturam naturalmente com o prompt fornecido. Ajuste os parâmetros da escala de força e condicionamento para criar códigos QR esteticamente agradáveis que sejam funcionais e bonitos.

Conclusão

Os Hugging Face Spaces são uma prova dos rápidos avanços em aprendizado de máquina e IA. Se você é um artista, um criador de conteúdo, um profissional de marketing ou apenas um entusiasta de IA, esses cinco principais espaços oferecem várias ferramentas e geradores que podem aprimorar seu fluxo de trabalho e estimular sua criatividade. Não deixe de explorar esses espaços para ficar à frente da curva em 2024. Se você quiser saber sobre os 5 principais LLMs de código aberto em 2024, leia nosso blog aqui.

Gemini 1.5 Flash vs GPT-4o: A resposta do Google ao GPT-4o?

Posted on May 28, 2024 by Om Kamath - Não categorizado

A corrida da IA se intensificou, tornando-se um jogo de recuperação entre os grandes nomes da tecnologia. O lançamento do GPT-4o pouco antes do Google I/O não é uma coincidência. Os incríveis recursos do GPT-4o em multimodalidade, ou omnimodalidade para ser mais preciso, criaram um impacto significativo na competição de IA generativa. No entanto, o Google não é de se conter. Durante o Google I/O, eles anunciaram novas variantes de seus modelos Gemini e Gemma. Entre todos os modelos anunciados, o Gemini 1.5 Flash se destaca como o mais impactante. Neste blog, exploraremos os principais recursos do Gemini 1.5 Flash e o compararemos com o Gemini 1.5 Pro e Gemini 1.5 Flash vs GPT-4o para determinar qual é o melhor.

Comparação do Gemini 1.5 Flash com o GPT-4o

Com base nas pontuações de benchmark divulgadas pelo Google, o Gemini 1.5 Flash tem um desempenho superior em áudio em comparação com todos os outros LLMs do Google e está no mesmo nível do modelo Gemini 1.5 Pro (fevereiro de 2024) para outros benchmarks. Embora não recomendemos que você se baseie totalmente em benchmarks para avaliar o desempenho de qualquer LLM, eles ajudam a quantificar a diferença de desempenho e as pequenas atualizações. O elefante na sala é o custo do Gemini 1.5 Flash. Em comparação com o GPT-4o, o Gemini 1.5 Flash é muito mais econômico.

Janela de contexto

Assim como o Gemini 1.5 Pro, o Flash vem com uma janela de contexto de 1 milhão de tokens, o que é mais do que qualquer um dos modelos da OpenAI e é uma das maiores janelas de contexto para LLMs de nível de produção. Uma janela de contexto maior permite maior compreensão dos dados e pode aprimorar técnicas de terceiros, como RAG (Retrieval-Augmented Generation), para casos de uso com uma grande base de conhecimento, aumentando o tamanho do bloco. Além disso, uma janela de contexto maior permite a geração de mais texto, o que é útil em cenários como a redação de artigos, e-mails e comunicados à imprensa.

Multimodalidade

O Gemini-1.5 Flash é multimodal. A multimodalidade permite a entrada de contexto na forma de áudio, vídeo, documentos etc. Os LLMs com multimodalidade são mais versáteis e abrem as portas para mais aplicações de IA generativa sem necessidade de pré-processamento.

“Os modelos Gemini 1.5 foram desenvolvidos para lidar com contextos extremamente longos; eles têm a capacidade de recuperar e raciocinar sobre informações refinadas de até pelo menos 10 milhões de tokens. Essa escala não tem precedentes entre os modelos de linguagem grandes (LLMs) contemporâneos e permite o processamento de entradas de modalidade mista de formato longo, incluindo coleções inteiras de documentos, várias horas de vídeo e quase cinco dias de áudio.” – Relatório do DeepMind

Dabbas = ônibus de trem em hindi. Demonstrando a multimodalidade e o desempenho multilíngue.

A multimodalidade também nos permite usar os LLMs como substitutos de outros serviços especializados. Por exemplo. OCR ou Web Scraping.

Extraia facilmente dados de páginas da Web e transforme-os.

Velocidade

O Gemini 1.5 Flash, como o nome sugere, foi projetado para ter uma vantagem sobre outros modelos em termos de tempo de resposta. Para o exemplo de raspagem da Web mencionado acima, há uma diferença de aproximadamente 2,5 segundos no tempo de resposta, o que é quase 40% mais rápido, tornando o Gemini 1.5 Flash a melhor opção para o uso de automação ou qualquer caso de uso que exija menor latência.

Alguns casos de uso interessantes do Gemini 1.5 Flash

Resumindo vídeos

A compreensão de vídeo do Gemini 1.5 Pro é o aspecto mais subestimado da IA.

Na década de 50, ele “viu” um vídeo de 11 minutos no YouTube (~175k tokens) dos momentos mais emblemáticos do esporte e conseguiu listar perfeitamente (até onde sei) todos os 18 momentos. Não existe outra IA de vídeo tão boa! pic.twitter.com/LaVGR3ATfU – Deedy (@deedydas) 5 de abril de 2024

Escrevendo código usando vídeo

Isso é incrível 🤯 Você está se surpreendendo?

Dei ao Gemini 1.5 uma gravação de vídeo em Flash de mim fazendo compras e ele me forneceu o código Selenium em cerca de 5 segundos. Isso pode mudar muitas coisas. pic.twitter.com/Ojm6aueLe7 – Min Choi (@minchoi) May 18, 2024

Automatizando a jogabilidade

Criei meu próprio assistente omni usando o Gemini 1.5 Flash para me orientar no Super Mario 64.

O Gemini pode ver o que eu faço na minha tela e se comunicar comigo em tempo real por voz e, graças ao longo contexto de 1M, ele tem uma memória de tudo o que fazemos juntos. Incrível. pic.twitter.com/doTngufjFL – Pietro Schirano (@skirano) 21 de maio de 2024

GPT-4o: OpenAI revela seu mais recente modelo de linguagem, disponível gratuitamente para os usuários

Posted on May 14, 2024 by Om Kamath - Não categorizado

Depois de muita especulação nas mídias sociais e em outros fóruns sobre o que a OpenAI tem reservado para nós, ontem, a OpenAI finalmente revelou seu LLM mais recente e mais poderoso até o momento: GPT-4o (“o” de omni). Caso você tenha perdido o evento de lançamento do GPT-4o, vamos analisar os recursos do GPT-4o e os recursos que ele oferece.

Recursos aprimorados de áudio, texto e visão

O GPT-4 Turbo é um modelo avançado, mas tem uma desvantagem: a latência. Quando comparado ao GPT-3.5 Turbo, o GPT-4 Turbo ainda é consideravelmente mais lento. O GPT-4o resolve essa desvantagem e é duas vezes mais rápido que o GPT-4 Turbo. Isso abre um espectro mais amplo de casos de uso que envolvem a integração de dados de fala, texto e visão, levando-o um passo adiante de multimodal para omnimodal. A principal diferença entre o multimodal e o omnimodal é que, no omnimodal, todas as três fontes podem ser executadas em paralelo sem problemas.

Esses aprimoramentos também permitem que o modelo gere fala com modulação de voz aprimorada, capacidade de entender sarcasmo e habilidades de conversação natural aprimoradas.

Preço reduzido e disponível gratuitamente para usuários do ChatGPT

Embora o GPT-4o seja mais eficiente e mais rápido em comparação com o GPT-4 Turbo, ele tem a metade do preço (API) do GPT-4 Turbo, o que significa que o GPT-4o custará US$ 5,00/1 milhão de tokens de entrada e US$ 15,00/1 milhão de tokens de saída. Com o preço melhor, a janela de contexto agora é de 128 mil tokens, e o limite de conhecimento é outubro de 2023.

Como cereja no topo do bolo, o GPT-4o estará disponível para todos os usuários do ChatGPT gratuitamente (os usuários do ChatGPT Plus terão um limite de 5x para o GPT-4o). Além disso, a OpenAI também revelou o aplicativo de desktop ChatGPT, que permitirá que os usuários utilizem os recursos de visão do GPT-4o para ler e compreender o conteúdo exibido na tela. Os usuários também poderão conversar com o ChatGPT usando o aplicativo para desktop.

Demonstração do GPT-4o

A OpenAI declarou que está distribuindo o acesso ao GPT-4o em etapas nas próximas semanas, com os usuários do ChatGPT Plus recebendo prioridade e acesso antecipado ao modelo. Só entenderemos o verdadeiro potencial desse modelo quando tivermos acesso a ele nas próximas semanas. Tempos emocionantes estão por vir!

Groq e Llama 3: uma dupla que muda o jogo

Posted on May 6, 2024 by Om Kamath - Não categorizado

Há alguns meses, uma nova empresa chamada “Groq” surgiu aparentemente do nada, fazendo um grande avanço no setor de IA. Eles forneceram uma plataforma para os desenvolvedores acessarem as LPUs como mecanismos de inferência para LLMs, especialmente os de código aberto, como Llama, Mixtral e Gemma. Neste blog, vamos explorar o que torna o Groq tão especial e nos aprofundar na maravilha por trás das LPUs.

O que é Groq?

“A Groq tem a missão de definir o padrão para a velocidade de inferência da GenAI, ajudando os aplicativos de IA em tempo real a ganhar vida hoje.” – Site da Groq

A Groq não é uma empresa que desenvolve LLMs como a GPT ou a Gemini. Em vez disso, o Groq se concentra em aprimorar as bases desses grandes modelos de linguagem – o hardware em que operam. Ele funciona como um “mecanismo de inferência”. Atualmente, a maioria dos LLMs no mercado utiliza GPUs tradicionais implantadas em servidores privados ou na nuvem. Embora essas GPUs sejam caras e potentes, fornecidas por empresas como a Nvidia, elas ainda dependem da arquitetura tradicional de GPU, que pode não ser ideal para a inferência LLM (embora continuem sendo potentes e preferidas para modelos de treinamento).

O mecanismo de inferência fornecido pelo Groq funciona em LPUs – Unidades de Processamento de Linguagem.

O que é uma LPU?

Uma Unidade de Processamento de Linguagem é um chip projetado especificamente para LLMs e é construído em uma arquitetura exclusiva que combina CPUs e GPUs para transformar o ritmo, a previsibilidade, o desempenho e a precisão das soluções de IA para LLMs.

Principais atributos de um sistema de LPU. Créditos: Groq

Um sistema LPU tem tanto ou mais computação do que um processador gráfico (GPU) e reduz o tempo de cálculo por palavra, permitindo a geração mais rápida de sequências de texto.

Recursos de um mecanismo de inferência de LPU, conforme listado no site do Groq:

Desempenho sequencial excepcional
Arquitetura de núcleo único
Rede síncrona que é mantida mesmo em implementações de grande escala
Capacidade de compilar automaticamente >50B LLMs
Acesso instantâneo à memória
Alta precisão que é mantida mesmo em níveis de precisão mais baixos

Serviços fornecidos pela Groq:

GroqCloud: LPUs na nuvem
GroqRack: rack de 42U com até 64 chips interconectados
GroqNode: Sistema de computação escalável pronto para rack 4U com oito aceleradores GroqCard™ interconectados
GroqCard: Um único chip em um fator de forma padrão PCIe Gen 4×16 que oferece integração de servidor sem complicações

“Diferentemente da CPU, que foi projetada para realizar um tipo de tarefa completamente diferente da IA, ou da GPU, que foi projetada com base na CPU para fazer algo parecido com a IA por acidente, ou da TPU, que modificou a GPU para torná-la melhor para a IA, o Groq é, desde o início, um sistema de computador para IA” – Daniel Warfield, Towards Data Science

Para saber mais sobre como as LPUs diferem das GPUs, TPUs e CPUs, recomendamos que você leia este artigo abrangente escrito por Daniel Warfield para a Towards Data Science.

Qual é o objetivo do Groq?

Os LLMs são incrivelmente avançados, capazes de realizar tarefas que vão desde a análise de dados não estruturados até a resposta a perguntas sobre a fofura dos gatos. No entanto, sua principal desvantagem atualmente está no tempo de resposta. O tempo de resposta mais lento leva a uma latência significativa ao usar LLMs em processos de back-end. Por exemplo, buscar dados de um banco de dados e exibi-los no formato JSON é atualmente muito mais rápido quando você usa a lógica tradicional em vez de passar os dados por um LLM para transformação. No entanto, a vantagem dos LLMs está em sua capacidade de entender e lidar com exceções de dados.

Com a incrível velocidade de inferência oferecida pelo Groq, essa desvantagem dos LLMs pode ser bastante reduzida. Isso abre casos de uso melhores e mais amplos para os LLMs e reduz os custos, pois, com uma LPU, você poderá implantar modelos de código aberto que são muito mais baratos de executar com tempos de resposta realmente rápidos.

Llama 3 no Groq

Há algumas semanas, a Meta apresentou sua mais recente iteração do LLM-Llama 3, um software de código aberto já poderoso e altamente capaz. Além dos aprimoramentos típicos em velocidade, compreensão de dados e geração de tokens, dois aprimoramentos significativos se destacam:

Treinado em um conjunto de dados 7 vezes maior que o Llama 2, com 4 vezes mais código.
Dobrou o tamanho do contexto para 8.000 tokens.

O Llama 2 já era um LLM de código aberto formidável, mas com essas duas atualizações, espera-se que o desempenho do Llama 3 aumente significativamente.

Benchmarks do Llama 3

Para testar o Llama 3, você tem a opção de utilizar o Meta AI ou o playground do Groq. Mostraremos o desempenho do Groq testando-o com o Llama 3.

Groq Playground

Atualmente, o playground do Groq oferece acesso gratuito ao Gemma 7B, ao Llama 3 70B e 8B e ao Mixtral 8x7b. O playground permite que você ajuste parâmetros como temperatura, tokens máximos e alternância de streaming. Além disso, ele apresenta um modo JSON dedicado para gerar somente saída JSON.

Apenas 402 ms para inferência a uma taxa de 901 tokens/s

Chegando ao domínio/aplicativo de maior impacto, na minha opinião, a extração e transformação de dados:

Solicitar ao modelo que extraia informações úteis e fornecer um JSON usando o modo JSON.

A extração e a transformação para o formato JSON foram concluídas em menos de meio segundo.

Conclusão

Conforme demonstrado, a Groq surgiu como um divisor de águas no cenário do LLM com seu inovador mecanismo de inferência de LPU. A rápida transformação mostrada aqui indica o imenso potencial para acelerar os aplicativos de IA. Olhando para o futuro, você só pode especular sobre as futuras inovações da Groq. Talvez uma unidade de processamento de imagens possa revolucionar os modelos de geração de imagens, contribuindo para os avanços na geração de vídeos com IA. De fato, é um futuro empolgante para você prever.

Olhando para o futuro, à medida que a formação LLM se torna mais eficiente, a possibilidade de ter um ChatGPT personalizado, ajustado com os seus dados no seu dispositivo local, torna-se uma perspetiva tentadora. Uma plataforma que oferece essas capacidades é a Cody, um assistente inteligente de IA concebido para apoiar as empresas em vários aspectos. Tal como o ChatGPT, o Cody pode ser treinado nos dados da sua empresa, equipa, processos e clientes, utilizando a sua base de conhecimentos exclusiva.

Com o Cody, as empresas podem tirar partido do poder da IA para criar um assistente personalizado e inteligente que se adapta especificamente às suas necessidades, o que o torna uma adição promissora ao mundo das soluções empresariais orientadas para a IA.

Os 5 principais LLMs gratuitos de código aberto em 2024

Posted on April 2, 2024 by Om Kamath - Não categorizado

Atualmente, os LLMs são onipresentes e dispensam apresentações. Quer você trabalhe com tecnologia ou não, é provável que já tenha encontrado ou esteja usando alguma forma de LLM diariamente. Os LLMs mais proeminentes atualmente incluem o GPT da OpenAI, o Claude da Anthropic e o Gemini do Google.

No entanto, esses LLMs populares geralmente operam como sistemas abstratos ou de caixa preta, o que gera preocupações sobre a privacidade e a transparência dos dados. Para resolver esses problemas, vários LLMs de código aberto estão disponíveis, permitindo que os usuários os implementem em máquinas ou servidores privados com tranquilidade.

Código aberto refere-se a software ou produtos distribuídos com seu código-fonte disponível gratuitamente para inspeção, modificação e distribuição. Essa acessibilidade permite que os usuários compreendam, aprimorem e contribuam para o desenvolvimento do software.

Aqui estão alguns dos melhores LLMs de código aberto disponíveis atualmente:

Lhama 2

O Llama 2 é um LLM de código aberto desenvolvido pela Meta, oferecido gratuitamente para fins comerciais e de pesquisa. Os modelos da Llama 2 são treinados com dois trilhões de tokens e têm o dobro do comprimento do contexto da Llama 1.

Os parâmetros do modelo afetam diretamente sua capacidade de compreender o texto, sendo que modelos maiores oferecem melhor desempenho ao custo de maiores requisitos de tamanho e recursos.

Variantes disponíveis: Parâmetros 7B, 13B e 70B

Janela de contexto: 4096 tokens

Idiomas suportados: O melhor desempenho é em inglês

Mixtral 8x7B

O Mixtral 8x7B, desenvolvido pela Mistral AI, é um LLM que contém um total de 46,7 bilhões de parâmetros. Apesar de seu tamanho, ele mantém a velocidade de inferência e o custo semelhantes aos modelos com um terço de seu tamanho. Esse modelo Transformer Mixture of Experts (MoE) somente para decodificador supera significativamente o LLama 2 e o GPT-3.5 em determinados benchmarks.

Variantes disponíveis: Tiny, Small, Medium e Large (classificadas de econômicas a de alto desempenho)

Janela de contexto: 32000 tokens (no Mistral Large)

Idiomas suportados: Inglês, francês, espanhol, alemão, italiano (no Mistral Large)

Falcão

O Falcon, desenvolvido pelo Technology Innovation Institute (TII) em Abu Dhabi, é outro LLM de código aberto líder. Após seu lançamento, o Falcon 40B ocupou a primeira posição na tabela de classificação da Hugging Face para modelos de linguagem grande (LLMs) de código aberto por dois meses. Com a variante 180B, o TII aprimora ainda mais o conhecimento do modelo e as habilidades de compreensão de dados. O Falcon 180B é um modelo de linguagem superpotente treinado em 3,5 trilhões de tokens.

Variantes disponíveis: Falcon 40B e Falcon 180B

Janela de contexto: 4096 tokens

Idiomas suportados: Inglês, alemão, espanhol, francês, com suporte limitado para italiano, português, polonês, holandês, romeno, tcheco e sueco.

BLOOM

O BLOOM é um modelo autorregressivo de linguagem grande (LLM) desenvolvido pela Big Science. Treinado com parâmetros 176B, o BLOOM se destaca na geração de continuações de texto a partir de prompts usando grandes quantidades de dados de texto e recursos computacionais em escala industrial.

Variantes disponíveis: bloom-560m, bloom-1b1, bloom-1b7, bloom-3b, bloom-7b1, bloom 176B

Janela de contexto: 2048 tokens

Idiomas suportados: 46 idiomas naturais (com quantidades variáveis de dados, de 30% para o inglês a 0,00002% para o Chi Tumbuka)

Gemma

O Gemma, o mais recente LLM aberto de última geração do Google, segue o sucesso do Gemini. Gemma é uma família de Modelos de Linguagem Grande (LLM) de pesos abertos do Google DeepMind, desenvolvida com base na pesquisa e na tecnologia Gemini. Embora os pesos do modelo sejam de livre acesso, os termos específicos de uso, redistribuição e propriedade de variantes podem variar e podem não se basear em uma licença de código aberto.

Variantes disponíveis: Gemma 2B e Gemma 7B

Janela de contexto: 8192 tokens

Idiomas suportados: Inglês

Conclusão

Na Cody, priorizamos uma abordagem agnóstica de modelo quando se trata de LLMs, oferecendo uma plataforma que permite que você crie bots personalizados, adaptados ao seu caso de uso exclusivo. Com uma gama diversificada de opções de LLM disponíveis, você não fica restrito a um único provedor, o que lhe dá a liberdade de escolher a melhor opção para suas necessidades.

Por meio da Cody, as empresas podem aproveitar a IA para desenvolver assistentes inteligentes personalizados de acordo com suas necessidades específicas. Essa flexibilidade faz com que a Cody seja uma adição promissora ao reino das soluções de negócios orientadas por IA.

Assassino do ChatGPT? O que o Gemini 1.5 significa para o futuro da IA do Google

Posted on February 22, 2024 by Om Kamath - Não categorizado

Google vs OpenAI: o Google está ganhando?

Depois de errar o alvo com o Bard no trem da propaganda da IA, o Google revelou recentemente seu mais recente produto de IA, o Gemini. Como parte desse lançamento, a Bard foi rebatizada como Gemini e agora incorpora o novo Gemini Pro LLM. Vamos nos aprofundar para entender a extensão dessas mudanças.

O que é a Gemini AI?

O Gemini representa o mais novo modelo de linguagem grande (LLM) do Google, após o lançamento do LaMDA e do PaLM. Ao contrário de seus antecessores, o Gemini é nativamente multimodal, capaz de compreender texto, imagens, fala e código, e apresenta habilidades aprimoradas de compreensão e raciocínio.

Variantes do Gemini AI

O Gemini AI consiste em três modelos de linguagem grandes:

Gemini Nano: Otimizado para eficiência no dispositivo, oferecendo soluções rápidas de IA diretamente em seu dispositivo pessoal.
Gemini Pro: Um modelo versátil e escalável, capaz de lidar com diversas tarefas com desempenho robusto. Acessível na versão gratuita da interface de bate-papo do Gemini.
Gemini Ultra: o ápice da série Gemini, capacitando a solução de problemas complexos e avançando as fronteiras dos recursos de IA. Exclusivo para assinantes do Plano Premium do Google One AI.

Os modelos Gemini foram treinados usando TPUv5e e TPUv4, dependendo de seus tamanhos e configurações. O Training Gemini Ultra usou uma grande frota de aceleradores TPUv4 de propriedade do Google em vários centros de dados. Isso representa um aumento significativo na escala em relação ao modelo principal anterior, o PaLM-2, que apresentou novos desafios de infraestrutura.

Comparação do Gemini com outros LLMs

Compreensão textual

Fonte: Google Deepmind

Compreensão da imagem

Fonte: Google Deepmind

Benefícios de Gêmeos

1. Integração perfeita com todos os aplicativos do Google

O Gemini agora se integra perfeitamente a todos os Google Apps, incluindo o Maps, o YouTube, o Gmail e muito mais. Para consultar aplicativos específicos, basta prefixar o nome do aplicativo com “@” seguido de sua consulta. Embora seja possível obter integrações semelhantes no ChatGPT usando GPTs e plug-ins, elas podem não oferecer o mesmo nível de perfeição que as integrações nativas do Gemini.

A renomada experiência do Google em tecnologia de mecanismos de pesquisa sem dúvida se estende para aprimorar os recursos de navegação na Web do Gemini. Aproveitando os pontos fortes fundamentais dos algoritmos de pesquisa e indexação, o Gemini oferece aos usuários uma experiência de navegação perfeita e eficiente.

2. Recursos multimodais

O Gemini agora oferece recursos multimodais, incluindo a compreensão de imagens, na interface de bate-papo do Gemini, sem custo adicional. Embora seu desempenho durante os testes tenha sido decente, ele pode não ter a mesma precisão do GPT-4V. No entanto, como é gratuito, não podemos reclamar, não é mesmo? 😉 Há uma chance de que o Gemini Ultra supere o GPT-4V com base nas métricas

3. Acesso gratuito para hobbistas e estudantes

Para os aspirantes a desenvolvedores de LLM que desejam mergulhar no campo, mas enfrentam restrições no acesso às APIs de GPT devido aos custos, o Google oferece acesso gratuito à API Gemini Pro 1.0. Com isso, você pode fazer até 60 consultas por minuto no Google AI Studio, uma ferramenta de desenvolvimento gratuita baseada na Web. O Google AI Studio permite que você desenvolva rapidamente prompts e obtenha uma chave de API para o desenvolvimento de aplicativos. Ao fazer login no Google AI Studio com sua conta do Google, você pode aproveitar essa cota gratuita. É uma excelente oportunidade para iniciar sua jornada de LLM e explorar embeddings, bancos de dados vetoriais, pesquisa semântica e muito mais.

4. Valor para o dinheiro

Por US$ 20 por mês, os usuários podem acessar o GPT-4 via ChatGPT Plus. Como alternativa, pelo mesmo preço, eles podem acessar o Gemini Advanced com o Gemini Ultra 1.0, que inclui benefícios adicionais, como 2 TB de armazenamento em nuvem e integração com o Google Apps, como Gmail e Docs. No entanto, o acesso ao Gemini Advanced requer uma assinatura do Plano Premium do Google One AI. Apesar dessa exigência, ele oferece maior valor para seu dinheiro.

A introdução de um plano intermediário com 500 GB de armazenamento e acesso ao Gemini Advanced entre os planos Standard e Premium aumentaria significativamente a acessibilidade do Gemini, especialmente para estudantes e usuários com requisitos moderados de armazenamento. Google, se estiver ouvindo, considere esta sugestão.

O que vem por aí para a Gemini?

O DeepMind do Google está avançando continuamente no modelo Gemini, com o recente lançamento do Gemini Pro 1.5 há apenas uma semana. Nessa variante atualizada, a janela de contexto foi expandida para 128.000 tokens. Além disso, um grupo seleto de desenvolvedores e clientes corporativos agora pode experimentar janelas de contexto ainda maiores, de até 1 milhão de tokens, por meio de visualizações privadas no AI Studio e no Vertex AI. Para colocar isso em perspectiva, um livro típico de não ficção contém cerca de 300.000 tokens. Com a janela de contexto de 1 milhão de tokens do Gemini Pro 1.5, os usuários agora podem carregar livros inteiros em solicitações de consulta – um avanço notável em comparação com a janela de contexto de 128.000 tokens do GPT-4.

Em meio à saturação de LLMs no setor de IA, o Google parece ter conseguido o ouro com sua arquitetura aprimorada, respostas rápidas e integração perfeita no ecossistema do Google desta vez. De fato, poderia ser um passo na direção certa, mantendo a OpenAI e outros concorrentes atentos.

Nesta era da IA, é crucial que as empresas tenham funcionários bem formados, e incorporar a IA na formação dos funcionários pode ser um investimento significativo. Se você está buscando soluções de IA para treinar seus funcionários, a Cody é a ferramenta certa para você. Semelhante ao ChatGPT e ao Gemini, o Cody pode ser treinado em seus dados comerciais, equipe, processos e clientes, usando sua base de conhecimento exclusiva. A Cody é agnóstica em relação ao modelo, o que facilita a troca de modelos de acordo com suas necessidades.