Conheça o LLaVA: O novo concorrente da visão GPT-4

A tecnologia de reconhecimento de imagem GPT-4 da OpenAI tomou recentemente de assalto o mundo da tecnologia. No entanto, mesmo quando a poeira estava a assentar, um novo concorrente entrou na luta: O LLaVA, ou Assistente de Linguagem e Visão de Grande Dimensão. De fonte aberta e de utilização absolutamente gratuita, o LLaVA está destinado a redefinir os limites da tecnologia de reconhecimento de imagem.

LLaVA

O que é o LLaVA?

A LLaVA é uma ferramenta de ponta criada por especialistas da Universidade de Wisconsin-Madison, da Microsoft Research e da Universidade de Columbia. Em termos simples, é uma peça de tecnologia concebida para compreender tanto imagens (como fotografias) como linguagem (como texto). Imaginem um ChatGPT que consegue falar sobre uma imagem tão bem como um humano, e isso é LLaVA para vocês.

Porque é que o LLaVA é especial?

O LLaVA não é apenas mais uma ferramenta de reconhecimento de imagem. Combina um “codificador” de visão (pense nisto como os olhos do sistema) com algo chamado Vicuna (o seu cérebro para compreender a linguagem). Esta combinação faz do LLaVA uma superestrela na conversação sobre imagens e na compreensão de informações visuais complexas, tal como acontece com o GPT-4 Vision.

Código aberto e pronto a utilizar

O que é ainda mais emocionante? Se é um entusiasta da tecnologia ou um programador, pode mergulhar no funcionamento interno do LLaVA. Os criadores tiveram a amabilidade de partilhar tudo online. Desde o seu projeto (ou papel) até ao código e modelo actuais, está tudo disponível para os curiosos.

Em conclusão

Embora o panorama da tecnologia de reconhecimento de imagem seja ferozmente competitivo, a LLaVA conseguiu, sem dúvida, criar um nicho para si própria num curto espaço de tempo. O seu desempenho notável, combinado com a sua natureza de código aberto, fazem dele uma força a ter em conta no mundo da tecnologia.

A era da tecnologia de reconhecimento de imagem está a evoluir rapidamente e, com o LLaVA agora incluído, o futuro parece ainda mais promissor. A única questão é: está pronto para fazer parte desta revolução visual?

Saiba mais sobre o LLaVA

Author

Oriol Zertuche

Oriol Zertuche is the CEO of CODESM and Cody AI. As an engineering student from the University of Texas-Pan American, Oriol leveraged his expertise in technology and web development to establish renowned marketing firm CODESM. He later developed Cody AI, a smart AI assistant trained to support businesses and their team members. Oriol believes in delivering practical business solutions through innovative technology.

More From Our Blog

Do chatbot ao mecanismo de busca: como o ChatGPT Search da OpenAI está mudando o jogo

Do chatbot ao mecanismo de busca: como o ChatGPT Search da OpenAI está mudando o jogo

A evolução das pesquisas na Web com tecnologia de IA A mais recente inovação da OpenAI, o ChatGPT Search, marca um salto significativo nos recursos de pesquisa na Web orientados por IA. Esse recurso integra a pesquisa na Web em tempo real à inte...

Read More
Lançado o Nemotron 70B da Nvidia AI: Você deve ter medo da OpenAI e da Anthropic?

Lançado o Nemotron 70B da Nvidia AI: Você deve ter medo da OpenAI e da Anthropic?

A Nvidia apresentou discretamente seu mais recente modelo de IA, o Nemotron 70B, que está causando impacto no setor de inteligência artificial ao superar modelos bem estabelecidos como o GPT-4 da OpenAI e o Claude 3.5 Sonnet da Anthropic. Esse lanÃ...

Read More

Build Your Own Business AI

Get Started Free
Top