Assistente de voz ChatGPT com novas funcionalidades de imagem da OpenAI

A OpenAI está a introduzir novas capacidades de voz e imagem no ChatGPT, oferecendo interacções mais intuitivas. Agora, pode ter interacções mais intuitivas com o seu assistente de IA.

Quer ter uma conversa utilizando a sua voz? Não há problema.


Necessidade de mostrar

ChatGPT
uma imagem para discutir o assunto? É isso mesmo!

Este artigo explora o modo como a IA de voz para empresas funciona, as características da imagem e as suas potenciais aplicações em conversações de IA.

Conversas de voz com o ChatGPT

Notícias emocionantes! Agora, pode realmente falar com o ChatGPT e ter uma conversa de ida e volta.

O ChatGPT suporta agora interacções de voz, permitindo que os utilizadores tenham conversas de ida e volta com o seu assistente de IA. Com esta nova funcionalidade, pode pedir histórias, resolver debates e participar em conversas interactivas com o ChatGPT. A capacidade de voz utiliza um modelo de conversão de texto em voz para gerar áudio semelhante ao humano.

Mas há mais! Não está limitado a uma só voz. Em vez disso, pode escolher entre cinco vozes diferentes para tornar as suas conversas ainda mais agradáveis.

IA de voz e compreensão de imagens do ChatGPT

Agora, pode mostrar ao ChatGPT do que está a falar, partilhando imagens! Agora é possível partilhar imagens com o ChatGPT para discussões, resolução de problemas ou análise. Quer se trate de arranjar o grelhador, decidir o que cozinhar no frigorífico ou interpretar gráficos complexos para o trabalho, o ChatGPT pode fornecer informações com base nas imagens que partilha.

Graças ao poder do multimodal
GPT-3.5
e
GPT-4
utiliza as capacidades de raciocínio linguístico para compreender e discutir uma vasta gama de imagens, sejam elas fotografias, capturas de ecrã ou documentos.

Utilização gradual para segurança

A estratégia da OpenAI consiste em fazer as coisas passo a passo para as manter seguras e responsáveis. Embora a tecnologia vocal seja excelente, tem riscos como a falsificação de identidade ou a fraude. Por isso, a OpenAI está a ser cautelosa, lançando-o primeiro para a conversação por voz. A empresa juntou-se a actores de voz e parceiros, como
Spotify
para garantir a sua utilização em casos específicos e cuidadosamente ponderados, como a tradução por voz.

No que diz respeito aos modelos baseados na visão para imagens, existem alguns desafios bastante específicos. Uma grande preocupação é a privacidade – não se quer definitivamente que a IA analise e faça declarações sobre indivíduos sem o seu consentimento. A OpenAI compreende este facto e tomou medidas para garantir que o ChatGPT respeita a privacidade das pessoas.

Além disso, estão atentos ao feedback e à utilização no mundo real para melhorar estas medidas de segurança. Por isso, a privacidade é uma prioridade máxima para eles.

Transparência e limitações do modelo

A OpenAI acredita que deve ser transparente em relação ao que o ChatGPT pode e não pode fazer. É excelente na transcrição de texto em inglês, mas pode não funcionar bem noutras línguas, especialmente nas que têm escrita não romana. Por isso, se estiver a utilizar o ChatGPT para tópicos especializados ou línguas em que é menos proficiente, é boa ideia verificar os resultados. Deve utilizar a ferramenta de forma sensata e compreender os seus pontos fortes e as suas limitações.

Alargamento do acesso

As fantásticas funcionalidades de voz e imagem estão a fazer a sua estreia no
Plus
e
Enterprise
utilizadores. Eles têm a sua primeira prova! Para os programadores, estas fantásticas capacidades estarão em breve disponíveis para todos os outros.

A OpenAI acaba de atualizar significativamente o ChatGPT, acrescentando capacidades de voz e imagem. Isto significa que pode ter interacções mais versáteis e fazer muito mais com esta IA para empresas. É tornar as suas interacções diárias com a tecnologia mais inovadoras e fáceis de utilizar.

Conclusão

As novas capacidades de voz e imagem da OpenAI no ChatGPT melhoram significativamente as interacções dos utilizadores com os assistentes de IA. Agora é possível participar em conversas de voz e partilhar imagens, tornando as tarefas mais intuitivas. A segurança e a privacidade são primordiais, com a tecnologia de voz a ser implementada cuidadosamente e medidas de privacidade em vigor para os debates sobre imagens.

Transparente em relação às suas limitações, o ChatGPT é uma ferramenta poderosa mais adequada para textos em inglês. Inicialmente disponíveis para os utilizadores Plus e Enterprise, estas capacidades prometem tornar as interacções de IA mais inovadoras e fáceis de utilizar.

Leia mais: O interpretador de código: Um novo salto para o ChatGPT

Author

Oriol Zertuche

Oriol Zertuche is the CEO of CODESM and Cody AI. As an engineering student from the University of Texas-Pan American, Oriol leveraged his expertise in technology and web development to establish renowned marketing firm CODESM. He later developed Cody AI, a smart AI assistant trained to support businesses and their team members. Oriol believes in delivering practical business solutions through innovative technology.

More From Our Blog

Assassino do ChatGPT? O que o Gemini significa para o futuro da IA do Google

Assassino do ChatGPT? O que o Gemini significa para o futuro da IA do Google

Google vs. OpenAI: o Google está ganhando? Depois de errar o alvo com o Bard no trem da propaganda da IA, o Google revelou recentemente seu mais recente produto de IA, o Gemini. Como parte desse lançamento, a Bard foi rebatizada como Gemini e agora...

Read More
RAG para nuvens privadas: como funciona?

RAG para nuvens privadas: como funciona?

Você já se perguntou como as nuvens privadas gerenciam todas as suas informações e tomam decisões inteligentes? É aí que entra o Retrieval-Augmented Generation (RAG). É uma ferramenta superinteligente que ajuda as nuvens privadas a encontrar ...

Read More

Build Your Own Business AI

Get Started Free
Top