Assistente de voz ChatGPT com novas funcionalidades de imagem da OpenAI

A OpenAI está a introduzir novas capacidades de voz e imagem no ChatGPT, oferecendo interacções mais intuitivas. Agora, pode ter interacções mais intuitivas com o seu assistente de IA.

Quer ter uma conversa utilizando a sua voz? Não há problema.


Necessidade de mostrar

ChatGPT
uma imagem para discutir o assunto? É isso mesmo!

Este artigo explora o modo como a IA de voz para empresas funciona, as características da imagem e as suas potenciais aplicações em conversações de IA.

Conversas de voz com o ChatGPT

Notícias emocionantes! Agora, pode realmente falar com o ChatGPT e ter uma conversa de ida e volta.

O ChatGPT suporta agora interacções de voz, permitindo que os utilizadores tenham conversas de ida e volta com o seu assistente de IA. Com esta nova funcionalidade, pode pedir histórias, resolver debates e participar em conversas interactivas com o ChatGPT. A capacidade de voz utiliza um modelo de conversão de texto em voz para gerar áudio semelhante ao humano.

Mas há mais! Não está limitado a uma só voz. Em vez disso, pode escolher entre cinco vozes diferentes para tornar as suas conversas ainda mais agradáveis.

IA de voz e compreensão de imagens do ChatGPT

Agora, pode mostrar ao ChatGPT do que está a falar, partilhando imagens! Agora é possível partilhar imagens com o ChatGPT para discussões, resolução de problemas ou análise. Quer se trate de arranjar o grelhador, decidir o que cozinhar no frigorífico ou interpretar gráficos complexos para o trabalho, o ChatGPT pode fornecer informações com base nas imagens que partilha.

Graças ao poder do multimodal
GPT-3.5
e
GPT-4
utiliza as capacidades de raciocínio linguístico para compreender e discutir uma vasta gama de imagens, sejam elas fotografias, capturas de ecrã ou documentos.

Utilização gradual para segurança

A estratégia da OpenAI consiste em fazer as coisas passo a passo para as manter seguras e responsáveis. Embora a tecnologia vocal seja excelente, tem riscos como a falsificação de identidade ou a fraude. Por isso, a OpenAI está a ser cautelosa, lançando-o primeiro para a conversação por voz. A empresa juntou-se a actores de voz e parceiros, como
Spotify
para garantir a sua utilização em casos específicos e cuidadosamente ponderados, como a tradução por voz.

No que diz respeito aos modelos baseados na visão para imagens, existem alguns desafios bastante específicos. Uma grande preocupação é a privacidade – não se quer definitivamente que a IA analise e faça declarações sobre indivíduos sem o seu consentimento. A OpenAI compreende este facto e tomou medidas para garantir que o ChatGPT respeita a privacidade das pessoas.

Além disso, estão atentos ao feedback e à utilização no mundo real para melhorar estas medidas de segurança. Por isso, a privacidade é uma prioridade máxima para eles.

Transparência e limitações do modelo

A OpenAI acredita que deve ser transparente em relação ao que o ChatGPT pode e não pode fazer. É excelente na transcrição de texto em inglês, mas pode não funcionar bem noutras línguas, especialmente nas que têm escrita não romana. Por isso, se estiver a utilizar o ChatGPT para tópicos especializados ou línguas em que é menos proficiente, é boa ideia verificar os resultados. Deve utilizar a ferramenta de forma sensata e compreender os seus pontos fortes e as suas limitações.

Alargamento do acesso

As fantásticas funcionalidades de voz e imagem estão a fazer a sua estreia no
Plus
e
Enterprise
utilizadores. Eles têm a sua primeira prova! Para os programadores, estas fantásticas capacidades estarão em breve disponíveis para todos os outros.

A OpenAI acaba de atualizar significativamente o ChatGPT, acrescentando capacidades de voz e imagem. Isto significa que pode ter interacções mais versáteis e fazer muito mais com esta IA para empresas. É tornar as suas interacções diárias com a tecnologia mais inovadoras e fáceis de utilizar.

Conclusão

As novas capacidades de voz e imagem da OpenAI no ChatGPT melhoram significativamente as interacções dos utilizadores com os assistentes de IA. Agora é possível participar em conversas de voz e partilhar imagens, tornando as tarefas mais intuitivas. A segurança e a privacidade são primordiais, com a tecnologia de voz a ser implementada cuidadosamente e medidas de privacidade em vigor para os debates sobre imagens.

Transparente em relação às suas limitações, o ChatGPT é uma ferramenta poderosa mais adequada para textos em inglês. Inicialmente disponíveis para os utilizadores Plus e Enterprise, estas capacidades prometem tornar as interacções de IA mais inovadoras e fáceis de utilizar.

Leia mais: O interpretador de código: Um novo salto para o ChatGPT

Author

Oriol Zertuche

Oriol Zertuche is the CEO of CODESM and Cody AI. As an engineering student from the University of Texas-Pan American, Oriol leveraged his expertise in technology and web development to establish renowned marketing firm CODESM. He later developed Cody AI, a smart AI assistant trained to support businesses and their team members. Oriol believes in delivering practical business solutions through innovative technology.

More From Our Blog

Gemini 2.5 Pro e GPT-4.5: quem lidera a revolução da IA?

Gemini 2.5 Pro e GPT-4.5: quem lidera a revolução da IA?

Em 2025, o mundo da inteligência artificial se tornou muito empolgante, com grandes empresas de tecnologia competindo ferozmente para criar os sistemas de IA mais avançados de todos os tempos. Essa intensa competição gerou muitas ideias novas, am...

Read More
Previsão de IA para 2025: Tendências emergentes, tecnologias inovadoras e transformações do setor

Previsão de IA para 2025: Tendências emergentes, tecnologias inovadoras e transformações do setor

Ao entrarmos em 2025, a inteligência artificial (IA) está remodelando os setores, a sociedade e a forma como interagimos com a tecnologia de maneiras empolgantes e, às vezes, surpreendentes. De agentes de IA que podem trabalhar de forma independen...

Read More

Build Your Own Business AI

Get Started Free