ConteúdoConteúdoMarketingRedes Sociais

ChatGPT avança com novas habilidades relacionadas a voz e imagem.

OpenAI iniciou a introdução de novas capacidades de voz e imagem para o seu conhecido chatbot ChatGPT, que é impulsionado por inteligência artificial.

Essas novas funcionalidades possibilitam interações mais naturais com o ChatGPT, seja através de conversas verbais ou do compartilhamento de imagens.

Isso possibilita diversas formas de integrar o ChatGPT em atividades cotidianas. Por exemplo, durante uma viagem, é possível enviar uma foto de um ponto turístico ao ChatGPT e iniciar uma conversa em tempo real a respeito.

Da mesma maneira, em sua residência, é possível fotografar o conteúdo de sua geladeira e debater opções de refeição ou pedir uma receita passo a passo.

Nas próximas semanas, a OpenAI disponibilizará essas funcionalidades para os usuários do Plus e Enterprise. A voz poderá ser utilizada em aplicativos móveis, e a imagem estará disponível em todas as plataformas.

A funcionalidade de entrada de voz possibilita diálogos bidirecionais.

A nova funcionalidade de voz possibilita uma interação por meio da fala com o ChatGPT, que agora tem a capacidade de responder em uma das cinco vozes sintetizadas.

Você pode escolher acessar as configurações do app para dispositivos móveis iOS e Android e ativar a função de voz.

Segundo o OpenAI, a capacidade de voz utiliza um modelo sofisticado de processamento de texto para diálogo, que foi aprimorado com base em amostras de atores de voz. Já para identificar a fala, ele utiliza o Whisper, um sistema open-source de reconhecimento de fala desenvolvido pela OpenAI.

Conversar sobre imagens oferece um contexto visual.

Agora é possível exibir uma ou várias imagens ao ChatGPT para oferecer um contexto visual e direcionar a conversa.

Por exemplo, ao compartilhar uma imagem de um aparelho danificado, é possível auxiliar na identificação de problemas do ChatGPT e oferecer possíveis soluções. Em dispositivos móveis, é possível utilizar uma ferramenta de desenho para destacar ou indicar áreas específicas na imagem.

A OpenAI testou amplamente as capacidades de imagem dos modelos GPT-3.5 e GPT-4, adaptando-os para processar entradas visuais de forma multimodal, com foco na segurança antes de lançá-los.

Implementação gradual com ênfase na segurança.

OpenAI indicou que está adotando uma estratégia progressiva para implementar essas funcionalidades.

A inovação da tecnologia de voz oferece oportunidades criativas, mas também apresenta desafios, como a possibilidade de imitar personalidades públicas. Para reduzir esses riscos, a utilização da voz está restrita a interações de chat.

Em relação às imagens, a OpenAI mencionou que a capacidade do ChatGPT de analisar indivíduos em fotos é limitada e, por isso, recomenda evitar usos de alto risco sem verificação.

Poderia me fornecer o texto que você gostaria que eu parafraseasse?

Os usuários agora contam com uma forma mais fluida de se comunicar com o ChatGPT, graças aos recursos aprimorados de voz e imagem.

No entanto, o OpenAI está adotando uma estratégia cautelosa ao disponibilizá-los gradualmente, restringindo o acesso inicial e as capacidades devido a possíveis riscos.

Conforme esses recursos se tornam mais abrangentes, é importante lembrar das restrições do ChatGPT e não utilizar em situações de alto risco sem verificação adequada.

Destaque para a imagem de Ahmed_Rizq disponível em Shutterstock.

Artigos relacionados

Back to top button