ChatGPT avança com novas habilidades relacionadas a voz e imagem.
OpenAI iniciou a introdução de novas capacidades de voz e imagem para o seu conhecido chatbot ChatGPT, que é impulsionado por inteligência artificial.
Essas novas funcionalidades possibilitam interações mais naturais com o ChatGPT, seja através de conversas verbais ou do compartilhamento de imagens.
Isso possibilita diversas formas de integrar o ChatGPT em atividades cotidianas. Por exemplo, durante uma viagem, é possível enviar uma foto de um ponto turístico ao ChatGPT e iniciar uma conversa em tempo real a respeito.
Da mesma maneira, em sua residência, é possível fotografar o conteúdo de sua geladeira e debater opções de refeição ou pedir uma receita passo a passo.
Nas próximas semanas, a OpenAI disponibilizará essas funcionalidades para os usuários do Plus e Enterprise. A voz poderá ser utilizada em aplicativos móveis, e a imagem estará disponível em todas as plataformas.
A funcionalidade de entrada de voz possibilita diálogos bidirecionais.
A nova funcionalidade de voz possibilita uma interação por meio da fala com o ChatGPT, que agora tem a capacidade de responder em uma das cinco vozes sintetizadas.
Você pode escolher acessar as configurações do app para dispositivos móveis iOS e Android e ativar a função de voz.
Segundo o OpenAI, a capacidade de voz utiliza um modelo sofisticado de processamento de texto para diálogo, que foi aprimorado com base em amostras de atores de voz. Já para identificar a fala, ele utiliza o Whisper, um sistema open-source de reconhecimento de fala desenvolvido pela OpenAI.
Conversar sobre imagens oferece um contexto visual.
Agora é possível exibir uma ou várias imagens ao ChatGPT para oferecer um contexto visual e direcionar a conversa.
Por exemplo, ao compartilhar uma imagem de um aparelho danificado, é possível auxiliar na identificação de problemas do ChatGPT e oferecer possíveis soluções. Em dispositivos móveis, é possível utilizar uma ferramenta de desenho para destacar ou indicar áreas específicas na imagem.
A OpenAI testou amplamente as capacidades de imagem dos modelos GPT-3.5 e GPT-4, adaptando-os para processar entradas visuais de forma multimodal, com foco na segurança antes de lançá-los.
Implementação gradual com ênfase na segurança.
OpenAI indicou que está adotando uma estratégia progressiva para implementar essas funcionalidades.
A inovação da tecnologia de voz oferece oportunidades criativas, mas também apresenta desafios, como a possibilidade de imitar personalidades públicas. Para reduzir esses riscos, a utilização da voz está restrita a interações de chat.
Em relação às imagens, a OpenAI mencionou que a capacidade do ChatGPT de analisar indivíduos em fotos é limitada e, por isso, recomenda evitar usos de alto risco sem verificação.
Poderia me fornecer o texto que você gostaria que eu parafraseasse?
Os usuários agora contam com uma forma mais fluida de se comunicar com o ChatGPT, graças aos recursos aprimorados de voz e imagem.
No entanto, o OpenAI está adotando uma estratégia cautelosa ao disponibilizá-los gradualmente, restringindo o acesso inicial e as capacidades devido a possíveis riscos.
Conforme esses recursos se tornam mais abrangentes, é importante lembrar das restrições do ChatGPT e não utilizar em situações de alto risco sem verificação adequada.
Destaque para a imagem de Ahmed_Rizq disponível em Shutterstock.