O ChatGPT oferecerá em breve novos recursos que permitirão aos usuários interagir com ele por meio de imagens e reconhecimento de voz, de acordo com anúncio da OpenAI.
A OpenAI anunciou que os usuários poderão interagir com o ChatGPT por meio de comandos de voz, possibilitando uma experiência de usuário mais personalizada. A empresa disse que esse recurso é alimentado por um modelo de conversão de texto em fala que pode gerar áudio a partir de amostras mínimas de fala criadas por dubladores profissionais.
A empresa destacou a utilidade do implementação:
“Estamos começando a implementar novos recursos de voz e imagem no ChatGPT. Eles oferecem um tipo de interface novo e mais intuitivo, permitindo que você tenha uma conversa por voz ou mostre ao ChatGPT o que você está falando.
Voz e imagem oferecem mais maneiras de usar o ChatGPT em sua vida. Tire uma foto de um ponto de referência enquanto viaja e converse ao vivo sobre o que há de interessante nele. Quando estiver em casa, tire fotos da sua geladeira e da despensa para descobrir o que há para o jantar (e faça perguntas para obter uma receita passo a passo)”.
Espera-se que os recursos de voz forneçam uma gama mais ampla de casos de uso, como auxiliar em tarefas como ler histórias para dormir, criar receitas, redigir discursos, recitar poemas, ou mesmo explicar coisas.
OpenAI acrescentou que em breve os usuários poderão fornecer imagens ao ChatGPT (ou selecionar certas partes das imagens) para interpretação e resposta.
OpenAI reconhece riscos
A empresa observou que o reconhecimento de imagens acarreta riscos de privacidade e disse que, em resposta, limitou a capacidade do ChatGPT de fazer declarações sobre as pessoas.
A empresa observou que o ChatGPT “nem sempre é preciso”, mas disse que descrições gerais de imagens podem ser úteis, citando seu trabalho anterior com Be My Eyes, um aplicativo para pessoas cegas e com baixa visão.