ConteúdoConteúdoMarketingRedes SociaisSEO

Pesquisa da Microsoft: Geração de Recuperação para Classificação de Respostas

A Microsoft revelou um novo tipo de sistema de interação por meio de conversas, que se destaca em relação a outras abordagens ao responder a perguntas de forma mais eficiente e precisa, utilizando menos recursos de maneira significativa.

O texto sugere uma abordagem inovadora para categorizar trechos de informações, empregando o método conhecido como Recuperação Generativa para Resposta de Perguntas em Conversas, denominado GCoQA.

Os especialistas afirmam que o próximo passo a ser dado é investigar maneiras de utilizar isso para pesquisa ampla na internet.

Recuperação generativa para responder a perguntas em uma conversa.

Um modelo de linguagem autoregressivo antecipa qual será a palavra ou frase seguinte.

Este modelo emprega modelos autoregressivos que fazem uso de “identificadores de sequência”, os quais são representações simples em inglês de trechos em um documento.

Neste método, eles utilizam o título da página para identificar o conteúdo principal e títulos de seção para distinguir diferentes partes do texto.

A pesquisa foi conduzida utilizando informações da Wikipédia, em que os títulos das páginas e seções são considerados descritivos.

Os marcadores são empregados para indicar o assunto de um texto e o tema das partes presentes em uma seção do texto.

Dessa maneira, ao ser aplicado na prática, o uso do elemento de título pode auxiliar no aprendizado sobre o conteúdo de uma página web, permitindo compreender as diferentes seções presentes nela.

Os “identificadores” são utilizados para converter todo esse conhecimento em uma representação codificada, a qual é associada às seções de uma página web e aos títulos.

As frases recuperadas são em seguida inseridas em um modelo autoregressivo diferente para produzir as respostas às questões.

Restauração dos genes.

Segundo o artigo de pesquisa, na etapa de recuperação, é empregada a metodologia da “pesquisa de feixe” para criar identificadores (que são representações de trechos da página web) os quais são posteriormente ordenados com base na probabilidade de ser a resposta.

Os acadêmicos redigem:

Utilizamos a técnica da busca de feixes, um método frequentemente empregado, para produzir múltiplos identificadores em vez de apenas um.

Cada identificador criado recebe uma pontuação de modelo de idioma, o que nos permite obter uma lista classificada de identificadores gerados com base nessas pontuações.

Os identificadores de classificação podem ser facilmente associados a uma lista de classificação de bilhetes.

O texto de pesquisa prossegue afirmando que o procedimento poderia ser interpretado como uma “investigação em níveis diferentes de hierarquia”.

Em tal contexto, o termo hierárquico refere-se à classificação dos resultados com base nos tópicos das páginas e nas passagens dentro de cada página, conforme indicado pelos cabeçalhos de seção.

Após a recuperação dessas passagens, um modelo autoregressivo é utilizado para gerar a resposta com base nessas passagens recuperadas.

Análise em relação a outras técnicas.

Os pesquisadores observaram que o GCoQA se destacou em relação a diversos outros métodos frequentemente utilizados que foram analisados.

Foi proveitoso para contornar obstáculos em outras abordagens.

De várias formas, esse novo modelo promete causar uma transformação significativa na forma como lidamos com a interação conversacional.

Por exemplo, ele consome apenas 1/10 dos recursos de memória utilizados pelos modelos atuais, o que representa um avanço significativo em eficiência, além de ser mais veloz.

Os investigadores redigem:

“… é mais prático e eficaz implementar nossa abordagem na realidade.”

Os pesquisadores da Microsoft chegaram a uma conclusão posteriormente.

A partir de interações detalhadas entre diferentes elementos no decodificador, o GCoQA pode lidar com o contexto da conversa de maneira mais eficiente.

Além disso, o GCoQA apresenta um consumo de memória reduzido e uma maior eficiência de inferência na prática.

Restrições do GCoQA

No entanto, há diversas restrições que precisam ser superadas antes que este modelo possa ser utilizado.

Eles perceberam que o GCoQA apresentava restrições devido à utilização da técnica de busca em feixe, o que restringia a capacidade do GCoQA de recordar “trechos extensos”.

Aumentar o tamanho do feixe não foi útil para a importação, pois diminuiu a eficácia do modelo.

Outra restrição é que, embora a Wikipédia seja confiável no que diz respeito ao emprego de títulos de maneira significativa.

No entanto, o uso desse modelo em sites da internet que não sejam da Wikipédia pode resultar em seu funcionamento ser interrompido inesperadamente.

Muitos sites na Internet não utilizam adequadamente os cabeçalhos de seção para indicar claramente o conteúdo de um texto, algo que profissionais de SEO e editores deveriam fazer.

O estudo de pesquisa analisa:

A disseminação do GCoQA é uma questão válida de preocupação.

A GCoQA se baseia na conexão de sentido entre a pergunta e os identificadores de passagem para encontrar passagens pertinentes de forma eficaz.

Apesar de ter sido testada com três conjuntos de dados acadêmicos, ainda não se sabe quão eficaz a GCoQA é em situações do mundo real, onde as perguntas frequentemente são ambíguas e difíceis de corresponder aos identificadores, sendo necessária mais pesquisa nesse sentido.

GCoQA é uma tecnologia emergente com potencial promissor.

Em resumo, os pesquisadores concluíram que os avanços no desempenho são significativos, mas as restrições devem ser abordadas de forma eficaz.

O estudo de pesquisa indica que há dois campos promissores para futuras investigações:

Explorando a aplicação da recuperação generativa em contextos mais amplos de pesquisa na internet, nos quais os identificadores não são prontamente obtidos a partir dos títulos; e avaliando como a recuperação de trechos e a previsão de respostas podem ser integradas em um único modelo generativo, visando a uma compreensão mais profunda de suas interações internas.

Significado de GCoQA.

O estudo científico (Generative Retrieval for Conversational Question Answering) foi disponibilizado no GitHub por um dos pesquisadores envolvidos.

Acesse o GitHub para localizar o endereço do PDF.

Assim como é comum, os estudos de pesquisa costumam ficar ocultos atrás de uma barreira de pagamento, o que pode resultar na sua possível falta de acesso no futuro.

GCoQA pode demorar para ser implementado em um mecanismo de busca.

O GCoQA destaca o esforço dos pesquisadores em explorar o potencial dos modelos generativos para inovar a pesquisa online.

Isso pode ser uma antecipação de como os mecanismos de busca no futuro próximo poderão se apresentar.

Confira a síntese do anúncio e do artigo de pesquisa.

Abordagem Gerativa de Recuperação para responder a perguntas em conversas.

A imagem principal é fornecida por Shutterstock/Sundry Photography.

Artigos relacionados

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button