John Mueller, do Google, recentemente respondeu a uma pergunta sobre se existe um limite percentual de duplicação de conteúdo que o Google utiliza para identificar e filtrar o conteúdo duplicado.
Qual é a porcentagem que torna o conteúdo duplicado igual?
A interação teve início no Facebook quando Duane Forrester (@DuaneForrester) questionou se alguém tinha conhecimento sobre algum mecanismo de busca que tenha divulgado uma porcentagem de similaridade de conteúdo em que o material é classificado como duplicado.
Bill Hartzer recorreu ao Twitter para solicitar a John Mueller e obteve prontamente uma resposta.
Bill publicou uma mensagem no Twitter.
“Olá @johnmu, há um índice que indica a presença de conteúdo duplicado?”
Por exemplo, devemos nos esforçar para garantir que as páginas do nosso site sejam distintas em, no mínimo, 72,6% em comparação com outras páginas?
O Google chega a avaliar isso?
John Mueller do Google deu uma resposta.
Não existe quantidade alguma (e como você poderia medi-la de qualquer forma?)
JohnMu publicou um tweet em 23 de setembro de 2022 com um link para seu site.
Como o Google identifica informações idênticas em diferentes páginas?
A abordagem do Google para identificar conteúdo duplicado manteve-se bastante similar ao longo de um longo período de tempo.
Em 2013, Matt Cutts, um engenheiro de software que trabalhava no Google naquela época, divulgou um vídeo oficial explicando o processo de detecção de conteúdo duplicado pelo Google.
Ele iniciou o vídeo destacando que é comum encontrar uma grande quantidade de conteúdo duplicado na Internet e que isso é algo natural.
É essencial notar que aproximadamente um quarto a um terço de todo o conteúdo disponível na internet é considerado duplicado.
“As pessoas irão mencionar um trecho de um blog e depois incluir um link para o blog, esse tipo de prática.”
Ele afirmou que o Google não penalizará o conteúdo duplicado que é inocente e não tem intenção de spam, argumentando que há uma justificativa para isso.
Ele afirmou que punir sites por conter conteúdo duplicado teria um impacto prejudicial na qualidade dos resultados de busca.
O procedimento do Google ao se deparar com conteúdo duplicado consiste em:
“…tentar reunir todos os elementos e abordá-los como se fossem uma única entidade de informação.”
Matt prosseguiu:
É simplesmente considerado como algo que devemos organizar de forma adequada e garantir que esteja correto.
Ele mencionou que o Google decide qual página exibir nos resultados da busca e elimina páginas duplicadas visando aprimorar a experiência do usuário.
Como o Google aborda o conteúdo duplicado – atualização de 2020
Em 2020, o Google lançou um episódio de podcast intitulado Search Off the Record, no qual abordou o mesmo assunto com uma linguagem bastante similar.
Aqui está a parte importante desse podcast que começa aos 06:44 minutos do episódio:
Gary Illyes: Agora vamos passar para o próximo passo, que se trata da identificação de páginas duplicadas e da canonização.
Martin Splitt está perguntando se a detecção de conteúdo duplicado é semelhante à canonicalização.
Gary Illyes explica que é necessário identificar e agrupar as páginas duplicadas antes de encontrar uma página principal para todas elas.
…E isso consiste em realizar a canonicalização.
Dessa forma, há a duplicação, que consiste em todo o termo, porém inclui também a estrutura do cluster, como a estrutura do cluster duplicado e a canonicalização.
Gary está explicando de forma técnica o procedimento utilizado. Em resumo, o Google não analisa as porcentagens exatas, mas compara os checksums.
Um checksum é uma forma de representar o conteúdo usando uma série de números ou letras, de modo que se o conteúdo for copiado, a sequência de checksum será parecida.
Dessa maneira Gary apresentou sua explicação:
“Portanto, no processo de identificação de duplicatas, o que fazemos é tentar identificar duplicatas.”
“Para alcançar esse objetivo, seguimos o mesmo procedimento que a maioria das pessoas em outros mecanismos de busca: resumimos o conteúdo em um hash ou checksum e em seguida comparamos os checksums.”
Gary explicou que o Google adota essa abordagem porque é mais simples e eficaz.
O Google identifica conteúdo duplicado por meio de checksums.
Então, quando se trata de conteúdo duplicado, provavelmente não se trata de estabelecer um limite específico em porcentagem, em que há um ponto em que o conteúdo é considerado duplicado.
No entanto, a detecção de conteúdo duplicado ocorre por meio de uma representação do conteúdo na forma de um checksum, que depois é comparado.
Parece haver uma diferença entre duplicar parte do conteúdo e duplicar todo o conteúdo, conforme mencionado.
Imagem principal fornecida por Shutterstock/Ezume Images.