Gary Illyes, do Google, confirmou que é comum os robôs.txt terem controle limitado sobre o acesso não autorizado por rastreadores. Ele também forneceu uma visão geral dos controles de acesso que os SEOs e donos de sites devem estar cientes.
Texto: Ponto de Vista Típico Sobre o Arquivo Robots.txt
Parece que em qualquer momento surge o assunto do arquivo robots.txt e sempre há alguém que precisa destacar que não é possível bloquear todos os rastreadores.
Gary concordou com essa afirmação.
“É comum ouvir que o arquivo robots.txt não consegue evitar que pessoas não autorizadas acessem o conteúdo, um argumento frequentemente discutido atualmente. Embora tenha parafraseado a afirmação, é verdade que muitos acreditam que o robots.txt não garante a restrição de acesso ao conteúdo.”
Posteriormente, ele se dedicou a examinar minuciosamente o verdadeiro significado dos rastreadores de bloqueio. Ele criticou o processo de bloqueio de rastreadores como optar por uma solução que, de certa forma, controla ou cede o controle a um site. Ele descreveu isso como uma solicitação de acesso (navegador ou rastreador) e o servidor respondendo de diferentes formas.
Ele mencionou casos de regulação.
- Um arquivo robots.txt direciona o rastreador para determinar se deve ou não fazer o rastreamento.
- Firewalls, também conhecidos como WAF (web application firewall), são responsáveis por controlar o acesso.
- Segurança de senha
Aqui estão as suas considerações.
Se você necessitar de permissão para acessar algo, é necessário ter um sistema que verifique a identidade do solicitante e gerencie o acesso correspondente. Os firewalls podem autenticar por meio do endereço IP, o servidor web por meio de credenciais fornecidas pelo HTTP Auth ou um certificado para o cliente SSL/TLS, ou o CMS por meio de um nome de usuário e senha, e em seguida através de um cookie 1P.
Sempre há dados que o solicitante fornece a um componente de rede para que ele possa ser identificado e ter seu acesso a um recurso controlado. O robots.txt, assim como outras diretrizes de hospedagem de arquivos, dá ao solicitante a decisão de acessar um recurso, mesmo que não seja o desejado. Esses arquivos são comparáveis aos irritantes estancionamentos de controle de pista em aeroportos, onde todos querem apenas passar direto, mas não podem.
Existem locais adequados para estancions, assim como há locais apropriados para portas de explosão e irises em torno do seu Stargate.
Resumo: Em vez de considerar os robôs.txt (ou outras instruções de hospedagem de arquivos) como uma forma de controle de acesso, é melhor utilizar as ferramentas apropriadas para permitir acesso de forma mais eficaz.
Utilize os recursos corretos para gerenciar bots.
Existem diversas formas de impedir a ação de rastreadores, bots de hackers, rastreadores de pesquisa, visitas de agentes de usuário AI e rastreadores de busca. Além de barrar os rastreadores de busca, um firewall é uma solução eficaz, pois pode bloquear com base em comportamento (como taxa de rastreamento), endereço IP, agente de usuário e país, entre outros critérios. Exemplos comuns de soluções incluem ferramentas de nível de servidor como Fail2Ban, serviços baseados em nuvem como Cloudflare WAF ou plugins de segurança para WordPress como Wordfence.
Confira a publicação de Gary Illyes no LinkedIn.
Os robôs. txt não têm a capacidade de evitar que pessoas não autorizadas acessem o conteúdo.
Imagem principal fornecida por Shutterstock, créditos para Ollyy.