O Google atualizou sua documentação do Googlebot e do rastreador para adicionar uma área de IPs para bots acionados por usuários dos produtos do Google.
Os nomes dos feeds mudaram, o que é importante para os editores que estão na lista branca dos endereços IP controlados pelo Google.
A mudança será útil para os editores que desejam impedir scrapers que estão usando a nuvem do Google e outros rastreadores não diretamente relacionados ao Google.
Nova Lista de Endereços IP
O Google diz que a lista inclui intervalos de IP que têm sido utilizados há muito tempo, então eles não são intervalos de IP novos. Existem dois tipos de intervalos de IP:
1. Intervalos de IP que são acionados pelos usuários, mas controlados pelo Google e resolvem para um hostname do Google.com.
Estes são ferramentas como Verificador de Site do Google e possivelmente a Ferramenta de Testador de Dados Estruturados.
2. Intervalos de IP que são acionados pelos usuários, mas não são controlados pelo Google e resolvem para um hostname de gae.googleusercontent.com.
Estes são aplicativos que estão na nuvem do Google ou scripts de aplicativos que são requistados do Google Sheets.
As listas correspondentes a cada segmento agora são diferentes. Anteriormente, a lista que correspondia aos endereços IP do Google era a special-crawlers.json (para gae.googleusercontent.com)
Agora, a lista de “rastreadores especiais” corresponde aos crawlers que não são controlados pelo Google.
“IPs no objeto user-triggered-fetchers.json resolvem para hostnames de gae.googleusercontent.com. Esses IPs são usados, por exemplo, se um site executado no Google Cloud (GCP) tiver um recurso que exija a busca de feeds RSS externos a pedido do usuário desse site.”
A nova lista que corresponde aos rastreadores controlados pelo Google é:
user-triggered-fetchers-google.json
“Ferramentas e aplicativos de produtos onde o usuário final aciona uma busca. Por exemplo, o Verificador de Site do Google age a pedido de um usuário. Como a busca foi solicitada por um usuário, esses buscadores ignoram as regras de robots.txt.
Os buscadores controlados pelo Google se originam de IPs no objeto user-triggered-fetchers-google.json e resolvem para um hostname google.com.”
Os buscadores controlados pelo Google se originam de IPs no objeto user-triggered-fetchers-google.json e resolvem para um hostname google.com.”
A lista de IPs dos rastreadores do Google Cloud e do App que o Google não controla pode ser encontrada neste link.
E a lista de IPs do Google acionados pelos usuários e controlados pelo Google esta neste link.
Considerações Finais
Em suma, a atualização na documentação do Google sobre os IPs dos rastreadores e bots é um passo importante para os editores e proprietários de sites.
Essas informações fornecem clareza sobre quais IPs são controlados pelo Google e quais não são, auxiliando na tomada de decisões relacionadas à segurança e ao gerenciamento de tráfego.
Ao compreender melhor o funcionamento dos rastreadores e bots, os usuários podem proteger seus sites contra scrapers indesejados e garantir uma experiência mais segura e confiável para seus visitantes. Espero ter ajudado!
Sucesso e boas vendas! Farôooo🤚