bhcidadao.com.br
robots.txt

Robots Exclusion Standard data for bhcidadao.com.br

Resource Scan

Scan Details

Site Domain bhcidadao.com.br
Base Domain bhcidadao.com.br
Scan Status Failed
Failure StageFetching resource.
Failure ReasonCouldn't connect to server.
Last Scan2025-12-29T17:20:58+00:00
Next Scan 2026-03-29T17:20:58+00:00

Last Successful Scan

Scanned2024-03-10T17:08:00+00:00
URL https://bhcidadao.com.br/robots.txt
Domain IPs 192.185.217.3
Response IP 192.185.217.3
Found Yes
Hash f6465401cfb296bcb93468d18d9e5c84364aac9240fb4f4a14e60c7bd7ac4934
SimHash 841d04cbd3a4

Groups

*

Rule Path
Disallow /wp-admin/
Disallow /a/
Allow /wp-admin/admin-ajax.php
Allow /a/guia-do-marketing-de-afiliados/
Allow /a/carreto-do-Jorginho/

mj12bot

Rule Path
Disallow /

ubicrawler

Rule Path
Disallow /

doc

Rule Path
Disallow /

zao

Rule Path
Disallow /

sitecheck.internetseer.com

Rule Path
Disallow /

zealbot

Rule Path
Disallow /

msiecrawler

Rule Path
Disallow /

sitesnagger

Rule Path
Disallow /

webstripper

Rule Path
Disallow /

webcopier

Rule Path
Disallow /

fetch

Rule Path
Disallow /

offline explorer

Rule Path
Disallow /

teleport

Rule Path
Disallow /

teleportpro

Rule Path
Disallow /

webzip

Rule Path
Disallow /

linko

Rule Path
Disallow /

httrack

Rule Path
Disallow /

microsoft.url.control

Rule Path
Disallow /

xenu

Rule Path
Disallow /

larbin

Rule Path
Disallow /

libwww

Rule Path
Disallow /

zyborg

Rule Path
Disallow /

download ninja

Rule Path
Disallow /

fast

Rule Path
Disallow /

wget

Rule Path
Disallow /

grub-client

Rule Path
Disallow /

k2spider

Rule Path
Disallow /

npbot

Rule Path
Disallow /

webreaper

Rule Path
Disallow /

sitecheck.internetseer.com

Rule Path
Disallow /

Other Records

Field Value
sitemap https://bhcidadao.com.br/sitemap.xml

Comments

  • robots.txt for http://bhcidadao.com.br
  • Por favor, note: Há diversas páginas neste site, e existem alguns spiders mal-comportados por aí.
  • Se vocês forem irresponsáveis, o seu acesso ao site poderá ser bloqueado.
  • Observado grandes quantidades de spam em https://en.wikipedia.org/?curid=NNNNNN
  • e ignorou 429 respostas ratelimit, mas afirma respeitar robots.txt:
  • http://mj12bot.com/
  • bots relacionados à publicidade:
  • User-agent: Mediapartners-Google*
  • Disallow: /
  • Spiders que são gentis o suficiente para obedecer, mas que prefiro não ter
  • a menos que estejam alimentando os mecanismos de pesquisa.
  • Alguns bots são conhecidos por serem problemas, particularmente aqueles projetados para copiar sites inteiros.
  • Misbehaving: Faz muitas requisições, atrapalhando o servidor:
  • Desculpe, wget em seu modo recursivo é um problema freqüente.
  • Por favor, leia a documentação e use-a corretamente; existe uma opção de espera que você pode usar para definir o atraso entre as requisições.
  • O cliente distribuído 'grub' foi muito mal comportado.
  • Não segue o robots.txt, mas ...
  • Muitas requisições por segundo, não é aceitável.
  • http://www.nameprotect.com/botinfo.html
  • Um bot de captura, downloads, zilhões de páginas sem nenhum benefício público.
  • http://www.webreaper.net/
  • Bots amigáveis e de baixa velocidade são bem-vindos visualizando páginas de artigos, mas não páginas geradas dinamicamente por favor.