jrmora.com
robots.txt

Robots Exclusion Standard data for jrmora.com

Resource Scan

Scan Details

Site Domain jrmora.com
Base Domain jrmora.com
Scan Status Ok
Last Scan2024-09-24T19:23:03+00:00
Next Scan 2024-10-01T19:23:03+00:00

Last Scan

Scanned2024-09-24T19:23:03+00:00
URL https://jrmora.com/robots.txt
Domain IPs 65.108.104.232, 65.21.81.50
Response IP 65.21.81.50
Found Yes
Hash cc4d468eb660fa5c3909b3bdccc61ad5f0e7adbdbe2ea3086d8c754b38c26d9b
SimHash c87cd2144832

Groups

*

Rule Path
Allow /wp-admin/admin-ajax.php
Allow /tag/
Allow /page/
Allow /category/
Allow /wp-content/uploads/
Disallow /wp-admin/
Disallow /*.git$
Disallow /*.sql$
Disallow /*.tgz$
Disallow /*.gz$
Disallow /*.tar$
Disallow /*.svn$
Disallow /*.bz2$
Disallow /*.log$
Disallow /?s=
Disallow /search
Allow /feed/$
Disallow /feed
Disallow /comments/feed
Disallow /*/feed/$
Disallow /*/feed/rss/$
Disallow /*/trackback/$
Disallow /*/*/feed/$
Disallow /*/*/feed/rss/$
Disallow /*/*/trackback/$
Disallow /*/*/*/feed/$
Disallow /*/*/*/feed/rss/$
Disallow /*/*/*/trackback/$

msiecrawler

Rule Path
Disallow /

webcopier

Rule Path
Disallow /

httrack

Rule Path
Disallow /

microsoft.url.control

Rule Path
Disallow /

libwww

Rule Path
Disallow /

compspybot
curious george
cybeye.com
docomo
exb language crawler
ezooms
flamingo_searchengine
genieo
genio
lwnutch
lexxebot
openwebindex
rediffnewsbot
seoengworldbot
scanmine
screaming frog seo spider
shopwiki
showyoubot
sosospider
wocbot
yeti
yeti
youdaobot
daumoa
gsa-crawler
libcrawl
linkdex
magpie-crawler
repparser
rogerbot
sindice-site-manager
sogou spider
sogou
woriobot
yacybot
yolinkbot

Rule Path
Disallow /

Other Records

Field Value
sitemap https://jrmora.com/sitemap_index.xml

Comments

  • robots.txt para WordPress
  • Tambien podemos desindexar todo lo que empiece
  • por wp-. Es lo mismo que los Disallow de arriba pero
  • incluye cosas como wp-rss.php
  • No rastrear copias de seguridad
  • Sitemap permitido, busquedas no.
  • Permitimos el feed general para Google Blogsearch.
  • Impedimos que permalink/feed/ sea indexado ya que el
  • feed con los comentarios suele posicionarse en lugar de
  • la entrada y desorienta a los usuarios.
  • Lo mismo con URLs terminadas en /trackback/ que solo
  • sirven como Trackback URI (y son contenido duplicado).
  • Lista de bots que suelen respetar el robots.txt pero rara
  • vez hacen un buen uso del sitio y abusan bastante
  • A gusto del consumidor
  • Bots chungos o que consumen mucho ancho de banda