jrmora.com
robots.txt

Robots Exclusion Standard data for jrmora.com

Archived Snapshots

Resource Scan

Scan Details

Site Domain	jrmora.com
Base Domain	jrmora.com
Scan Status	Ok
Last Scan	2024-09-24T19:23:03+00:00
Next Scan	2024-10-01T19:23:03+00:00

Last Scan

Scanned	2024-09-24T19:23:03+00:00
URL	https://jrmora.com/robots.txt
Domain IPs	65.108.104.232, 65.21.81.50
Response IP	65.21.81.50
Found	Yes
Hash	cc4d468eb660fa5c3909b3bdccc61ad5f0e7adbdbe2ea3086d8c754b38c26d9b
SimHash	c87cd2144832

Groups

*

Rule	Path
Allow	/wp-admin/admin-ajax.php
Allow	/tag/
Allow	/page/
Allow	/category/
Allow	/wp-content/uploads/
Disallow	/wp-admin/
Disallow	/*.git$
Disallow	/*.sql$
Disallow	/*.tgz$
Disallow	/*.gz$
Disallow	/*.tar$
Disallow	/*.svn$
Disallow	/*.bz2$
Disallow	/*.log$
Disallow	/?s=
Disallow	/search
Allow	/feed/$
Disallow	/feed
Disallow	/comments/feed
Disallow	/*/feed/$
Disallow	/*/feed/rss/$
Disallow	/*/trackback/$
Disallow	///feed/$
Disallow	///feed/rss/$
Disallow	///trackback/$
Disallow	///*/feed/$
Disallow	///*/feed/rss/$
Disallow	///*/trackback/$

Rule

Path

Allow

/wp-admin/admin-ajax.php

Allow

/tag/

Allow

/page/

Allow

/category/

Allow

/wp-content/uploads/

Disallow

/wp-admin/

Disallow

/*.git$

Disallow

/*.sql$

Disallow

/*.tgz$

Disallow

/*.gz$

Disallow

/*.tar$

Disallow

/*.svn$

Disallow

/*.bz2$

Disallow

/*.log$

Disallow

/?s=

Disallow

/search

Allow

/feed/$

Disallow

/feed

Disallow

/comments/feed

Disallow

/*/feed/$

Disallow

/*/feed/rss/$

Disallow

/*/trackback/$

Disallow

/*/*/feed/$

Disallow

/*/*/feed/rss/$

Disallow

/*/*/trackback/$

Disallow

/*/*/*/feed/$

Disallow

/*/*/*/feed/rss/$

Disallow

/*/*/*/trackback/$

msiecrawler

Rule	Path
Disallow	/

Rule

Path

Disallow

webcopier

Rule	Path
Disallow	/

Rule

Path

Disallow

httrack

Rule	Path
Disallow	/

Rule

Path

Disallow

microsoft.url.control

Rule	Path
Disallow	/

Rule

Path

Disallow

libwww

Rule	Path
Disallow	/

Rule

Path

Disallow

compspybot
curious george
cybeye.com
docomo
exb language crawler
ezooms
flamingo_searchengine
genieo
genio
lwnutch
lexxebot
openwebindex
rediffnewsbot
seoengworldbot
scanmine
screaming frog seo spider
shopwiki
showyoubot
sosospider
wocbot
yeti
yeti
youdaobot
daumoa
gsa-crawler
libcrawl
linkdex
magpie-crawler
repparser
rogerbot
sindice-site-manager
sogou spider
sogou
woriobot
yacybot
yolinkbot

Rule	Path
Disallow	/

Rule

Path

Disallow

Other Records

Field	Value
sitemap	https://jrmora.com/sitemap_index.xml

Field

Value

sitemap

https://jrmora.com/sitemap_index.xml

Comments

robots.txt para WordPress
Tambien podemos desindexar todo lo que empiece
por wp-. Es lo mismo que los Disallow de arriba pero
incluye cosas como wp-rss.php
No rastrear copias de seguridad
Sitemap permitido, busquedas no.
Permitimos el feed general para Google Blogsearch.
Impedimos que permalink/feed/ sea indexado ya que el
feed con los comentarios suele posicionarse en lugar de
la entrada y desorienta a los usuarios.
Lo mismo con URLs terminadas en /trackback/ que solo
sirven como Trackback URI (y son contenido duplicado).
Lista de bots que suelen respetar el robots.txt pero rara
vez hacen un buen uso del sitio y abusan bastante
A gusto del consumidor
Bots chungos o que consumen mucho ancho de banda

jrmora.comrobots.txt

Resource Scan

Scan Details

Last Scan

Groups

*

msiecrawler

webcopier

httrack

microsoft.url.control

libwww

Other Records

Comments

jrmora.com
robots.txt