hora365.com
robots.txt

Robots Exclusion Standard data for hora365.com

Archived Snapshots

Resource Scan

Scan Details

Site Domain	hora365.com
Base Domain	hora365.com
Scan Status	Ok
Last Scan	2025-04-19T04:17:47+00:00
Next Scan	2025-04-26T04:17:47+00:00

Last Scan

Scanned	2025-04-19T04:17:47+00:00
URL	https://hora365.com/robots.txt
Domain IPs	104.21.16.108, 172.67.167.67, 2606:4700:3034::ac43:a743, 2606:4700:3037::6815:106c
Response IP	104.21.16.108
Found	Yes
Hash	9a720eacc669a653670fada9452108d9918ef23be9af0e9d187a6c1182ca69df
SimHash	d8fc4e100c47

Groups

*

Rule	Path
Allow	/wp-content/uploads/
Disallow	/wp-includes/
Disallow	/wp-admin/
Disallow	/?s=
Disallow	/search
Allow	/feed/$
Disallow	/feed
Disallow	/comments/feed
Disallow	/*/feed/$
Disallow	/*/feed/rss/$
Disallow	/*/trackback/$
Disallow	///feed/$
Disallow	///feed/rss/$
Disallow	///trackback/$
Disallow	///*/feed/$
Disallow	///*/feed/rss/$
Disallow	///*/trackback/$

Rule

Path

Allow

/wp-content/uploads/

Disallow

/wp-includes/

Disallow

/wp-admin/

Disallow

/?s=

Disallow

/search

Allow

/feed/$

Disallow

/feed

Disallow

/comments/feed

Disallow

/*/feed/$

Disallow

/*/feed/rss/$

Disallow

/*/trackback/$

Disallow

/*/*/feed/$

Disallow

/*/*/feed/rss/$

Disallow

/*/*/trackback/$

Disallow

/*/*/*/feed/$

Disallow

/*/*/*/feed/rss/$

Disallow

/*/*/*/trackback/$

msiecrawler

Rule	Path
Disallow	/

Rule

Path

Disallow

webcopier

Rule	Path
Disallow	/

Rule

Path

Disallow

httrack

Rule	Path
Disallow	/

Rule

Path

Disallow

microsoft.url.control

Rule	Path
Disallow	/

Rule

Path

Disallow

libwww

Rule	Path
Disallow	/

Rule

Path

Disallow

noxtrumbot

No rules defined. All paths allowed.

Other Records

Field	Value
crawl-delay	50

Field

Value

crawl-delay

msnbot

No rules defined. All paths allowed.

Other Records

Field	Value
crawl-delay	30

Field

Value

crawl-delay

slurp

No rules defined. All paths allowed.

Other Records

Field	Value
crawl-delay	10

Field

Value

crawl-delay

Other Records

Field	Value
sitemap	https://hora365.com/sitemap_index.xml

Field

Value

sitemap

https://hora365.com/sitemap_index.xml

Comments

robots.txt para tu blog en WordPress.
Usar bajo propia responsabilidad, que nos conocemos }:)
http://www.sigt.net/desarrollo-web/robotstxt-para-wordpress.html
Primero el contenido adjunto.
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Tambien podemos desindexar todo lo que empiece
por wp-. Es lo mismo que los Disallow de arriba pero
incluye cosas como wp-rss.php
Disallow: /wp-
Sitemap permitido, busquedas no.
Permitimos el feed general para Google Blogsearch.
Impedimos que permalink/feed/ sea indexado ya que el
feed con los comentarios suele posicionarse en lugar de
la entrada y desorienta a los usuarios.
Lo mismo con URLs terminadas en /trackback/ que solo
sirven como Trackback URI (y son contenido duplicado).
A partir de aqui es opcional pero recomendado.
Lista de bots que suelen respetar el robots.txt pero rara
vez hacen un buen uso del sitio y abusan bastante...
Anadir al gusto del consumidor...
Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
idas de pinza, toca decirles que reduzcan la marcha.
El valor es en segundos y puedes dejarlo bajo e ir
subiendo hasta el punto optimo.

hora365.comrobots.txt

Resource Scan

Scan Details

Last Scan

Groups

*

msiecrawler

webcopier

httrack

microsoft.url.control

libwww

noxtrumbot

Other Records

msnbot

Other Records

slurp

Other Records

Other Records

Comments

hora365.com
robots.txt