dietazas.com
robots.txt

Robots Exclusion Standard data for dietazas.com

Archived Snapshots

Resource Scan

Scan Details

Site Domain	dietazas.com
Base Domain	dietazas.com
Scan Status	Failed
Failure Reason	Scan timed out.
Last Scan	2024-06-03T14:05:35+00:00
Next Scan	2024-06-04T14:05:35+00:00

Last Successful Scan

Scanned	2024-05-27T14:04:58+00:00
URL	https://dietazas.com/robots.txt
Domain IPs	75.102.57.85
Response IP	75.102.57.85
Found	Yes
Hash	bb058432a20e28cb5f76e6f0c9e3dd2662fbcfc1bb5e80198f4459f4219490e0
SimHash	8cdcd2148873

Groups

*

Rule	Path
Allow	/wp-content/uploads/
Disallow	/cgi-bin
Disallow	/wp-content/plugins/
Disallow	/wp-content/themes/
Disallow	/wp-includes/
Disallow	/wp-admin/
Disallow	/?s=
Disallow	/search
Allow	/feed/$
Disallow	/feed
Disallow	/comments/feed
Disallow	/*/feed/$
Disallow	/*/feed/rss/$
Disallow	/*/trackback/$
Disallow	///feed/$
Disallow	///feed/rss/$
Disallow	///trackback/$
Disallow	///*/feed/$
Disallow	///*/feed/rss/$
Disallow	///*/trackback/$
Allow	/*.js$
Allow	/*.css$

Rule

Path

Allow

/wp-content/uploads/

Disallow

/cgi-bin

Disallow

/wp-content/plugins/

Disallow

/wp-content/themes/

Disallow

/wp-includes/

Disallow

/wp-admin/

Disallow

/?s=

Disallow

/search

Allow

/feed/$

Disallow

/feed

Disallow

/comments/feed

Disallow

/*/feed/$

Disallow

/*/feed/rss/$

Disallow

/*/trackback/$

Disallow

/*/*/feed/$

Disallow

/*/*/feed/rss/$

Disallow

/*/*/trackback/$

Disallow

/*/*/*/feed/$

Disallow

/*/*/*/feed/rss/$

Disallow

/*/*/*/trackback/$

Allow

/*.js$

Allow

/*.css$

googlebot-image

Rule	Path
Allow	/wp-content/uploads/

Rule

Path

Allow

/wp-content/uploads/

adsbot-google

Rule	Path
Allow	/

Rule

Path

Allow

googlebot-mobile

Rule	Path
Allow	/

Rule

Path

Allow

yandex

Rule	Path
Allow	/

Rule

Path

Allow

msiecrawler

Rule	Path
Disallow	/

Rule

Path

Disallow

webcopier

Rule	Path
Disallow	/

Rule

Path

Disallow

httrack

Rule	Path
Disallow	/

Rule

Path

Disallow

microsoft.url.control

Rule	Path
Disallow	/

Rule

Path

Disallow

libwww

Rule	Path
Disallow	/

Rule

Path

Disallow

noxtrumbot

No rules defined. All paths allowed.

Other Records

Field	Value
crawl-delay	50

Field

Value

crawl-delay

msnbot

No rules defined. All paths allowed.

Other Records

Field	Value
crawl-delay	30

Field

Value

crawl-delay

slurp

No rules defined. All paths allowed.

Other Records

Field	Value
crawl-delay	10

Field

Value

crawl-delay

ia_archiver disallow: /
addthis.com disallow: /
admantx disallow: /
ahrefsbot disallow: /
bdcbot disallow: /
bender disallow: /
bixocrawler disallow: /
bl.uk_lddc_bot disallow: /
blexbot disallow: /
bubing disallow: /
cliqzbot disallow: /
cncdialer disallow: /
crawler4j disallow: /
crystalsemanticsbot disallow: /
cyberalert disallow: /
digext disallow: /
discobot disallow: /
discoverybot disallow: /
dloader disallow: /
dloader(naverrobot) disallow: /
doc disallow: /
dotbot disallow: /
download ninja disallow: /
dts agent disallow: /
exabot disallow: /
ezooms disallow: /
fairshare disallow: /
fetch disallow: /
flamingo_searchengine disallow: /
genieo disallow: /
gigabot disallow: /
grub-client disallow: /
heritrix disallow: /
heritrix/3.3.0 disallow: /
httrack disallow: /
integromedb disallow: /
istellabot disallow: /
jikespider disallow: /
jyxobot disallow: /
k2spider disallow: /
kimengi disallow: /
kimengi/nineconnections.com disallow: /
larbin disallow: /
lexxebot/1.0 disallow: /
libwww disallow: /
linko disallow: /
livelapbot disallow: /
magpie-crawler disallow: /
maxthon disallow: /
metauri disallow: /
microsoft.url.control disallow: /
mj12bot disallow: /
moreover disallow: /
moreoverbot disallow: /
msiecrawler disallow: /
nabot disallow: /
naverbot disallow: /
nerdbynature.bot disallow: /
netestate ne crawler disallow: /
netseer crawler disallow: /
newscan disallow: /
nextgensearchbot disallow: /
npbot disallow: /
nutch disallow: /
offline explorer disallow: /
omgilibot disallow: /
orthogaffe disallow: /
piplbot disallow: /
pixray-seeker disallow: /
proximic disallow: /
psbot disallow: /
queryseekerspider disallow: /
rogerbot disallow: /
seokicks disallow: /
seokicks-robot disallow: /
sitebot disallow: /
sitebot/0.1 disallow: /
sitecheck.internetseer.com disallow: /
sitesnagger disallow: /
slurp disallow: /
sogou disallow: /
sosospider disallow: /
spbot disallow: /
spinn3r disallow: /
teleport disallow: /
teleportpro disallow: /
trendictionbot disallow: /
trovitbot disallow: /
turnitinbot disallow: /
ubicrawler disallow: /
umbot-ln disallow: /
unisterbot disallow: /
universalfeedparser disallow: /
wbsearchbot disallow: /
webcopier disallow: /
webreaper disallow: /
webstripper disallow: /
webzip disallow: /
wesee:search disallow: /
wget disallow: /
wotbot disallow: /
wotbox disallow: /
xenu disallow: /
yasni disallow: /
zao disallow: /
zealbot disallow: /
zyborg disallow: /
offlineexplorer disallow: /
chatgpt-user disallow: /
gptbot disallow: /
ccbot disallow: /
anthropic-ai disallow: /
cohere-ai disallow: /
omgili disallow: /
claritybot disallow: /
google-extended disallow: /

No rules defined. All paths allowed.

Comments

robots.txt para un blog WordPress.
Bloquear o permitir acceso a contenido adjunto. (Si la instalación está en /public_html).
Desindexar carpetas que empiecen por wp-
Permitir Feed general para Google Blogsearch.
Impedir que /permalink/feed/ sea indexado pues el feed de comentarios suele posicionarse antes de los post.
Impedir URLs terminadas en /trackback/ que sirven como Trackback URI (contenido duplicado).
Evita bloqueos de CSS y JS.
Lista de bots que deberías permitir.
Lista de bots que generan consultas abusivas aunque siguen las pautas del archivo robots.txt
Slurp (Yahoo!), Noxtrum y el bot de MSN que suelen generar excesivas consultas.
lista de bots y ia a bloquear

Warnings

1 invalid line.

dietazas.comrobots.txt

Resource Scan

Scan Details

Last Successful Scan

Groups

*

googlebot-image

adsbot-google

googlebot-mobile

yandex

msiecrawler

webcopier

httrack

microsoft.url.control

libwww

noxtrumbot

Other Records

msnbot

Other Records

slurp

Other Records

Comments

Warnings

dietazas.com
robots.txt