robots.txt在线生成工具 - 自定义搜索引擎爬虫访问规则

生成robots.txt,仅输出明确配置的爬虫

默认 - 所有机器人是:
检索间隔:
Sitemap: (留空为无)
普通搜索机器人: Google
googlebot
Baidu
baiduspider
MSN Search
msnbot
Yahoo
yahoo-slurp
Ask/Teoma
teoma
Cuil
twiceler
GigaBlast
gigabot
Scrub The Web
scrubby
DMOZ Checker
robozilla
Nutch
nutch
Alexa/Wayback
ia_archiver
Naver
naverbot, yeti
特殊搜索机器人: Google Image
googlebot-image
Google Mobile
googlebot-mobile
Yahoo MM
yahoo-mmcrawler
MSN PicSearch
psbot
SingingFish
asterias
Yahoo Blogs
yahoo-blogs/v3.9
限制目录: 路径是相对的,但每个路径之前都要包含:"/"

什么是robots.txt文件

  • robots.txt(统一小写)是一种存放于网站根目录下的文本文件,用于告知搜索引擎爬虫哪些页面可以抓取,哪些不可以...
  • 因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写...
  • 如果想单独定义搜索引擎的漫游器访问子目录时的行为...
  • robots.txt协议并不是一个规范,而只是约定俗成的...
  • Robots协议是国际互联网界通行的道德规范...

robots.txt文件内容

  • 搜索引擎蜘蛛的是否可访问性或者说可爬行性。
  • 搜索引擎蜘蛛针对目录或者文件的可访问性。
  • 网站站点地图sitemap路径定义。
  • 搜索引擎蜘蛛爬行的时间间隔限制。

关于robots.txt文件生成器

  • 通过web界面设置好要配置的数据,点击生成器的生成即可在最下方的文本输入框获得robots.txt的文件内容。
  • 现在,你创建一个空白的文本文件,命名为:“robots.txt”,然后把上面的内容,复制并粘贴到“robots.txt”中去。
  • 把“robots.txt”放在你网站的根目录,访问robots.txt,确保他能让访问者(如搜索引擎)访问到。