Robots文件生成器(Robots.txt是放在站点根目录下一个纯文本文件,指定搜索引擎蜘蛛抓取指定的内容,或是禁止搜索引擎蜘蛛抓取网站部分或全部内容)
什么是robots.txt文件?
1. Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。
它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。
2. robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,
它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,
哪些是可以被(漫游器)获取的。
3. 如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,
或者使用robots元数据。
4. 因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。
5. robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。
注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠“/”表示的是不同的URL。robots.txt允许使用类似"Disallow: *.gif"这样的通配符。
6. Robots协议是国际互联网界通行的道德规范,基于以下原则建立:1、搜索技术应服务于人类,
同时尊重信息提供者的意愿,并维护其隐私权;2、网站有义务保护其使用者的个人信息和隐私不被侵犯。
robots.txt文件使用方法
1. Robots.txt 文件应该放在网站根目录下,并且该文件是可以通过互联网进行访问的。
例如:如果您的网站地址是 http://www.xxx.com/那么,该文件必须能够通过 http://www.xxx.com/robots.txt 打开并看到里面的内容。