网站优化中robots.txt优化的作用

robots.txt文件优化

什么是robots.txt

我们都知道robots.txt是一个协议,robots.txt不是一个命令。robots.txt是各种搜索引擎中在访问网站的时要查看的第一个文件。robots.txt文件告诉搜索引擎的运行程序在这个服务器上什么文件是可以给它看,什么不可以给搜索引擎看的。它对网站优化的有一定的作用。

为什么要设置robots.txt文件呢,作用在哪里?

因为我们做网站应该知道,有很多页面是不需要搜索引擎去收录的,作为一般的网站只是不想让搜索引擎看到网站里面的一些东西,但如果是做网站优化的朋友就应该注意了,不要小看小小的robots.txt文件就有几句话,它的意思可大了,例如,现在很多人都用一些开源软件做网站,向我的网站白帽SEO博客就是用开源程序做的,如果不设置一些robots.txt文件,搜索引擎很可能就去抓取里面的一些程序文件,这不仅对网站收录没一点用处,还降低了蜘蛛的效益,而且我网站里的一些标签和搜索页面可能与其它正常页面相似,如果都被搜索引擎抓取的话,它会认为我的网站相似的东西太多,从而,给seo博客打分低。所以做网站robots.txt是不可少,且要设置正确。

robots.txt怎么设置呢?

下面是一些基本的规范,可以供大家参考:

User-agent: *   这里的*代表的所有的搜索引擎种类,*是一个通配符。 
Disallow: /admin/
这里定义是禁止爬寻admin目录下面的目录。 
Disallow: /require/
  这里定义是禁止爬寻require目录下面的目录。 
Disallow: /require/
这里定义是禁止爬寻require目录下面的目录。    
Disallow: /A
这里定义是禁止爬寻A整个目录。  
Disallow: /c-b/*.htm
禁止访问/c-b/目录下的所有以".htm"为后缀的URL(包含子目录) 
Disallow: /*?*
禁止访问网站中所有的动态页面。 
Disallow: .jpg$
禁止抓取网页所有的.jpg格式的图片。 
Disallow:/a/dc.html
禁止爬寻a文件夹下面的dc.html所有文件。
User-agent: *  
  这里的*代表的所有的搜索引擎种类,*是一个通配符。 
Allow: /cgi-bin/
  这里定义是允许爬寻cgi-bin目录下面的目录。 
Allow: /tmp
这里定义是允许爬寻tmp的整个目录。 
Allow: .htm$
仅允许访问以".htm"为后缀的URL 
Allow: .gif$
允许抓取网页和gif格式图片。

robots.txt 文件用法例:

1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *  
Disallow: /
实例分析:淘宝网的  Robots.txt文件
User-agent: Baiduspider
Disallow: /
很显然淘宝不允许百度的机器人访问其网站下其所有的目录。

2、允许所有的robot访问  (或者也可以建一个空文件 “/robots.txt”  file)  

User-agent: *
Disallow:

3、禁止某个搜索引擎的访问
User-agent: BadBot
Disallow: /

4、允许某个搜索引擎的访问
User-agent: baiduspider
Disallow: 

User-agent: *
Disallow: /

5、在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。 需要注意的是对每一个目录必须分开声明,而不要写成 “Disallow: /cgi-bin/ /tmp/”

User-agent: 后的*具有特殊的含义,代表“any robot”,所以在该文件中不能有“Disallow: /tmp/*”  or “Disallow:*.gif”这样的记录出现。 
User-agent: *   
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Robots
特殊参数:
允许  Googlebot 
如果您要拦截除  Googlebot 以外的所有漫游器访问您的网页,可以使用下列语法:
User-agent:
Disallow:/
User-agent:Googlebot
Disallow:
Googlebot  
跟随指向它自己的行,而不是指向所有漫游器的行。
“Allow”
扩展名:
Googlebot  
可识别称为“Allow”  robots.txt 标准扩展名。其他搜索引擎的漫游器可能无法识别此扩展名,因此请使用您感兴趣的其他搜索引擎进行查找。“Allow”行的作用原理完全与“Disallow”行一样。只需列出您要允许的目录或页面即可。
您也可以同时使用“Disallow”“Allow”。例如,要拦截子目录中某个页面之外的其他所有页面,可以使用下列条目:
User-Agent:Googlebot
Disallow:/folder1/
Allow:/folder1/myfile.html
这些条目将拦截  folder1 目录内除  myfile.html 之外的所有页面。
如果您要拦截  Googlebot 并允许  Google 的另一个漫游器(如  Googlebot-Mobile),可使用:”Allow”规则允许该漫游器的访问。
User-agent:Googlebot
Disallow:/
User-agent:Googlebot-Mobile
Allow:
使用  * 号匹配字符序列:
您可使用星号  (*) 来匹配字符序列。要拦截对所有以  private 开头的子目录的访问,可使用下列条目:
User-Agent:Googlebot
Disallow:/private*/
要拦截对所有包含问号  (?) 的网址的访问,可使用下列条目:
User-agent:*
Disallow:/*?*

使用  $ 匹配网址的结束字符

您可使用  $ 字符指定与网址的结束字符进行匹配。要拦截以  .asp 结尾的网址,可使用下列条目:
User-Agent:Googlebot
Disallow:/*.asp$
您可将此模式匹配与  Allow 指令配合使用。如果  ? 表示一个会话  ID,您可排除所有包含该  ID 的网址,确保  Googlebot 不会抓取重复的网页。但是,以  ? 结尾的网址可能是您要包含的网页版本。在此情况下,可对  robots.txt 文件进行如下设置:

User-agent:*

Allow:/*?$

Disallow:/*?

Disallow:/ *?

一行将拦截包含  ? 的网址(具体而言,它将拦截所有以您的域名开头、后接任意字符串,然后是问号  (?),而后又是任意字符串的网址)。

Allow: /*?$  一行将允许包含任何以  ? 结尾的网址(具体而言,它将允许包含所有以您的域名开头、后接任意字符串,然后是问号  (?),问号之后没有任何字符的网址)。

讲了那么多了,相信大家对robots.txt有了一定的认识呢?是不是可以自己写出一些简单的robots.txt文件了呢?把这些基本知识运用在网站优化上,能让你的网站更容易做好排名。小谭的分享就到这里了。

来源:广州谭佳兴博客(微信/QQ号:616092297),欢迎分享本文,转载请保留出处!

该文章由爱互联网的谭佳兴于2013年04月14日发表在广州网站优化分类下

博文链接: http://tanjiaxing.cn/seo-wangzhan-youhua/robots-txt.html



网站优化中robots.txt优化的作用:任何SEO问题请留言,我将第一时间回复你!

发表评论

快捷键:Ctrl+Enter