注册 登录  
 加关注
查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

子木的博客

简单才能专一!

 
 
 

日志

 
 

robot写法  

2011-02-18 14:11:54|  分类: SEO |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
robot(又称spider)是搜索引擎通用的一种程序,自动访问互联网上的网页并获取网页信息。规范robots.txt其实是网站SEO优化的很重要的一点。
robots.txt
要怎么写
以wordpress为例,一些地址是不应该被搜索引擎索引的,比如后台程序、FEED地址等,一个针对WordPress的robots.txt的实例如下:
User-agent: *
Disallow: /wp-
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/feed
给出一个简单例子网友就很容易理解robots.txt的写法,这应该比看百度的搜索引擎帮助要容易的多。
robots.txt
使用进阶
(1)
禁止搜索引荐抓取子目录
以godaddy的150G虚拟主机为例,可能在网站下还有别的目录绑定了另外的域名,不过搜索引荐有时候确自做聪明将别的站的内容以
www.iewb.net/aaa这样的形式抓取了过来,这可以通过robots.txt来解决:
User-agent: *
Disallow: /aaa/
Disallow: /bbb/
(2)
禁止搜索引荐抓取图片
如果网站图片被百度“盗链”,那你的流量消耗会特别快,google还好一些,点击图片的时候会进入你的网站,给你导入一些IP,百度则是赤裸裸的盗链。如果你不想搜索引荐抓取你网站的图片,可以这样写robots.txt解决:
User-agent
: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
(3)
使用"*"限制访问url
禁止访问/aaa/目录下的所有以".htm"为后缀的URL(包含子目录)。
User-agent: *
Disallow: /aaa/*.htm
(4)
使用"$"限制访问url
仅允许访问以".htm"为后缀的URL。
User-agent: *
Allow: .htm$
Disallow: /
robots.txt
的作用
过多的搜索引擎爬虫会带来很大的服务器负载,通过robots.txt禁止抓取部分目录可以一定程度降低服务器负载。网站内大量不同链接指向相同的内容时,搜索引擎可能会认为网站质量低下,正确使用robots.txt可以减少重复收录,提高网站独特性。

  评论这张
 
阅读(271)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018