律师网站优化:robots文件有什么作用?

  • 2017-06-26
  • 3557

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,尽管只要放在根域名目录下,未设置系统级目录访问权限的文件爬虫都可以抓取的到,但网站跟搜索引擎间如果没有协议,将使不可预知的大量信息泄露到网上,这不是双方愿意看到的。这种约定说到本质是人与人之间的君子约定。除此外,它还有跟nofollow一样提升SEO效率的功用,后面律师建站展开来说。

为何说robots有助提高SEO效率呢?其一,它的有条件限制抓取可以起到集中蜘蛛资源到用以展示的有价值页面上去,不浪费蜘蛛资源。比如动态页跟静态页共存,如果不加限制就是重复抓取,浪费资源,其二对搜索引擎不友好,重复页面会导致整站质量下降,流量受损,由于程序原因或其他原因造成的404也是很不友好的的种页面类型,需要屏蔽。让搜索引擎需要花时间耗资源处理低质内容很显然不是个好主意。如果占比超过某一限度,就会降低站点评分。其三robots中也体现着经营策略,可能有不以搜索引擎为业务来源的页面,屏蔽掉是对自我的保护以及集权到依靠SEO的页面去。等。对于小站点,robots很好设置,但对于大型站点,robots本身都体现着对整站架构,经营策略的合理评估及资源的科学配置,成本的有效控制。这并非耸人听闻。想想淘宝无数的子站点形成的站群,可不能随随便便应付一个robots。
robots的实际运用,写法
通常,除打算展示给访客外的所有文件都需要在robots中进行屏蔽。写法规则:

1.文件路径全部小写。
2.规则名首字母大写。
3.规则名关键词:User-agent,Disallow,Allow。

4.
1> User-agent: *【定义搜索引擎。一般情况下,网站里面都是:User-agent: *,这里*的意思是所有,表示定义所有的搜索引擎。比如,我想定义百度,那么就是User-agent: Baiduspider;定义google,User-agent: Googlebot】。

2> Disallow 【禁止爬取】

3> Allow 【允许】

4> $ 结束符【Disallow: .aspx$ 这句话就是屏蔽所有的以.aspx结尾的文件,不管它前面是什么样子】。

5> * 【0或多个任意字符。Disallow: *?* 这个是屏蔽所有带“?”的文件,可以这样屏蔽所有的动态路径】。

5.robots文件里语法的顺序是从上到下匹配

,先允许后禁止,禁止写在前会使Allow失效。另外注意:User-agent,Allow,Disallow的“:”后面有一个字符的空格。
6.robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符)。
7.robots文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。
User-agent:该项的值用于描述搜索引擎robot的名字。在'robots.txt'文件中,如果有多条User-agent记录说明有多个robot会受到'robots.txt'的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在'robots.txt'文件中,'User-agent:*'这样的记录只能有一条。如果在'robots.txt'文件中,加入'User-agent:SomeBot'和若干Disallow、Allow行,那么名为'SomeBot'只受到'User-agent:SomeBot'后面的 Disallow和Allow行的限制。

Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀, 以Disallow项的值开头的URL不会被 robot访问。例如'Disallow:/help'禁止robot访问/help.html、/helpabc.html、/help/index.html,而'Disallow:/help/'则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。'Disallow:'说明允许robot访问该网站的所有url,在'/robots.txt'文件中,至少要有一条Disallow记录。如果'/robots.txt'不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如'Allow:/hibaidu'允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

使用'*'and'$':Baiduspider支持使用通配符'*'和'$'来模糊匹配url。

'*' 匹配0或多个任意字符

'$' 匹配行结束符。

相关阅读

律师网站优化:图片的alt标签对SEO的影响

律师网站优化中内链及外链的布局方法

律师网站优化:利用专题页、栏目页等SEO优化来抢占法律长尾词排名

律师网站优化之关键词应该怎么优化?

律师网站优化:如何选择正确的关键词

成都律品科技有限公司专注律师互联网营销技术服务,创始人员2009年开始从事律师行业互联网技术开发、营销运营工作已十年,2018年公司正式成立,不断探索律师行业服务需求,致力于为律师行业提供透明、优质的服务,现已为全国多家律师事务所、律师团队提供互联网技术及营销支持。

在线咨询
  • 152-0832-9147

  • 105991110

全时在线,如未回复请留下联系方式

微信咨询