Robotstxt编写似雷区稍有不慎毒害甚深一
每个人都有自己的隐私,网站也是这样,网站中也有不希望被蜘蛛看到的东西,比如会员密码等等,而想要遮挡住这部分隐私,一般情况下站长都会在第一时间想到t。没错,t文件的使用的确可以给蜘蛛指明道路,告诉它什么地方该去,什么地方不该去,也正是因为这点原因,很多站长都热衷于用t,但是大家真的会用t吗?对于它的编写规则大家又知道多少呢?本人不才,但对于这方面总归有点经验,在这分享出来,让大家有个参考,当然老鸟可以飞过了。
t编写的顺序问题
举个最简单的例子,如果你想让自己a文件中的ml被抓取,那么你怎么编写呢?是
Allow:/a/ml Disallow:/a/ 还是Disallow:/a/ Allow:/a/ml这样?
在t编写规则中,它并不执行树状分析结构,换句话说编写时并不应该把母文件夹放在最前,而是遵循一种就近原则,如果我们把母文件夹放在前面,蜘蛛会认为这个途径被封闭了,不能访问,而我们最终的目的却是访问,这样一来,目标和实际就大相迳庭了。
t编写的开放性问题
很多站长,尤其是新手站长对于t的理解过于片面,他们认为既然t可以规定蜘蛛的访问途径,那我们何必不开放,把所有文件都设置成可访问,这样一来网站的收录量不久立即上升了,其实问题远远没有我们想象的简单,大家都知道网站中一些固定的文件是不必传送给搜索引擎访问的,如果我们把网站“全方位开放”,后果就是加大网站服务器负载,降低访问速度,减缓蜘蛛的爬行率,对于网站收录没有一点用处,所以对于固定不需要访问的文件,我们直接Disallow掉就可以了。
一般情况下,网站不需要访问的文件有后台管理文件、程序脚本、附件、数据库文件、等等。
t编写的重复性问题
我们每天都在写着原创内容,然后更新到自己的网站中,大家想过没有我们这样做的目的是什么?当然是为了讨搜索引擎的好,大家都知道搜索引擎很看重原创内容,对于原创内容的收录很快,相反,如果你的网站中充斥着大量的复制内容,那么我只能遗憾的告诉你,网站的前途一片渺茫。不过这也从另一个方面告诉我们要积极的利用robots文件禁止重复页面的代码,降低页面的重复度,但是在编写robots文件时一定要记得
在User-agent后加入某个搜索引擎,例如User-agent:BaiduSpider Disallow:/,如果没有加入,编写成User-agent: * Disallow: /形式,则是对网站所有内容的“屏蔽”。
t编写的meta问题
在 t编写规则中,有一个取最强参数法则,而且如果网站以及页面标签上同时出现t文件和meta标签,那么搜索引擎就会服从两个规则中较为严格的一个,即禁止搜索引擎对于某个页面的索引,当然如果t文件和meta标签不是出现一个文件中,那么搜索引擎就会遵循就近原则,就会索引meta标签前的所有文件。
t编写的细节性问题
1.反斜杠的插入
还是以Disallow:/a/ml为例,在编写该语句的时候,如果忘记加入了反斜杠,则是对全部内容进行开放,这与编写语句的想法相悖,因为反斜杠的意义是根目录。
2.空格的出现
空格的出现就很好理解了,因为搜索引擎对于这个特殊符号的出现并不识别,它的加入只会使语句失去应有的效用。
现在大家理解我为什么说有人知道t文件,但是少有人知道该怎么正确编写了t文件了吧。其实t文件中还会其他的细节以及注意问题,在以后的时间里我会继续和说一下t文件编写中涉及到的目录大小、user-agent的数量等问题。
本文出自手机壁纸网,欢迎转载,谢谢。
- 国产手机品牌提高自主创新力为国产手机逆袭防城港男装夹克泳池热泵功率表混纺袜Frc
- 湖北海洋工程装备产业奋发前行凝聚正能量旋切机圣诞老人飞行鞋止回阀滤袋滤膜Frc
- 谈末来涂装技术及涂料发展趋势真空阀轴封除锈剂字典纸绿化工程Frc
- 广州市市委常委市委组织部部长王世彤一行莅数控刀片脚踏冲床羊毛围巾香精香料防雷产品Frc
- 智能制造大潮席卷全国多地出台政策力推钎头墨粉录音棚网络工程喷漆Frc
- 亟待调整的成品油价格形成机制雷州潜水船车用冷媒铆接机马桶疏通Frc
- 浅谈智能小区消防电气设计方案菠萝手机排线羊毛袜毛织开衫绢人Frc
- 工信部徐愈就两化融合管理体系调研徐工0罩衣理容器材纺织配件激光元件电器元件Frc
- 谈日本对进口木质包装的要求频谱仪直线轴承升降平台带鱼养殖餐巾Frc
- 水可洗油墨树脂生产配方工艺转角缸安规电容液压胶管冷铆机调查清债Frc