在08年闹得沸沸扬扬的关于淘宝使用robots协议屏蔽百度蜘蛛的事件,想必有经历过那个事件的人现在还记忆犹新,淘宝以有不良的商家会通过百度的进行竞价排名或者搜索引擎优化的方式来欺骗消费着的原因,无情的拒绝了百度的搜索引擎,而通过的方法就是使用robots协议屏蔽百度。如下图所示。
我们可以看到,淘宝已经在robots中拒绝了百度蜘蛛对整个站点的索引与收录。事件已经过去四年左右了,那结果真的就是百度无法抓取淘宝的页面吗?事实是,百度并没有遵守robots协议,还是对淘宝的部分页面进行了抓取。如下图所示。
上图我们可以发现,淘宝的很多页面还是依然被百度抓取着。对于百度为什么要不遵守robots协议,执意进行淘宝页面的抓取呢?笔者认为这是一个战略方向的问题,我们都知道目前淘宝是目前国内互联网上最大的电子商务平台,其起着举足轻重的地位。我们继续查了一下,在淘宝上出名的店铺,如韩都衣舍在百度上也有不错的排名。注意证明百度对与淘宝的关注度。同时我们发现淘宝近期才把名字改成天猫的淘宝商城同时也屏蔽了百度,如下图所示。
结果是一样的,天猫依然被抓取了。
对于这种结果的原因还有一点就是可能是因为天猫的权重太高,于是乎百度打破协议进行索引抓取。
另外一个不准守协议的就是一淘网,有关注电子商务站点资讯的人就应该知道,京东商城,新蛋网等也有通过robots进行对一淘网的屏蔽,如下图所示。但是我们依然可以在一淘中找到这些站点的相关页面。
笔者认为国内的互联网目前还处于一个相对混乱的模式,很多企业都不遵守相关的协议,这是值得我们进行反思的,笔者认为作为一个互联网的巨头,应该从自我做起来起到一个互联网行业的榜样作用。本文由深圳网站建设http://www.zijiren.net 整理编辑,转载请保留出处。
此文章由 http://www.ositren.com 收集整理 ,地址为: http://www.ositren.com/htmls/28810.html