搜索引擎收录

作者:张翔
日期:2011/12/9 13:27:15

 搜索引擎收录是搜索引擎收录一个网站页面具体的数量值,收录的数量越多,收录的时间越快,证明此网站对搜索引擎比较友好。   目前比较常用的搜索引擎收录有 baidu(百度)google谷歌yahoo雅虎) sogou(搜狗)youdao(有道)soso(搜搜)bing (必应)。

收录原理

1、收集待索引网页的url

  Internet存在的网页数量绝对是个天文数字,每天新增的网页也不计其数,搜索引擎需要首先找到要索引收录的对象。   具体到Google而言,虽然对GoogleBot是否存在DeepBot与FreshBot的区别存在争议——至于是否叫这么两个名字更是众说纷耘,当然,名字本身并不重要——至少到目前为止。   主流的看法是,在Google的robots中,的确存在着相当部分专门为真正的索引收录页准备“素材”的robots——在这里我们姑且仍称之为FreshBot吧   ——它们的任务便是每天不停地扫描Internet,以发现并维护一个庞大的url列表供DeepBot使用,换言之,当其访问、读取其一个网页时,目的并不在于索引这个网页,而是找出这个网页中的所有链接。   ——当然,这样似乎在效率上存在矛盾,有点不太可信。不过,我们可以简单地通过以下方式判断:FreshBot在扫描网页时不具备“排它性”。   也即是说,位于Google不同的数据中心的多个robots可能在某个很短的时间周期,比如说一天甚至一小时,访问同一个页面,而DeepBot在索引、缓存页面时则不会出现类似的情况。   即Google会限制由某个数据中心的robots来完成这项工作的,而不会出现两个数据中心同时索引网页同一个版本的情况,如果这种说法没有破绽的话,则似乎可以从服务器访问日志中时常可以看到源自不同IP的GoogleBot在很短的时间内多次访问同一个网页证明FreshBot的存在。   

因此,有时候发现GoogleBot频繁访问网站也不要高兴得太早,也许其根本不是在索引网页而只是在扫描url。   FreshBot记录的信息包括网页的url、TimeStamp(网页创建或更新的时间戳),以及网页的Head信息(注:这一点存在争议,也有不少人相信FreshBot不会去读取目标网页信息的,而是将这部分工作交由DeepBot完成。   不过,笔者倾向于前一种说法,因为在FreshBot向DeepBot提交的url列表中,会将网站设置禁止索引、收录的页面排除在外,以提高效率,而网站进行此类设置时除使用robots.txt外还有相当部分是通过mata标签中的“noindex”实现的,不读取目标网页的head似乎是无法实现这一点的),如果网页不可访问,比如说网络中断或服务器故障,FreshBot则会记下该url并择机重试,但在该url可访问之前,不会将其加入向DeepBot提交的url列表。   总的来说,FreshBot对服务器带宽、资源的占用还是比较小的。最后,FreshBot对记录信息按不同的优先级进行分类,向DeepBot提交,根据优先级不同,主要有以下几种:   A:新建网页;B:旧网页/新的TimeStamp,即存在更新的网页;C:使用301/302重定向的网页;D:复杂的动态url:如使用多个参数的动态url,Google可能需要附加的工作才能正确分析其内容。   ——随着Google对动态网页支持能力的提高,这一分类可能已经取消;E:其他类型的文件,如指向PDF、DOC文件的链接,对这些文件的索引,也可能需要附加的工作;   F:旧网页/旧的TimeStamp,即未更新的网页,注意,这里的时间戳不是以Google搜索结果中显示的日期为准,而是与Google索引数据库中的日期比对;G:错误的url,即访问时返回404回应的页面;   优先级按由A至G的顺序排列,依次降低。需要强调的是,这里所言之优先级是相对的,比如说同样是新建网页,根据指向其的链接质量、数量的不同,优先级也有着很大的区别,具有源自相关的权威网站链接的网页具有较高的优先级。   此外,这里所指的优先级仅针对同一网站内部的页面,事实上,不同网站也有有着不同的优先级,换言之,对权威网站中的网页而言,即使其最低优先级的404url,也可能比许多其他网站优先级最高的新建网页更具优势。

参考资料:我的世界

分享