搜索引擎收录

作者：张翔

日期：2011/12/9 13:27:15

搜索引擎收录是搜索引擎收录一个网站页面具体的数量值，收录的数量越多，收录的时间越快，证明此网站对搜索引擎比较友好。　　目前比较常用的搜索引擎收录有 baidu（百度）google（谷歌）yahoo雅虎） sogou（搜狗）youdao（有道）soso（搜搜）bing (必应）。

收录原理

1、收集待索引网页的url

　　Internet存在的网页数量绝对是个天文数字，每天新增的网页也不计其数，搜索引擎需要首先找到要索引收录的对象。　　具体到Google而言，虽然对GoogleBot是否存在DeepBot与FreshBot的区别存在争议——至于是否叫这么两个名字更是众说纷耘，当然，名字本身并不重要——至少到目前为止。　　主流的看法是，在Google的robots中，的确存在着相当部分专门为真正的索引收录页准备“素材”的robots——在这里我们姑且仍称之为FreshBot吧　　——它们的任务便是每天不停地扫描Internet，以发现并维护一个庞大的url列表供DeepBot使用，换言之，当其访问、读取其一个网页时，目的并不在于索引这个网页，而是找出这个网页中的所有链接。　　——当然，这样似乎在效率上存在矛盾，有点不太可信。不过，我们可以简单地通过以下方式判断：FreshBot在扫描网页时不具备“排它性”。　　也即是说，位于Google不同的数据中心的多个robots可能在某个很短的时间周期，比如说一天甚至一小时，访问同一个页面，而DeepBot在索引、缓存页面时则不会出现类似的情况。　　即Google会限制由某个数据中心的robots来完成这项工作的，而不会出现两个数据中心同时索引网页同一个版本的情况，如果这种说法没有破绽的话，则似乎可以从服务器访问日志中时常可以看到源自不同IP的GoogleBot在很短的时间内多次访问同一个网页证明FreshBot的存在。　　

因此，有时候发现GoogleBot频繁访问网站也不要高兴得太早，也许其根本不是在索引网页而只是在扫描url。　　FreshBot记录的信息包括网页的url、TimeStamp(网页创建或更新的时间戳)，以及网页的Head信息(注：这一点存在争议，也有不少人相信FreshBot不会去读取目标网页信息的，而是将这部分工作交由DeepBot完成。　　不过，笔者倾向于前一种说法，因为在FreshBot向DeepBot提交的url列表中，会将网站设置禁止索引、收录的页面排除在外，以提高效率，而网站进行此类设置时除使用robots.txt外还有相当部分是通过mata标签中的“noindex”实现的，不读取目标网页的head似乎是无法实现这一点的)，如果网页不可访问，比如说网络中断或服务器故障，FreshBot则会记下该url并择机重试，但在该url可访问之前，不会将其加入向DeepBot提交的url列表。　　总的来说，FreshBot对服务器带宽、资源的占用还是比较小的。最后，FreshBot对记录信息按不同的优先级进行分类，向DeepBot提交，根据优先级不同，主要有以下几种：　　A：新建网页;B：旧网页/新的TimeStamp，即存在更新的网页;C：使用301/302重定向的网页;D：复杂的动态url：如使用多个参数的动态url，Google可能需要附加的工作才能正确分析其内容。　　——随着Google对动态网页支持能力的提高，这一分类可能已经取消;E：其他类型的文件，如指向PDF、DOC文件的链接，对这些文件的索引，也可能需要附加的工作; 　　F：旧网页/旧的TimeStamp，即未更新的网页，注意，这里的时间戳不是以Google搜索结果中显示的日期为准，而是与Google索引数据库中的日期比对;G：错误的url，即访问时返回404回应的页面; 　　优先级按由A至G的顺序排列，依次降低。需要强调的是，这里所言之优先级是相对的，比如说同样是新建网页，根据指向其的链接质量、数量的不同，优先级也有着很大的区别，具有源自相关的权威网站链接的网页具有较高的优先级。　　此外，这里所指的优先级仅针对同一网站内部的页面，事实上，不同网站也有有着不同的优先级，换言之，对权威网站中的网页而言，即使其最低优先级的404url，也可能比许多其他网站优先级最高的新建网页更具优势。

参考资料：我的世界

分享到：

能力秀动态

■为期9年共举办18期的大学生网络营销能力秀活动已圆满结束（2009-2018）。能力秀——网络营销开始的地方！祝所有秀友前程似锦！向所有网络营销老师、所有支持能力秀活动的人员和机构、所有为能力秀活动付出辛勤努力的工作人员们表示衷心的感谢并致以崇高的敬意！

每月最热网络营销词条

常见问题解答

搜索引擎收录

收录原理

1、收集待索引网页的url

相关文章

能力秀动态

学生观点