首页>>学生风采>>山东经贸职业学院刘相青>>观点>>搜索引擎对网页抓取过程详解

搜索引擎对网页抓取过程详解

作者:刘相青
日期:2010/12/20 10:58:44

在网络推广中搜索引擎营销被人们看成是重要的推广方式,而事实搜索引擎也是人们获取信息的重要来源,我们在针对搜索引擎网站的收录和评价规律,我们对网站的结构进行合理的调整、对网页的内容也页面的要素包括title、mate、keywords等做出规范的处理,从而使得每个网页上面的信息能够最有效的反应网页所需要表达的信息。
那搜索引擎是如何来收录我们的网站呢,依google为例,google使用两个探测器来抓取网站上面的内容一个是Freshbot和Deepbot。Deepbot每月会出击一次,受访内容在google的主要索引之中,Freshbot会不断的刷新新的网页,并发现新的网页,当发现新的网页时,google之后会频繁的来访,看是否有更新的内容。
根据google的操作模式主要包涵一下几个方面:
(1)抓取状态,不管是百度还是google他们的探测器都是不断的发现新的内容,并进行实时更新。
(2)网页仓库,探测器将收集来的网页集中在一个地方进行储存,然后等待索引的处理。
(3)索引处理,索引会将收集来的网页进行分类的整理、压缩,分类和压缩完成以后然后进行索引的编类,而未被压缩的原始网页资料将会被删除。
(4)索引状态,所以会将压缩好的网页分别放在不同的索引下面。
(5)问询状态,计算机会将用户问询的白话转化成搜索引擎能识别的计算机语言,然后从索引中找到相应的答案。
(6)排名状态,搜索引擎会将相关的答案根据一定的标准进行排列给用户,同时搜索引擎也会将认为最好的答案被推荐到首位,较次的排列其后,以此类推。
                                            文章禁止转载,转载请注明链接(文/刘相青

分享