首页>>学生风采>>山东海天软件工程学院纪怀宝>>观点>>网络营销新视野——搜索引擎原理(1)

网络营销新视野——搜索引擎原理(1)

作者:纪怀宝
日期:2011/5/23 9:20:59

一、      搜索引擎工作原理简介

搜索引擎的工作过程:

网络蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页, 这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。当抓取到这些网页后,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在 URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。建立网页索引数据库后,当用户输入关键词搜索,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

最后,由检索器将搜索结果的链接地址和页面内容摘要等内容组织起来,返回给用户。

大体上可以分成三个阶段:

1、        爬行和抓取:搜素引擎蜘蛛通过跟踪链接访问网页,获得页面html代码存入数据库。

2、        预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。

3、        排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。

分享