搜索引擎工作原理

作者：赵倩倩

日期：2013/10/10 8:35:44

1、全文搜索引擎
　　搜索引擎的自动信息搜集功能分两种。一种是定期搜索，即每隔一段时间（比如Google一般是28天），搜索引擎主动派出“蜘蛛”程序，对一定IP地址范围内的互联网站进行检索，一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库。
　　另一种是提交网站搜索，即网站拥有者主动向搜索引擎提交网址，它在一定时间内（2天到数月不等）定向向你的网站派出“蜘蛛”程序，扫描你的网站并将有关信息存入数据库，以备用户查询。
　　当用户以关键词查找信息时，搜索引擎会在数据库中进行搜寻，如果找到与用户要求内容相符的网站，便采用特殊的算法——通常根据网页中关键词的匹配程度，出现的位置/频次，链接质量等——计算出各网页的相关度及排名等级，然后根据关联度高低，按顺序将这些网页链接返回给用户。
　　2、目录索引
　　搜索引擎属于自动网站检索，而目录索引则完全依赖手工操作。用户提交网站后，目录编辑人员会亲自浏览你的网站，然后根据一套自定的评判标准甚至编辑人员的主观印象，决定是否接纳你的网站。
　　其次，搜索引擎收录网站时，只要网站本身没有违反有关的规则，一般都能登录成功。而目录索引对网站的要求则高得多。
　　此外，在登录搜索引擎时，我们一般不用考虑网站的分类问题，而登录目录索引时则必须将网站放在一个最合适的目录。
　　最后，搜索引擎中各网站的有关信息都是从用户网页中自动提取的，所以用户的角度看，我们拥有更多的自主权；而目录索引则要求必须手工另外填写网站信息，而且还有各种各样的限制。
　　目录索引，顾名思义就是将网站分门别类地存放在相应的目录中，因此用户在查询信息时，可选择关键词搜索，也可按分类目录逐层查找。
　　3、搜索引擎三定律
　　第一定律相关性定律
　　当用户输入检索词时，搜索引擎去找那些检索词在文章（网页）中出现频率较高的，位置较重要的，再加上一些对检索词本身常用程度的加权，最后排出一个结果来(检索结果页面) 。早期的搜索引擎结果排序都是基于本文的第一定律的，如Infoseek，Excite，Lycos等，它们基本上是沿用了网络时代之前学术界的研究成果，工业界的主要精力放在处理大访问量和大数据量上，对相关性排序没有突破。
　　第二定律人气质量定律
　　科学引文索引的机制，说白了就是谁的论文被引用次数多，谁就被认为是权威，论文就是好论文。这个思路移植到网上就是谁的网页被链接次数多，那个网页就被认为是质量高，人气旺。在加上相应的链接文字分析，就可以用在搜索结果的排序上了。这就引出了搜索引擎的第二定律：人气质量定律。根据这一定律，搜索结果的相关性排序，并不完全依赖于词频统计，而是更多地依赖于超链分析。
　　第三定律自信心定律
　　GoTo最早实践了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM来收费的，而CPM是从传统广告业借鉴过来的，没有考虑网络媒体即时性，交互性，易竞价的特点，而竞价排名，点击收费则是为网站拥有者直接提供销售线索，而不是传统意义上的广告宣传。自信心定律一改过去搜索引擎靠CPM收钱的尴尬局面，开创了真正属于互联网的收费模式。
　　在中国，百度一直致力于推动搜索引擎市场的培植和发展，现在，我们联合了各大门户网站的搜索引擎，一起通过百度的竞价排名系统来实践搜索引擎的第三定律，为数十万网站的拥有者提供一个展示自信心，吸引潜在客户，发现销售线索的平台。

分享到：

能力秀动态

■为期9年共举办18期的大学生网络营销能力秀活动已圆满结束（2009-2018）。能力秀——网络营销开始的地方！祝所有秀友前程似锦！向所有网络营销老师、所有支持能力秀活动的人员和机构、所有为能力秀活动付出辛勤努力的工作人员们表示衷心的感谢并致以崇高的敬意！

每月最热网络营销词条

常见问题解答

搜索引擎工作原理

相关文章

能力秀动态

学生观点