首页>>学生风采>>山东海天软件工程学院司娟娟>>观点>> 对搜索引擎工作原理的认识

对搜索引擎工作原理的认识

作者:司娟娟
日期:2011/5/23 10:12:47

搜索引擎按照工作方式可以分为三种:全文搜索引擎、目录索引类搜索引擎及元搜索引擎。
  另外还有以下几种非主流形式的搜索引擎:
  1.集合式搜索引擎
  2.门户搜索引擎
  3.免费链接列表
 搜索引擎的主要工作页面收录、页面分析、页面排序以及关键字查询。其中常见的搜索引擎收录页面的方式主要有广度优先、深度优先以及用户提交。
  网络蜘蛛通过爬取网页的链接地址来寻找网页,大体上可以分为三个阶段:
  1.爬行和抓取
  2.预处理
  3.排名
  网络蜘蛛访问任何一个网站是,都会先访问根目录下的【robots.txt]文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守,不会来抓取。
  同浏览器一样,搜索引擎蜘蛛也有表明自己身份的代理名称。如Baiduspider+(+http://www.baidu.com/search/spider.htm) 百度蜘蛛
  “ Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) 雅虎中国蜘蛛
  “ Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) 英文雅虎蜘蛛
  “ Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Google蜘蛛
  “ msnbot/1.1 (+http://search.msn.com/msnbot.htm) 微软 Bing蜘蛛
  “ Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07)搜狗蜘蛛
  “ Sosospider+(+http://help.soso.com/webspider.htm) 搜搜蜘蛛
  “ Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; ) 有道蜘蛛

分享