首页>>学生风采>>许昌学院贲静>>观点>>网页信息抓取模块

网页信息抓取模块

作者:贲静
日期:2010/5/24 10:42:40

   本文来自:贲静  http://abc.wm23.com/ilovehotses

   新浪博客: http://blog.sina.com.cn/bijing003

   新浪微博 :http://t.sina.com.cn/1735742574

1)种子结点的选取

面向主题的搜索引擎在这一方面的要求是与通用搜索引擎不相同的,由于访问人群的特殊性,对于种子结点的选取主要是要通过调查,尽量选取大型的,专业的官方网站作为种子,这样访问到的数据就会相对比较专业,本系统主要是选取了瑞丽,网易女人,中国品牌服装网等几个比较具有代表性的网页来抓取信息。

2)抓取策略算法

抓取策略算法主要功能就是为了剔除一些与主题无关的网页,以便保证抓取的网页的准确性比较高,不会产生冗余的网络信息,影响后来的操作。在抓取策略的选取中,其根据的是具体的网页的结构,不同的结构对于抓取策略是不同的。

3)静态网页的存储

在确定抓取策略之后,就是运行抓取网页了,抓取到的网页一般都是以.htm结尾的,即静态网页,对于抓取到的这些网页,需要保存到事先指定好的文件路径中,以便后面功能使用。

分享