网页信息抓取模块
本文来自:贲静 http://abc.wm23.com/ilovehotses
新浪博客: http://blog.sina.com.cn/bijing003
新浪微博 :http://t.sina.com.cn/1735742574
(1)种子结点的选取
面向主题的搜索引擎在这一方面的要求是与通用搜索引擎不相同的,由于访问人群的特殊性,对于种子结点的选取主要是要通过调查,尽量选取大型的,专业的官方网站作为种子,这样访问到的数据就会相对比较专业,本系统主要是选取了瑞丽,网易女人,中国品牌服装网等几个比较具有代表性的网页来抓取信息。
(2)抓取策略算法
抓取策略算法主要功能就是为了剔除一些与主题无关的网页,以便保证抓取的网页的准确性比较高,不会产生冗余的网络信息,影响后来的操作。在抓取策略的选取中,其根据的是具体的网页的结构,不同的结构对于抓取策略是不同的。
(3)静态网页的存储
在确定抓取策略之后,就是运行抓取网页了,抓取到的网页一般都是以.htm结尾的,即静态网页,对于抓取到的这些网页,需要保存到事先指定好的文件路径中,以便后面功能使用。
能力秀动态
■为期9年共举办18期的大学生网络营销能力秀活动已圆满结束(2009-2018)。能力秀——网络营销开始的地方!祝所有秀友前程似锦!向所有网络营销老师、所有支持能力秀活动的人员和机构、所有为能力秀活动付出辛勤努力的工作人员们表示衷心的感谢并致以崇高的敬意!