网页相似度

作者:杨哲
日期:2013/10/21 17:28:45

网页相似度是衡量两个网页内容及代源码差异性的一个度量指标。网页相似是指两个网页的内容比较接近,源代码的差异性较小,这种情况经常发生同一模板生成的网页之间。当两个网页的内容都比较少的时候,相似网页就产生了。例如,在博客中,如果用户发布的两篇博客文章内容都只有几个字,那么这两篇博客文章网页的源代码相似度就比较高。同样的道理,在B2B网站平台的供求信息发布、企业网站的产品介绍等栏目中,由于不同网页内容除了产品名称和型号差异之外,大部分信息都是类似的,这样就很容易造成网页相似度高的问题。

分享