百度“分词”经验

作者:余淼
日期:2014/3/18 18:05:23


? ? 对关键词和长尾关键词的一个准确精细的分词,是做关键词排名的第一步。很多人可能对于“分词”这个东西没什么概念,那么我们首先就先对“分词”做一个背景介绍吧。百度作为目前最大的中文搜索引擎,和谷歌相比,百度的成功可能就主要在于百度的中国人做的,就像百度的口号一样,“更懂你的百度”。能够根据用户搜索的关键词如此快速地查找到用户真正想要信息,百度这是在运用了一种就做“分词”的技术,根据搜索的中文内容对内容进行主要,次要的排序和切分,精确地定位到用户真正想要的信息,这就是百度的分词技术。
? ? 接下来要介绍的就是一些百度算法中用到的一些核心的“分词”技术。中文分词是百度算法的核心要素。按中文语法习惯,三个字(含三个字)以下的文字符是独立精准的词汇,没有重组的必要,所以百度对三个字(含三个字)以下的文字符不考虑细分。这也是百度核心算法的第一层,也是响应数量最多的部分。一般这些文字符更新的时间比较慢一些,一周或两周的时间,属于大更新的范畴。但是对于四个字符的百度就会毫不客气地将其拆分,例如“网络营销”这个文字串,当用户发出搜索请求后,会发现在搜索结果里面出现了红色的标记,已经把这个文字符分成了“网络,营销”。当然如果是四个字以上的文字串就更不用说了。会被细分成更多的分词。
? ? 以上所说的基本就是关于百度“分词”技术的所有内容了,但是正如我们所知的,百度的强大在于它的不断更新,与时俱进,虽然百度的算法可能每天都在变,但是相信这个技术的核心思想还是不会变动太大的,所以,广大的seoer啊,一定要把“分词”技巧学好啊。以上纯粹我个人的见解,如果有不同意见或补充者,随时欢迎。

分享