搜索引擎的发展趋势

作者:刘佳
日期:2010/6/21 17:51:45

 搜索引擎已成为一个新的研究、开发领域,因为它要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用户,在很好的经济价值,所以引起了世界各国计算机科学界和信息产业办的高度关注,目前的研究、开发十分活跃,并出现了很多值得注意的动向:
1.十分注意提高信息查询结果的精度,提高检索的有效性 
    用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。解决查询结果过多的现象目前出现了几中方法:一是通过各种方法获得用户没有在查询语句中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度)哪些不相关,通过多次交互式逐步求精;二是用正文分类(Text Categorization)技术将结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别;三是进行站点类聚或内容类聚,减少信息的总量。 
2.基于智能代理的信息过滤和个性化服务 
    信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型(Web知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过虑和不良信息过虑),并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供个性化的服务。智能代理可以在用户端进行也可以在服务器端运行。 
3.采用分布式体系结构提高系统规模和性能 
    搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。但当系统规模到达一定程度(如网面数达到亿级)时,必然要采用某种颁布式方法,以提高系统性能。搜索引擎和各个组成部分,除一用户接口之外,都可以进行分布:搜索器可以在多强机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可以将索引颁布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提高检索的速度和性能。 
4.重视交叉语言检索的研究和开发 
    交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译,返回结果可以用母语显示。该技术目前还处于初步研究阶段,主要的困难在于语言之间在表达方式和主义对应上的不确定性。但对于经济全球化、互联网跨越国界的今天,具有重要的意义。未来搜索引擎正向专业化、智能化发

分享