数据仓库

作者:陈慧礼
日期:2011/11/11 16:15:48

  数据仓库

      数据仓库是面向主题的(subject—oriented)、集成的(integrated)、非违约的(non—volatile)且时变的(time—variant)用于管理和决策制定的数据集。 由此可见,数据仓库是一种分析型数据库,基于标准企业模型集成的、带有时间属性的、面向主题的数据集合,与传统支持查询为主的事务性操作数据库有着本 质区别,具备以下四个特征:

(1)面向主题

    主题是一个抽象的概念。基于主题组织的数据,根据领域的逻辑内涵,分为独立的领域,互不交叉,并形成相应的数据视图,汇总表等,因此适于联机分析

处理(0LAP)。

(2)集成化

    当数据从面向应用提取到数据仓库时,由于命名冲突、数据结构转换等的冲突,需要对原有数据进行抽取、清理、加工,形成一致的命名、变量度量、编码结构、物理属性等。  

(3)非违约性

    由于数据仓库中的数据是历史数据, 当数据集成到数据仓库后,不需要更改。仅限于装数据和访问数据;并不存在数据恢复,数据同步,修复死锁等复杂问题。

(4)时变性

    出于决策的需要,数据仓库中的数据需要标明时间参数,并随时间不断变化,即随着时间变化,不断有新的数据内容添加;不断导出和删除没用的数据内容;不断地重新综合数据。

     有些人认为数据仓库是一个大型的数据存储机制,似乎数据仓库是一个静态的概念。事实上,数据仓库是一个工程的概念,是一个动态的概念。数据仓库的根本任务是把数据加以整理归纳,并及时提供给相应的管理决策人员,供他们做出改善其业务经营的决策,使信息发挥作用,支持决策。

 1 客户跟踪

   网站在你不知不觉中记录你的行踪,抓到你的喜好。如果你在网上点击一下衬衫,之后又看了一下裤子。网站就会记住你的点击顺序,记下你在每个产品上停留的时间以及你买了什么,没买什么,这些信息都由数据仓库保存整理。有了数据仓库,就可以了解客户是谁,他要什么,怎样提供更好的服务给他,并以此创造更多利润。

2 控制商品库存

   美国沃马特连锁店是世界上最大的零售公司。几年来他们的数据仓库规模从6万亿字节增加到现在的100万亿字节,与此同时,公司实现了存货少效益高的良性循环,一直保持着行业领头羊地位。利用数据仓库,可以通过网上供货商随时补充货源,实现对库存商品更有效的控制,达到最小库存量。

3 减少跳线率

   数据仓库在航空、银行、电信等行业也发挥了巨大作用。当行业出现竞争时,就会出现一种叫“跳线”的现象,也就是客户从甲公司跳到乙公司,三个月后,他又回到了甲公司。这种现象使企业浪费了巨额资金。如果有了数据仓库,就能预测“跳线”,知道谁可能跳线到竞争对手那里去。在客户跳走之前,公司就可以和他们接触一下,劝他们不要离开。这样减少跳线率的收益将是十分巨大的。

4  一对一服务

   新一代一对一的商业模式是侧重客户的需求,以信息定制产品,没有数据仓库,这种一对一的商业模式就不可能实现。随着一对一的销售和个性化的销售正逐渐成为企业利润增长的重要来源, 数据仓库也将是造成电子商务时代企业竞争差异的关键。忽视数据仓库系统的建设,等于漠视企业客户资源的流失,相信任何一个企业都不得不考虑这个问题,尤其是那些面对急剧扩张的客户群而束手无策的电子商务企业。

5  决策信息服务

   数据仓库有效集成了企业的业务数据,提供了标准的报表和图表的功能,从而为企业提供了多方位的决策支持。数据仓库可以按照面向主题的原则对这些数据进行清洗和加工,使它们成为统一格式的易于使用的支持决策的数据。多维分析通过把一个实体的多项重要的属性定义为多个维度,使得用户能方便地汇总数据集,简化了数据的分析处理逻辑,并能对不同维度值的数据进行比较,而维度则表示了对信息的不同理解角度,例如时间和地理区域是经常采用的维度。应用多维分析可以在一个查询中对不同阶段的数据进行纵向或横向比较,这在决策过程中作用非常明显。在数据仓库的基础上进行数据挖掘,可以针对整个企业的状况和未来发展做出比较完整、合理、准确的分析和预测。

分享