欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    数据仓库之路FAQ.docx

    • 资源ID:1027516       资源大小:147.97KB        全文页数:23页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据仓库之路FAQ.docx

    数据仓库之路FAQ数据仓库之路FAQyiyiya2002年10月FAQ目录一、 与数据仓库有关的几个概念21.1 目录2二、 数据仓库产生的原因5三、 数据仓库体系结构图7四、 数据仓库设计84.1 数据仓库的建模84.2 数据仓库建模的十条戒律:8五、 数据仓库开发过程95.1 数据模型的内容95.2 数据模型转变到数据仓库95.3 数据仓库开发成功的关键10六、 数据仓库的数据采集106.1 后台处理116.2 中间处理126.3 前台处理126.4 数据仓库的技术体系结构126.5 数据的有效性检查146.6 清除与转换数据146.7 简单变换156.8 清洁与刷洗176.9 集成176.10 聚集与概括196.11 移动数据19七、 如何建立数据仓库207.1 数据仓库设计217.2 数据抽取模块217.3 数据保护模块22与数据仓库有关的几个概念1.1目录 Datawarehouse Datamart OLAP ROLAP MOLAP ClientOLAP DSS ETL Adhocquery EIS BPR BI Datamining CRMMetaDataDatawarehouse本世纪80年代中期,“数据仓库之父"WilliamHJnmon先生在其建立数据仓库一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理与决策中面向主题的、集成的、与时间有关的、不可修改的数据集合。与其他数据库应用不一致的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工与分析的过程。而不是一种能够购买的产品。Datamart即数据集市,或者者叫做“小数据仓库”。假如说数据仓库是建立在企业级的数据模型之上的话。那么数据集市就是企业级数据仓库的一个子集,他要紧面向部门级业务,同时只面向某个特定的主题。数据集市能够在一定程度上缓解访问数据仓库的瓶颈。OLAP联机分析处理(OLAP)的概念最早是由关系数据库之父E.ECodd于1993年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此Codd提出了多维数据库与多维分析的概念,即OLAPoCodd提出OLAP的12条准则来描述OLAP系统:准则1OLAP模型务必提供多维概念视图准则2透明性准则准则3存取能力推测准则4稳固的报表能力准则5客户/服务器体系结构准则6维的等同性准则准则7动态的稀疏矩阵处理准则准则8多用户支持能力准则准则9非受限的跨维操作准则10直观的数据操纵准则11灵活的报表生成准则12不受限的维与聚集层次ROLAP基于COdd的12条准则,各个软件开发厂家见仁见智,其中一个流派,认为能够沿用关系型数据库来存储多维数据,因此,基于稀疏矩阵表示方法的星型结构(starschema)就出现了。后来又演化出雪花结构。为了与多维数据库相区别,则把基于关系型数据库的OLAP称之RelationalOLAP,简称Re)LAP。代表产品有InformixMetaCUbe、MicrosoftSQLServerOLAPServices.MOLAP严格遵照Codd的定义,自行建立了多维数据库,来存放联机分析系统数据的ArborSOftWare,开创了多维数据存储的先河,后来的很多家公司纷纷使用多维数据存储。被人们称之MuiltDimensionC)LAP,简称MOLAP,代表产品有HyPeriOn(原Arborsoftware)ESSbaSe、ShowcaseSTRATEGYoClientOLAP相关于SerVerOLAP而言。部分分析工具厂家建议把部分数据下载到本地,为用户提供本地的多维分析。代表产品有BrioDesigner,BusinessObject.DSS决策支持系统(DecisionSupportsystem),相当于基于数据仓库的应用。决策支持就是在收集所有有关数据与信息,通过加工整理,来为企业决策管理层提供信息,为决策者的决策提供根据。ETL数据抽取(EXtract)、转换(Transform)、清洗(Cleansing)装载(LOad)的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,通过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。Adhocquery即席查询,数据库应用最普遍的一种查询,利用数据仓库技术,能够让用户随时能够面对数据库,获取所希望的数据。EIS领导信息系统(ExecutiveInformationSyStem),指为了满足无法专注于计算机技术的领导人员的信息查询需求,而专门制定的以简单的图形界面访问数据仓库的一种应用。BPR业务流程重整(BusinessProcessReengineering),指利用数据仓库技术,发现并纠正企业业务流程中的弊端的一项工作。数据仓库的重要作用之一。BI商业智能(BUSineSSlnIigenCe),指数据仓库有关技术与应用的通称。指利用各类智能技术,来提升企业的商业竞争力。Datamining数据挖掘,DalaMining是一种决策支持过程,它要紧基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,作出正确的决策CRM客户关系管理(CUStOmerRelatiOnShiPmanagement),数据仓库是以数据库技术为基础但又与传统的数据库应用有着本质区别的新技术,CRM就是基于数据仓库技术的一种新应用。但是,从商业运作的角度来讲,CRM事实上应该算是一个古老的“应用”了。比如I,酒店对客人信息的管理,假如某个客人是某酒店的老主顾,那么该酒店很自然地会明白这位客人的某些习惯与喜好,如是否喜欢靠路边,是否吸烟,是否喜欢大床,喜欢什么样的早餐,等等。当客人再次光临时,不用客人自己提出来,酒店就会提供客人所喜欢的房间与服务。这就是一种CRM.MetaData元数据,关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等有关的关键数据。同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善储存,并很好地管理。为数据仓库的进展与使用提供方便。、数据仓库产生的原因事务处理环境不适宜DSS应用的原因要紧有下列五条:(1)事务处理与分析处理的性能特性不一致。在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短;在分析处理环境中,用户的行为模式与此完全不一致,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。将具有如此不一致处理性能的两种应用放在同一个环境中运行显然是不适当的。(2)数据集成问题。DSS需要集成的数据。全面而正确的数据是有效的分析与决策的首要前提,有关数据收集得越完整,得到的结果就越可靠。当前绝大多数企业内数据的真正状况是分散而非集成的。造成这种分散的原因有多种,要紧有事务处理应用分散、“蜘蛛网”问题、数据不一致问题、外部数据与非结构化数据。(3)数据动态集成问题。静态集成的最大缺点在于,假如在数据集成后数据源中数据发生了变化,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。集成数据务必以一定的周期(比如24小时)进行刷新,我们称其为动态集成。显然,事务处理系统不具备动态集成的能力。(4)历史数据问题。事务处理通常只需要当前数据,在数据库中通常也是存储短期数据,切不一致数据的储存期限也不一样,即使有一些历史数据储存下来了,也被束之高阁,未得到充分利用。但关于决策分析而言,历史数据是相当重要的,许多分析方法务必一大量的历史数据为依托。没有历史数据的全面分析,是难以把握企业的进展趋势的。DSS对数据在空间与时间的广度上都有了更高的要求,而事务处理环境难以满足这些要求。(5)数据的综合问题。在事务处理系统中积存了大量的细节数据,通常而言,DSS并不对这些细节数据进行分析。在分析前,往往需要对细节数据进行不一致程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往由因此一种数据冗余而加以限制。要提高分析与决策的效率与有效性,分析型处理及其数据务必与操作型处理及其数据相分离。务必把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储与组织技术。三、数据仓库体系结构图中 O做 M ”铁箱整9仓方ttK*<r”分析数据仓库结构的元件UsingSuikingData Wardwuse DesignData Mart DesignOperationalDataDataTransformationsData Martso>QJQ£WEnd-User ToolsDBSchemaTransformationSChedUMngOLAPMicrosoftReDositorvDataWarehouseManagementData Flow.i¾Dni¾ .z9W四、数据仓库设计4.1 数据仓库的建模 数据模型D所有的实体都是平等关系。2)仅仅从数据模型的角度来着手设计数据仓库会产生一种“平面”效应。 星型连接1)事实表:位于星型连接的中央,它是被大量载入数据的实体。2)维表:周围的其它实体。3)在很多情况下:文本数据与数值数据是分离开的。通过数据预连接与建立有选择的数据冗余,设计者为访问与分析过程大大简化了数据。星型连接应用于设计数据仓库中很大的实体,而数据模型则应用于数据仓库中较小的实体。4.2数据仓库建模的十条戒律:D务必回答紧迫的问题;2)务必有正确的事实表;3)将有正确的维表,描述务必按最终用户的业务术语表达;4)务必懂得数据仓库所影响的公司过程或者影响数据仓库的公司过程;5)关于事实表,应该有正确的“粒度”;6)根据需要存储正确长度的公司历史数据;7)以一种关于公司有意义的方式来集成所有必要的数据;8)创建必要的总结表;9)创建必要的索引;10)能够加载数据仓库数据库并使它以种适宜的方式可用。五、数据仓库开发过程建立或者获得企业的数据模型;定义记录系统;设计数据仓库并按主题领域进行组织;设计与建立操作型环境中的记录系统与数据仓库之间的接口,这些接口能保证数据仓库的载入工作能有序的进行;开始载入第一个主题领域,进入载入与反馈过程,数据仓库中的数据在此过程中也在不断地改变。5.1 数据模型的内容 标识要紧主题领域。 各个要紧主题之间的各类关系。 清晰地定义模型的边界。 把原始数据与导出数据分离。 每个主题领域需要标识/键码/属性,属性分组之间的关系 多重出现的数据 数据的类型5.2 数据模型转变到数据仓库 假如原先没有的时候间元素的话,时间元素务必加入到键码结构中 务必清除所有的纯操作型数据 需要将参照完整性关系转换成“人工关系” 将经常需要用到的到处数据假如到设计中 对数据的结构进行调整,增加数据阵列/增加数据冗余,在合适的情况下进一步分离数据/在合适的时候合并数据表 需要做数据的稳固性分析5.3 数据仓库开发成功的关键关键:是数据体系结构设计者与DSS分析者之间的反馈循环。有几点观察结果对数据仓库环境的成功建立是至关重要的问题: DSS分析人员一定要严格遵循“给我我所要的东西,然后我能告诉你我真正需要的东西”的工作模式; 反馈循环的周期越短,越有可能成功; 需要调整的数据量越大,反馈循环所需要的周期就越长六、数据仓库的数据采集许多部件构成了数据仓库系统。这个系统从现有的操作系统开始,一部分为支持数据仓库而设的后台处理,以访问与运用数据仓库内数据的用户工具而结束。在中间是个分散过程,它使数据以一种局部而不是集中的方式来支持用户。至于其他系统,则是覆盖这些处理过程技术的基础,如安全系统,它不仅操纵着在终端数据仓库的输入过程,还操纵着用户在数据仓库的前台访问能力。数据仓库处理的部件如图:后置处理中间处理前置处理6.1 后台处理数据仓库系统的后台处理利用了操作系统的数据存储器,以进入数据仓库内占有活动区域:这个处理包含下列几个部分: 数据处理为数据仓库收集数据的过程是从当前操作系统开始的。该数据仓库的后台处理需要被分成可管理的几个处理模块。操作系统生成务必处理与输入到数据仓库的事务。在数据仓库系统的结构内务必有一种方法来截取与收集那些在操作系统内已改变的数据,要紧用于数据仓库的输入处理。 数据采集在收集到操作数据存储器内的变化后,数据仓库的后台处理务必采集所有同往常收集的事务有关的数据。数据采集过程通常仅仅获取驱动数据采集过程的关键信息。数据制备成事务库并用它来更新与供给数据仓库系统。这个过程在整个数据仓库系统中是最复杂的,由于用户正处理多种遗留数据源。这些数据源中的一些较为容易使用,而大部分则不是这样。6.2 中间处理数据仓库系统的中间处理利用了一个登台区域来完成在数据仓库中对用户游泳的数据。登台区域有的时候被叫正式地指定为操作数据存储器。 数据清理在收集到所有从操作系统存储器得来的有关信息后,数据务必在放入数据仓库之前进行清理,以获得一个适当的统一的格式与定义。 数据的放置与分发当完成数据清理后,数据就务必放置到数据仓库中。 标准报表的编译与索引在数据已放入数据仓库数据存储器之后,对包含于数据仓库系统内的标准报表务必进行编译与索引。在这个过程结束后,报表很像数据仓库内的原始数据,将让用户在线有用,不必用纸张的形式发送。中间处理更新了数据仓库中登台区域的数据,并使之成为可供最终客户,也就是数据仓库系统的用户使用的信息库。6.3 前台处理前台处理过程涉及到同意用户对数据仓库所包含的信息进行正确的访问,及提供用户工具集所需的目录与中间数据信息。大多数数据仓库项目的目标应当是促使这一过程进入强大的用户领域,并脱离信息系统空间。然而,需要构造几个关键的应用程序以用于经验不足的数据仓库用户。该过程的任务包含用新的信息内容来更新访问数据仓库的应用程序,通过适当的用户工具组内的视图或者分类定义来提高访问能力。6.4 数据仓库的技术体系结构尽管普遍认为数据仓库系统能够改善最终用户查询、报表生成与DSS能力,而且能帮助组织投入公司数据以获取市场竞争优势,但在数据仓库系统构成方面看法却不尽相同。数据仓库的技术体系结构如下图:源数据外部数据管理模块 设计模块:用于设计数据仓库数据库 数据获取模块:用于从源文件与源数据库中获取数据,并进行清洁、传输,将它加到数据仓库数据库中 管理模块:用于管理数据仓库的运行 信息目录模块:用于为管理者与企业用户提供有关存储在数据仓库数据库中的数据的内容与含义信息 数据访问模块:用于为企业的最终用户提供访问与分析数据仓库数据的工具 中间件模块:用于最终用户工具提供访问数据仓库数据库的方法 数据传递模块:用于向其他仓库与外部系统中分配数据仓库数据数据仓库的三个重要构成部分,专家们通常把整个数据仓库的建设按照其不一致性质,把它分为三个截然不一致的部分,分别是:源数据、数据准备、与数据呈现。现在讲的最多的OLAP分析与决策支持等,都是属于数据呈现的部分,下面我们来讲一讲数据准备阶段的问题。6.5 数据的有效性检查为避免数据冗余,要认识到数据装入数据仓库之前,应该对数据进行有效性检查,这是很重要的。假如没有进行刃具的有效性检查,就有可能破坏依靠于数据仓库的商务分析的完整性,帮助检查数据的有效性的最好方法是源系统专家。源系统专家包含具有技术专业知识与非技术知识的人士。检查数据仓库中数据的有效性是一个非常耗时但必不可少的过程。建议该过程应高度自动化。SQLSerVer7中有许多内置功能,可自动进行数据有效性检查。6.6 清除与转换数据有效性检查是决定是否符合给定标准的过程。标准是依靠于安装的,为某个站点开发与执行的标准可能在其他地方毫无意义。假如数据不在给定的界限之内,它就成为我们称作scrubbing(清除)过程的对象。清除数据包含对那些在给定范围之外的数据采取纠正措施。数据仓库中的数据来自于多种业务数据源,这些数据源可能是在不一致的硬件平台上,使用不一致的操作系统,因而数据以不一致的格式存在不一致的数据库中。如何向数据仓库中加载这些数量大、种类多的数据,已成为建立数据仓库所面临的个关键问题。在数据迁移的过程中,通常需要将操作数据转换成另一种格式以更加适用于数据仓库设计。在太多数情况下,转换是将数据汇总,以使它更有意义。在转换结构中,确保能找出一种最好的方法保证数据从传统的数据存储器到数据仓库的同步。同步结构应当把重点放在转换语言的标准化、数据移动平台、通信策略与支持策略方面。数据仓库与操作数据存储器之间的同步过程能够采取不-致的结构。除寻找自动化转换操作的工具之外,还应估计数据转换的复杂性。大多数传统的数据存储方法缺乏标准,常常有些不规则的东西让开发员摸不着头脑。工具正在不断改进以有助于转换过程的自动化,包含复杂问题,如掩匿的数据、传统标准的缺乏及不统一的关键数据。提取处理是数据仓库成功的关键。在提取过程中,数据会被格式化,并分发给需要从操作环境中共享数据的资源。元数据存储的工作是定义与解释数据资源与数据标准。因此,在操作数据上执行的转换过程应该用元数据存储中定义的标准数据格式放置数据。我们能够定义数据变换的几个基本类型,每一类都有自己的特点与表现形式: 简单变换单变换是所有数据变换的基本构成单元。这一类中包含的数据处理一次只针对一个字段,而不是考虑有关字段的值。 清洁与刷洗目的是为了保证前后一致地格式化与使用某一字段或者有关的字段群。 集成集成是将业务数据从一个或者几个来源中取出,并逐字段地将数据影射到数据仓库的新数据结构上。 聚集与概括聚集与概括是把业务环境中找到的零星数据压缩成数据仓库环境中的较少数据块,有的时候进行聚集中的细节数据是为了避免仓库存入业务环境中的那样具体的数据,有的时候则是为了建立包含仓库的聚集副本或者概括副本的数据商场。6.7 简单变换顾名思义,它是数据变换中最简单的形式,这些变换一次改变个数据属性而不考虑该属性的背景或者与它有关的其他信息。 数据类型转换最常见的简单变换是转换一个数据元的类型。当现有应用程序存储某个类型的数据只在该应用程序的背景下有意义,在企业水平上却没有意义时,就常常要求进行这类变换。这类转换能够通过编码程序中的简单程序逻辑完成,或者者运用数据仓库数据变换工具完成。 日期/时间格式的转换 由于大多数业务环境都有许多不一致的日期与时间类型,因此几乎每个数据仓库的实现都务必将日期与时间变换成标准的仓库格式。这能够通过手工程序编码来完成。它能把一个日期或者时间字段拆成几个子部分,然后再将它们拼成想要的字段。然而市场上的大多数数据变换工具只提供了日期与时间格式之间迅速进行简单转换的设施,而手工编码上下的功夫要少得多。 字段解码简单地说,数据通常不应该以编码的格式放在数据仓库中。我们在业务数据库中建立代码是为了节约数据库存储空间。尽管人不懂得这些代码,但这并不是大问题,由于我们与那些代码的交互作用是由应用程序管理的。这些程序在必要的时候会成为我们破解那些值的代码。在数据仓库环境中,情况就大不一样了。由于拥护可能来自公司的任何部门,因此仓库的所有用户不可能都有足够的背景知识与培训I,使他们能够懂得在业务数据库中使用的编码值。因此,业务系统与外部数据中的编码值在存入数据仓库之前,应该转换为通过解码的、易于懂得的相应值。一方面,我们想把编码值充分扩展,使它们为最大多数的用户懂得;另一方面,把一个值扩展得太多要占用额外的存储空间,而且把该值当作查询中的检索标准也很困难。由于顾客情况代码不被普遍懂得,因此应该扩展为一个有意义的、易于懂得的值,以便仓库用户能够认出它。用到的准则是:务必长到足以被大多数仓库用户懂得。从技术角度看,字段解码是个非常易于实现的过程,它能够很容易地结合到变换程序中去,也能够在数据转换工具中轻松地完成,然而,确定应该进行多少解码工作是很难的。但一个好的解决方法往往提供了足够的解码,这样即使普遍用户也能够懂得字段值的含义,同时能够用全面懂得数据元值及其用法的元数据加深他的懂得。6.8 清洁与刷洗清洁与刷洗是两个可互换的术语,指的是比简单变换更复杂的一种数据变换。在这种变换中,要检查的是字段或者字段组的实际内容而不仅是存储格式。一种清洁是检查数据字段中的有效值。这能够通过范围检验、枚举清单与有关检验来完成。 有效值范围检验是数据刷洗的最简单形式,它是指检验一个字段中的数据以保证它落在预期范围之内,通常是数字范围或者日期范围。枚举清单也相对容易实现。这种方法是参照数据字段可同意值的清单检验该字段的值。有关检验略微复杂一些,由于它要求将一个字段中的值与另一个字段中的值进行对比。当然,数据清洁规则往往是这些不一致方法的结合。 复杂的重新格式化数据刷洗的另一要紧类型是重新格式化某些类型的数据,这种方法适用于能够用许多不一致方式存储在不一致数据来源中的信息,务必在数据仓库中把这类信息转换成一种统一的表示方式。最需要格式化的信息之一是地址信息,由于没有一种获取地址的标准方式,因此同一个地址能够用许多不一致方式表达出来。这就要求将地址解析成几个构成部分,然后将这些构成部分进行转换并重新排列成一个同意的格式。6.9 集成要把从全然不一致的数据源中得到的业务数据结合在一起,真正的困难在于将它们集成为一个紧密结合的数据模型。这是由于数据务必从多个数据源中提取出来,并结合成为一个新的实体。这些数据来源往往遵守的不是同套业务规则,在生成新数据时,务必考虑到这一差异。 字段水平的简单影射字段水平的简单映射在务必执行的数据变换总量中站去了大部分。这种映射的定义是指数据中的一个字段被转移到目标数据字段中的过程。在这过程中,这个字段能够利用前面讨论过的任何一种简单变换进行变换,它能够被刷洗或者重新格式化。 复杂集成在通常的数据仓库中,数据转移与集成中的10%20%要比从源字段到目标字段的简单移动复杂一些。为了将源数据变换为目标数据,这些复杂集成务必做更多的分析。 通用标识符问题通用标识符问题是许多公司在建立数据仓库时所遇到的最困难的集成问题之一。当同一业务实体存在于多个系统源,同时没有明确的办法确认这些实体事实上是同一实体的时候,往往会发生这个问题。这个问题往往很难用自动化方法解决,通常要求复杂的算法配对可能的匹配。有的时候在仓库中存入可能的匹配是能够同意的,但有的时候这些匹配在存入数据仓库之前务必先由人来检验。很多公司实行一种两阶段战略来处理该问题。第一阶段是隔离,在这一阶段中,我们试图保证实体的每次出现都指派一个唯一标识符;第二阶段是调与,我们开始确认什么实体事实上是相同的,同时将该实体的各次出现合并在一起。 目标元素的多个来源当同一个目标数据元有多个来源时,会出现另一个复杂的数据集成问题,即很难保证该元素的各个来源总能保持一致。实际上,这样的数据元存在矛盾值比不一致来源中的值相同更为普遍。解决冲突的简单办法是指定某一系统在冲突中占据主导地位。 数据丢失问题数值没有值的问题与一个数据元有多个冲突值的问题一样困难。有的时候为一个丢失的元素把空白或者空值赋进仓库中也是能够同意的,而有的时候数据元务必有值,对该表格所做的查询才会有效。务必为该数据赋一些估计值。假如是业务系统,数据库中有这种明知不准确的值是没有意义的,但对数据仓库来说,有估计值比根本没有值可能要好得多。因此,关于仓库中的每种数据类型,设计人员务必在存入估计数据的内在风险与数据丢失所造成的误解的风险之间进行权衡。用于这一目的最普遍技术是生成使曲线平滑的数据。然而,很多企业都有非常复杂的数据估计方法。这些方法能够调节许多变量,为丢失的数据生成一个非常接近实际的值。 衍生数据/计算数据数据变换的最常见形式之一就是计算与生成衍生数据元或者计算数据元。它包含平均值、总与或者统计计算,还包含复杂的业务计算。衍生数据字段通常是冗余的,由于计算中涉及的数据也存储在仓库中,然而,它能大大简化查询,保证存入仓库中的这些衍生值的正确性与一致性,这样,在查询中能够选用它们,而不必在用户需要时都计算一次。在这方面,数据变换工具是很有用的,由于这些工具能迅速而轻松地进行各类计算,无需担心编程员是否正确地编写了计算逻辑。6.10 聚集与概括大多数数据仓库都要用到数据的某种聚集与概括。这通常有助于将某一实体的实例数目减少到易于驾驭的水平,也有助于预先计算出广泛应用的概括数字,以使每个查询不必计算它们。概括是指按照一个或者几个业务维将相近的数值加在一起。聚集指将不一致业务元素加在一起或者为一个公共总数。在数据仓库中它们是以相同的方式进行的。数据仓库中存放的最具体的数据不与业务系统中存放的细节数据一样聚集。这时,就有必要在变换业务数据的过程中加入一些数据聚集功能。这能够减少存储在数据仓库中的行数。聚集还能够去除数据仓库中的过时细节。在许多情况下,数据在一定时期内要以很具体的水平存放着,一旦数据到了某一时限,对所有这些细节的需求就大大减弱了。如今,这些非常具体的数据应该传送到离线存储器或者近线存储器中,而数据的概括形式则能够存放在数据仓库中。目前能够得到的数据刷洗工具中,许多都己内置了概括功能,特别是在时间维上进行聚集的功能。当然,不管如何做到这一点,重要的是用户能够轻松地访问元数据,熟悉生成总与数据所用的标准。6.11 移动数据将数据移出操作系统通常包含:在数据最终复制到数据仓库之前,将它们拷贝到一个中间位置。理想状况下,拷贝数据的过程应该在操作系统不忙时进行。确保熟悉自己的商务及其支持系统。假如还未完成大量的更新,就不应该移动数据。假如数据仓库中的数据来自多个相互关联的操作系统,就应该保证在这些系统同步工作时移动数据。广义的数据准备,覆盖面很广泛,包含了从数据源抽取数据,一直到最终数据呈现在用户面前之间的所有工作,这其中的最要紧的工作就是数据的抽取、转换、清洗、装载等一系列工作。在最初的数据仓库实现之前所有的这些工作都是用程序手工实现的。这样就造成了一个非常严重的问题,就是数据仓库的持续进展问题,由于利用程序实现每一个数据抽取过程,导致所有的数据逻辑都隐藏在程序内部,当数据仓库进一步进展时,这些程序的管理与修改,将成为阻碍数据仓库进展的最大的障碍。通过一段时间的进展,人们最终认识到ETL工具的重要性,因此有关的ETL工具也纷纷出台,其中比较著名的是IBM的Visualwarehouse,Ardent公司的datastage等等。如何推断一个ETL工具的优略呢,通常而言,要紧有一下几个因素:1OPENdatasourceThetoolsmustextractdatafrommostkindofdatasourceuseNativedatabaseDriver就是说这种工具务必从很多不一数据源抽取数据,并尽可能地使据源本身提供的驱动程序来提高效率2OPENtargetDatabaseTheToolsmustcanUsemostdatabaselike(DB2,ORACLE.ETC.)asTargetdatabase.要支持不一致的数据库作为数抵的载体3Schedulejob能够定时进行数据的更新的整理4HighPerformance较高的工作效率5Metadatamanagement完善的元数据管理,能够对整个过程中产生的元数据进行管理6Parallelsupport支持并行数据抽取7VisualizeUI可视化的工作界面8Customdefineprogram能够支持用户自定义的程序做通SQL语句无法完成的工作9SecuritySupportmultiuserandusergroup支持多用户与多用户组的工作方.10Incrementdataextractsupport能够实现数据的增量抽取11UsesubjecttomanageETLJob用户能够对所有进程按照主题进理12EnableComplexcleansingandtransformAutomaticgenerateSQL,CustomSQLsupport支持复杂的数据清洗工作,自动SQL语句,用户自定义SQL13SupportMDDdataload能够支持多维数据库的数据加载14SupportTBdataextractandload能够支持TB级别的数据加载15Datamodelexportandimport现有设置能够进行Export与imp七、如何建立数据仓库数据仓库的实现要紧以关系数据库(RDB)技术为基础,由于关系数据库的数据存储与管理技术进展得较为成熟,其成本与复杂性较低,已开发成功的大型事务数据库多为关系数据库,但关系数据库系统并不能满足数据仓库的数据存储要求,需要通过使用一些技术,如动态分区、位图索引、优化查询等,使关系数据库管理系统在数据仓库应用环境中的性能得到大幅度的提高。数据仓库在构建之初应明确其主题,主题是一个在较高层次将数据归类的标准,每一个主题对应一个宏观的分析领域,针对具体决策需求可细化为多个主题表,具体来说就是确定决策涉及的范围与所要解决的问题。但是主题的确定务必建立在现有联机事务处理(OLTP)系统基础上,否则按此主题设计的数据仓库存储结构将成为一个空壳,缺少可存储的数据。但一味注重OLTP数据信息,也将导致迷失数据提取方向,偏离主题。需要在OLTP数据与主题之间找到一个“平衡点”,根据主题的需要完整地收集数据,这样构建的数据仓库才能满足决策与分析的需要。建立一个数据仓库需要通过下列几个处理过程:数据仓库设计;数据抽取;数据管理。7.1 数据仓库设计根据决策主题设计数据仓库结构,通常使用星型模型与雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化与体系各元素的必要联系。要紧有下列3个步骤:定义该主题所需各数据源的全面情况,包含所在计算机平台、拥有者、数据结构、使用该数据源的处理过程、仓库更新计划等。定义数据抽取原则,以便从每个数据源中抽取所需数据;定义数据如何转换、装载到主题的哪个数据表中。将一个主题细化为多个业务主题,形成主题表,据此从数据仓库中选出多个数据子集,即数据集市(DataMart)。数据集市通常针对部门级的决策或者某个特定业务需求,它开发周期短,费用低,能在较短时间内满足用户决策的需要。因此,在实际开发过程中能够选择在成功建立几个数据集市后再构建数据仓库这种策略。这些数据定义直接输入系统中,作为元数据(metadata)存储,供数据管理模块与分析使用。元数据存储在元数据库中,它不仅是数据仓库的文档资料,供管理、保护人员使用,而且亦可供用户查询,使之更好地熟悉数据仓库结构,提高自己的使用水平。7.2 数据抽取模块该模块是根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源(包含各平台的数据库、文本文件、HTML文件、知识库等)进行清理、转换,对数据进行重新组织与加工,装载到数据仓库的目标库中。在组织不一致来源的数据过程中,先将数据转换成一种中间模式,再把它移至临时工作区。加工数据是保证目标数据库中数据的完整性、一致性。比如,有两个数据源存储与人员有关的信息,在定义数据构成的人员编码类型时,可能一个是字符型,一个是整型;在定义人员性别这一属性的类型时,一个可能是Char(2),存储的数据值为“男”与“女”,而另一个属性类型为Char(1),数据值为“F”与“M”。这两个数据源的值都是正确的,但关于目标数据来说,务必加工为一种统一的方法来表示该属性值,然后交由最终用户进行验证,这样才能保证数据的质量。在数据抽取过程中,务必在最终用户的密切配合下,才能实现数据的真正统一。早期数据抽取是依靠手工编程与程序生成器实现,现在则通过高效的工具来实现,如Ardent公司的InfOmoIer产品、SAS的数据仓库产品SAS/WA(WarehouseAdministrator)及各大数据仓库厂商推出的、完整的数据仓库解决方案。7.3 数据保护模块该模块分为目标数据保护与元数据保护两方面。目标数据保护是根据元数据库所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间有关性进行处理。更新操作有两种情况,即在仓库的原有数据表中进行某些数据的更新与产生一个新的时间区间的数据,由于汇总数据与数据仓库中的许多信息元素有关系,必需完整地汇总,这样才能保证全体信息的一致性。数据仓库规模通常都很大,从建立之初就要保证它的可管理性,一个企业可能建立几个数据仓库或者数据集市,但他们可共用一个元数据库对其进行管理。首先从元数据库查询所需元数据,然后进行数据仓库更新作业,更新结束后,将更新情况记录于元数据库中。当数据源的运行环境、结构及目标数据的保护计划发生变化时,需要修改元数据。元数据是数据仓库的重要构成部分,元数据的质量决定整个数据仓库的质量。

    注意事项

    本文(数据仓库之路FAQ.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开