数据仓库和数据挖掘在医院信息系统中的应用.docx
数据仓库和数据挖掘在医院信息系统中的应用随着信息化的迅猛进展,各医院都在建立自己的信息系统,数据库规模不断扩大,复杂程度日益增加,从大量的数据中提取有用的信息供医院的决策服务就显得尤为重要。目前医院信息系统(HlS)的实现,绝大部分使用的是传统数据库技术,数据处理以操作型处理为主,即联机事务处理(OLTP)。尽管产生了大量的业务数据,但真正对决策有用的信息却很少,而且也造成了历史数据与当前数据、操作数据与分析数据的利用与管理的冲突。为熟悉决这一问题,数据仓库技术应运而生。北京肿瘤医院有其自身的特殊性,治疗上不一致于其它医院,因此关于信息统计、分析与管理决策上有其特殊要求。本论文以CF在建设的肿瘤医院数据仓库为例,首先介绍了数据仓库(DW)与数据挖掘(DM)在肿瘤医院应用课题的来源;其次,阐述了数据仓库与数据挖掘的基本概念,数据挖掘的方法、算法,还有数据挖掘、在线分析(OLAP)与决策支持(DSS)的差异。最后,介绍了肿瘤医院数据仓库建立与应用的全过程。包含阐述了医院信息系统(HlS)的基本概念、医院分析数据的历史方法及医院信息管理中存在的问题。肿瘤医院HIS数据库的结构设计,数据仓库建立过程中的数据准备,数据仓库的架构、存储,维度与粒度设计,主题抽取与确定,建立多维数据模型及多维数据分析,数据仓库与数据挖掘的要紧功能及医院实际应用O关犍词:医院信息系统;数据仓库;数据挖掘AbstractWiththefastdevelopmentofinfrmationtechnology,hospitalshaveestablishedtheirowninformationsystems.Andthescaleofdatabasehasbeencontinuouslyextendingandthecomplexitybeendramaticallyincreasingsincethedaythesystemwasbuilt.Underthiscircumstance,toselecttherightinformationfromamassofdataforIhehospital'Sdecisionmakingisofutterimportance.Thesedaysthetraditionaltechnique,namelyOnlineTransactionProcessing(OUTP),istheprimarywaytorealizeIheHospitalInformationSystem(HIS).Althou曲alotofdatacanbeacquiredbythisway,fewofthemareusefulformakingdecisions.What,Smore»intermsofutilizationandmanagement,itcausestheconfusionbetweenhistoricaldataandcurrentdataandtheconflictbelweenoperationdataandanalysisdata.Tosolvethisproblem,thetechnologyofDataWarehouse(DW)emergesasthetimesrequire.Comparedwithotherhospitals,BeijingCancerHospitalhasitsownparticularity,adoptingdifferentmethodsintreatments.Forthisreason,ithassomespecificrequirementsonthestatistictanalysisandmanagementofinformation.ThispapertakesthedatawarehouseofBeijingCancerHospital,whichisbeingestablished,asanexampletointroduce:firstly,theoriginofDataWarehouse(DW)andDaUMining(DM)intheapplicationsubjectsofthecancerhospital:Secondly,thefundamentalconceptofDWandDM,themethodandarithmeticofDM,andthedifferenceamongDM,OLAPandDSS;lastly,theentirecourseabouthowthewarehousewasestablishedandused,includingthebasicconceptofHIS»thehistoricalmethodofanalyzingdata*theproblemsinvolvedinthemanagementOfinfbrmation,thestructuredesignofthewarehouse,datapreparationdudngtheestablishingperiod,theframeworkandstorageoftheDW,designofdimensionalityandgranularity,abstractingandconfirmingsubjects,buildingmultidimensionaldatamodelandanalyzingmultidimensionaldata,themainfunctionofDWandDMandSomepracticalusesinhospitals.Keywords:HospitalInformationSystem;DataWarehouse;DataMining图2.1多维立方体9图2.2企业中数据仓库结构10图2'3大肠癌的决策树示意图13图3.1医院信息化的层次20图3.2医院HlS中四个表的关系图25图3'3数据仓库所需要的4个表的关系27图3.4费用随时间变化的过程图28图3.5医院数据仓库的架构29图3.6星型模型30图3.7肿瘤医院多维立方体的关系图33图3.8多维数据分析33图3.9费用分布图36图3.10胃癌病人外科手术的术前准备天数36图3,1120012004病人数量的分析图38图3.12多维立方体结构图38图3.13所有诊断的费用分布39图3.14树形显示的效果39图3.15饼图显示效果40图3.16病人职业构成40图3.17AnalySiSSerViCeS中的聚集41图3.18决策树的树形表示方法42图3.19决策树的公式表示方法42图3.20大肠癌术后决策树部分图451.1引言本章要紧是文献综述,并介绍了数据仓库、数据挖掘技术应用于肿瘤医院进行的研究工作,最后给出论文的内容安排。1.1.1文献综述随着计算机应用的网络计算的进展,计算正向两个不一致的方向拓展:一个是广度计算,二是深度计算。广度计算是把计算机的应用范围尽量扩大,同时实现广泛的数据交流。深度计算是人们对以往计算机的简单数据操作。目前,深度操作己提出了更高的要求,希望计算机能够更多的参与数据分析与制定决策的工作。传统的数据库技术是单一的数据库资源,它适合操作型事务处理,但分析型处理(或者信息型处理)能力较弱2o数据仓库(DaIaWarehoUse。DW)的出现,将操作型环境与分析型环境进行了分离,划清了数据处理的分析型环境与操作型环境之间的界限,从而由原先的以单一数据库为中心的数据环境进展为一种以数据仓库为中心的新的体系化环境(3L近十几年,随着科学技术飞速的进展,社会与经济都取得了极大的进步,与此同时,在各个领域产生了大量的数据,如人类对太空的探索,银行每天的巨额交易数据。显然在这些数据中的信息非常的丰富,如何处理这些数据得到有价值的信息,人们进行了有益的探索。4计算机技术的迅速进展使得处理数据成为可能,这就推动了数据库技术的极大进展,但是面对不断增加的如潮水般的数据,人们不再满足于数据库的查询功能,提出了深层次的问题:能不能从海量数据中提取信息或者者知识为决策服务。仅就数据库技术而言已经显得无能为力了,同样,传统的统计技术也面临着极大的挑战【51。这就急需有新的手段、新的技术来处理这些巨量数据。因此,人们结合统计学、数据库、机器学习等技术,提出数据挖S(DataMining,DM)来解决这一难题6o1.I.1.1国内外现状在国外,数据挖掘已经有很多成功案例。数据挖掘首先在金融、证券、电信、零售业等数据密集型行业实施,由于这些行业信息化程度比较高,数据库中已经保留了大量数据资源。比如,总部位于美国阿肯色州的世界著名商业零售连锁企业沃尔玛(WalMalI)的”尿布与啤酒”的故事。沃尔玛拥有世界上最大的数据仓库系统,通过数据挖掘工具,得到了一个意外发现:跟尿布一起购买最多的商品竟然是啤酒。进一步的分析,揭示了隐藏在“数据关联”背后的行为模式,”啤酒与尿布”的著名故事,可谓是数据挖掘产生巨大价值的经典案例。当企业拥有大量的数据之后,如何从这些数据中“攥出油水”,才是企业信息化价值表达的最终目的。有数据说明,进入二十世纪90年代,人类积存的数据量以每月高于15%的速度增加,假如不借助强有力的挖掘工具,仅依靠人的能力来懂得这些数据是不可能的。数据挖掘的前景被人们普遍看好。国际知名调查机构GartnerGroup在高级技术调查报告中,将数据挖掘与人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,还将并行处理体系与数据挖掘列为未来五年内投资焦点的十大新兴技术前两位Ganner的调查报告估计:到2010年,数据挖掘在有关市场的应用将从目前少于5%增加到超过80%。美国银行家协会预测数据仓库与数据挖掘技术在美国商业银行的应用增长率是14.9%。与国外相比,国内对知识发现的研究较晚,而且较为分散,没有形成整体力量。90年代,国家自然科学基金曾支持过对该领域项目的研究,但实际应用不多。目前,国内的许多科研单位与高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包含清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等181。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学、北京理工大学等单位开展了对关联规则开采算法的优化与改造;南京大学、四川联合大学与上海交通大学等单位探讨、研究了非结构化数据的知识发现与Web数据挖掘。尽管国内有很多大学与研究机构从事数据仓库技术的研究,但到目前为止,国内基本上没有成熟的数据仓库解决方案。在医疗行业的应用更是少之又少。目前提供数据挖掘产品的厂商非常多,如著名的产品有SASEnterPriSeMiner>NCRTeradataWarehouseMiner>SPSSClementine7.0、IBMDB2IntelligentMineSQLServer2000数据挖掘组件、Oracle9iDataMining>CACIeverPathPredictiveAnalysisServer、DMiner等。这些产品各有特色:NCR、IBM、ORACLE等数据挖掘工具能够直接在数据库上进行挖掘;SAS提供了数据获取、取样、筛选、转换工具来构造要挖掘的数据集;SPSS针对具体应用领域推出了多个应用模版,以简化应用开发过程。MiCrOSofi将OLAP功能集成到MicrosoftSQLServer7.0中,提供可扩充的基于COM的OLAP接口。它通过一系列服务程序支持数据仓库应用。数据传输服务DTS(DataTransformationSerViCeS)提供数据输入/输出与自动调度功能,在数据传输过程中能够完成数据的验证、清洗与转换等操作,MicrosoftOffice2000套件中的Access与Excel能够作为数据展现工具,另外SOLSerVer还支持第三方数据展现工具。1.2数据仓库与数据挖掘在医院应用的课题来源随着计算机技术的飞速进展与企业不断提出新的需求,传统的数据库技术以单一的数据资源,即数据库为中心,进行事务管理、批处理与各类类型的数据处理工作。不一致类型的数据处理有着不一致的处理特点,以单一的数据组织方式进行组织的数据满足不了数据处理的多样化的要求,因此数据仓库技术应运而生。数据仓库技术以传统的数据库作为存储数据与管理资源的基本手段,以统计分析技术作为分析数据与提取信息的有效方法,它是诸多学科相互结合、综合利用的技术。北京肿瘤医院已经运行了医院管理系统将近5年的时间,积存了大量的数据,还有其他的独立的信息系统的数据,比如(放射科、检验科、医疗保险),而这些数据由于彼此独立同时成为历史,没有得到再利用。目前,有极少的医院能够整合这些数据,充分利用。在此基础上,为了便于领导查询、分析并支持决策,本人在完成硕士论文期间提出了“数据仓库与数据挖掘在肿瘤医院中的应用”这个研究题目,并在医院中也申请了“肿瘤医院数据仓库的建立与应用”研究课题。木论文正是围绕着建立肿瘤医院数据仓库与在此基础上的分析与数据挖掘来讨论数据仓库技术及联机分析技术、数据挖掘技术的。1. 3论文的工作本文研究的要紧内容是首先以一、两个病种为例,从肿瘤医院现有的HIS数据出发,探讨建立管理信息数据仓库(DaIaWarehOUSe)的方法;其次能够在此基础上,开展单病种费用研究,使用新的费用管理指标,应用数据挖掘技术(DataMining)中的粗糙集理论对过度诊断与治疗的识别问题进行试分析。本文要紧工作包含下列几个方面:数据预处理的研究由于数据库系统所获数据量的迅速膨胀(已达G或者T数量级),从而导致了现实世界数据库中常常包含许多含有噪声、不完整、甚至是不一致的数据。显然对数据挖掘所涉及的数据对象务必进行预处理。数据预处理要紧包含:数据清洗(dalacleaning)、数据集成(dataintergratin)>数据转换(dataIransformalion)、与数据消减(datareduclin)数据仓库建立过程的多维分析的实现木文介绍了利用微软的AnalysisServices工具在已经进行整理的数据的基础上建立一个数据仓库的过程,包含如何设计主题、维度、粒度,对数据仓库进行钻取、旋转等操作,如何存储数据仓库,与如何用可视化工具进行进一步分析的全过程。数据挖掘的几个算法的尝试在已有数据的基础上,找出一些完整的、有分析价值的数据,利用数据挖掘中的一些算法如(决策树ID3算法、聚集、粗糙集中RSL语言)来对数据进行试探性的数据挖掘。并用微软的AnaIySiSSerViCeS中的数据挖掘模型来实现决策树与聚集方法的数据挖掘,并得到有用的知识。下一步工作的展望由于时间与人力的原因,本文只能做些探讨性的分析与研究,整个工作尚不能成为成熟的可应用于实际的工具。但本人已在医院中申请了这个项目的课题,并已经被批准,并得到了院长、科主任的高度重视。因此会在未来重点地研究,并希望能够得到理想的效果。此项工作与HIS的区别联机分析技术(OLAP)就是对大量信息进行复杂分析操作与决策制定的软件系统。为了提高效率与有效性,务必把分析型数据从事务处理环境中提取出来,按照决策支持系统处理的需要进行重新整合,建立单独的分析处理环境。数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储与组织技术。与HIS不一致之处在于,数据仓库是对历史数据的批处理操作、按照主题进行分解合并重新组织,是深层次分析利用的基础。HlS要紧作用是使让大量的日常业务(如挂号、划价、收费、结算等等)电子化,以提高医院工作效率与工作质量。HIS的应用是面向联机事务处理(OLTP)。1. 4论文的组织结构全文分为三章各章组织如下:第一章,为引言,要紧内容有研究的技术背景,木篇论文要紧工作、组织结构的介绍。第二章,介绍了数据仓库的概念与体系结构;数据挖掘的方法、算法;多维数据分析与数据挖掘与决策支持的联系与区别。第三章,是对在肿瘤医院建立数据仓库全过程的全面描述,包含医院信息管理系统的介绍与国内外的动态:医院分析数据的历史方法,存在的问题与数据仓库架构、数据存储、粒度与维度的设计、主体的提取与确定、数据仓库实现的功能;数据挖掘的应用实例,有几种算法的演示与说明。最后,为结束语包含了对上述论文的总结,与对下一步工作的展望。第2章数据仓库与数据挖掘2. 1数据仓库的定义2. 1.1数据仓库的定义信息技术的不断推广应用,将企业带入了一个信息爆炸的时代。每同、每时、每刻都有潮水般的信息出现在管理者的面前,等待管理者去处理、去使用。这些管理信息的处理类型要紧是对管理信息的处理类型,要紧有事务型处理与信息型处理两大类。事务型处理,也就是通常所说的业务操作处理。这种操作处理要紧是对管理信息进行日常的操作,对信息进行查询与修改,目的是满足组织特定的日常管理需要9。在信息型处理中管理者关心的是信息能否得到快速的处理,信息的安全性能否得到保证,对信息作进一步的分析,为管理人员的决策提供支持。比如,为决策支持系统、经理信息系统、战略信息系统等提供信息分析的支持。这种类型的信息处理在现代企业中的应用越来越广泛,越来越引起管理人员的重视。管理信息的信息型处理,务必访问大量的历史数据才能完成;而不像事务型处理那样,只对当前的信息感兴趣1。因此,在信息型处理中,产生了与操作性处理所使用的传统数据库有很大差异的数据环境要求。目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作BuildingIheDataWarehoUse)一书中给予如下描述:数据仓库(DalaWarehOUSe)是一个面向.主题的(SUbjeCtOrienled)、集成的(Integrale)、相对稳固的(NonVolatile)、反映历史变化(TimeVariam)的数据集合,用于支持管理决策。关于数据仓库的概念我们能够从两个层次予以懂得,首先,数据仓库用于支持决策,面向分析型数据处理,它不一致于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据通常不再修改。根据数据仓库概念的含义,数据仓库拥有下列四个特点:1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统有关。2、集成的。面向事务处理的操作型数据库通常与某些特定的应用有关,数据库之间相互独立,同时往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上通过系统加工、汇总与整理得到的,务必消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。3、相对稳固的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据要紧供企业决策分析之用,所涉及的数据操作要紧是数据查询,一旦某个数据进入数据仓库以后,通常情况下将被长期保留,也就是数据仓库中通常有大量的查询操作,但修改与删除操作很少,通常只需要定期的加载、刷新。4、反映历史变化。操作型数据库要紧关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如兀始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,能够对企业的进展历程与未来趋势做出定量分析与预测【12】。2.1.2数据仓库与数据库比较从“库”到“仓库”数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库,那么,数据仓库与传统数据库比较,有什么异同呢,如表2.1所示:表2.1数据库与数据仓库的对比裹13对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序重复处理面向主题域,分析应用数据特性动态变化按字段更新静态、不能直接更新,只能定时添加、刷新数据结构高度结构化复杂化与操作计算简单.适合分析使用频率高中到低数据访问量每个事务之访问少量记录有的事务可能需要访问大量记录对响应时间的要求以秒为单位计算以秒、分钟甚至小时为计算单位数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。能够说,数据库、数据仓库相辅相成、各有千秋口。2. I.3数据仓库的体系结构数据仓库的体系结构分为数据获取层、数据存储层、数据挖掘层等多个部分。1 .数据获取层数据获取层把决策主题所需要的数据(当前的、历史的),从各类有关的业务数据库或者数据文件等外部数据源中抽取出来,进行各类必要的清洗、整合与转换处理,再将这些数据集成存储到仓库中数据获取层在数据仓库的整体系统应用中占有非常重要的地位。2 .数据存储层数据存储层以一定的组织结构存储各类主题数据。数据仓库包含多个主题,一个主题的数据通常存储在一个数据库中,包含该主题的一些综合性表,如主题中选择的事实表、维表,还有为数据挖掘生成的中间表等。3 .数据挖掘层数据挖掘层集成各类数据挖掘的算法,包含具有很强功能的数据挖掘工具,能够提供灵活有效的任务模型、组织形式,以支持各项决策的数据挖掘任务。数据挖掘与数据仓库的概念是密不可分的,数据挖掘要求有数据仓库作为基础,并要求数据仓库已经存有丰富的数据。数据挖掘比本文后面谈到的多维分析更进一步。举例,假如以某类产品的销售情况为例,假如管理人员要求比较各个区域某类产品销量在过去一年的情况,能够从多维分析中找答案。但是,假如管理人员要问为何一种产品销量在某地区的情况突然变得特别好或者不好,或者者问该产品在另一地区将会如何,这些是用多维分析工具难以简单解决的问题,就需要利用数据挖掘工具寻找问答。在实旌智能化决策时,通常分为两个步骤:第一步实现数据仓库与多维分析,构造智能决策的基础,实现分析应用:第二步实现数据挖掘,再发挥智能化决策的特色【1"。数据挖掘是数据利用价值的再发现,它突破了传统意义上的数据查询,是在更大的尺度上、更深的层次中对数据提高利用的价值,是数据仓库应用的关键。2. 1.4联机分析处理(OLAP)1. 联机分析处理(OLAP)的概念联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理(OLTP)明显区分开来17。当今的数据处理大致能够分成两大类:联机事务处理OLTP(On-LineTransactionProcessing)>联机分析处理OLAP(On-LineAnalyticalProcessing)。OLTP是传统的关系型数据库的要紧应用,要紧是基本的、日常的事务处理,比如银行交易【1"。OLAP是数据仓库系统的要紧应用,支持复杂的分析操作,侧重决策支持,同时提供直观易懂的查询结果。表2.2列出了OErP与OLAP之间的比较。表2.2OLP与OLTP比较【19OLTPOLAP用户操作人员.低层管理人员决策人员,高级管理人员功能日常操作处理分析决策DB设计面向应用面向主题多维的集成数据立的的.统一的存取读/写数十条记录读上百万条记录工作单位简单的事务复杂的查询用户数上千个上百个DB大小100MB_GB100GB-TB当前的,最新的细节的,二维的分历史的,聚集的,OLAP是使分析人员、管理人员或者执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入熟悉的一类软件技术。OLAP的目标是满足决策支持或者者满足在多维环境下特定的查询与报表需求,它的技术核心是"维'这个概念【201。“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”通常包含着层次关系,这种层次关系有的时候会相当复杂【2"。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不一致维上的数据进行比较。比如,一个企业在考虑产品的销售情况时,通常从时间、地区与产品的不一致角度来深入观察产品的销售情况。这里的时间、地区与产品就是维。而这些维的不一致组合与所考察的度量指标构成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,维n,度量指标),如(地区、时间、产品、销售额)因此OLAP也能够说是多维数据分析工具的集合。2. OLzT的多维分析操作OLAP的基本多维分析操作有钻取(rollup与drilldown)、切片(SliCe)与切块(dice)、与旋转(PiVot)等【2”。 钻取是改变维的层次,变换分析的粒度。它包含向上钻取(ro11up)与向下钻取(dri11down)。rollup是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者者减少维数;而dri11dOWn则相反,它从汇总数据深入到细节数据进行观察或者增加新维。 切片与切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。假如剩余的维只有两个,则是切片;假如有三个,则是切块。 旋转是变换维的方向,即在表格中重新安排维的放置(比如行列互换)。3. OUP存储数据的方式OLAP有多种实现方法,根据存储数据的方式不一致能够分为ROLAP、MOLAP>HOLAP231。ROLAP表示基于关系数据库的OLAP实现(RekUionaIOLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示与存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据与维关键字:另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表与事实表通过主关键字与外关键字联系在一起,形成了“星型模式,关于层次复杂的维,为避免冗余数据占用过大的存储空间,能够使用多个表来描述,这种星型模式的扩展称之“雪花模式”。MOLAP表示基于多维数据组织的OLAP实现(MUltidimenSionalOLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成“立方块(CUbe)”的结构,在MOLAP中对“立方块”的“旋转”、“切块”、“切片”是产生多维数据报表的要紧技术2J如图2.1所示地锅人绯表中的。条教州图2.1多维立方体HOLAP表示基于混合数据组织的OLAP实现(HybridOLAP),如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。还有其他的一些实现OLAP的方法,如提供一个专用的SQLSerVer,对某些存储模式(如星型、雪片型)提供对SQL查询的特殊支持。2.1.5企业中建立数据仓库的结构在企业中整个数据仓库系统包含四个层次,具体由下图2.2表示【2”。OLAP嚣舞盈韩塌工鼻压:盐五1调工星Jii)巨衰工旦.叵丑冉忻工旦J-'日日日田门.四拉露毫掘工具/出j岂日日鼓韶最j童市OLAP甩务舀图2.2企业中数据仓库结构 数据源:数据源是数据仓库系统的基础,是整个系统的数据源泉。 数据的存储与管理:数据的存储与管理是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储与管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定使用什么产品与技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据按照数据的覆盖范围能够分为数据仓库与数据集市。 OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。 前端工具:要紧包含各类报表工具、查询工具、数据分析工具、数据挖掘工具与各类基于数据仓库或者数据集市的应用开发工具。其中数据分析工具要紧针对OLAP服务器,报表工具、数据挖掘工具要紧针对数据仓库。2.1.6数据仓库的软件在上述数据仓库的体系机构中,有各式各样的软件,可分为数据仓库管理软件、数据挖掘软件与各类工具软件。1 .数据仓库管理软件数据仓库管理软件提供对数据的访问、抽取、转换、分布、存储及管理等功能。管理软件靠描述性数据查找、懂得、显示、分析与挖掘数据,实现数据转换过程的自动化及其管理,缩短从复杂的海量数据(源)到能支持决策的信息之间的差距,有助于进一步实现智能化决策【2”。2 .数据挖掘软件数据挖掘软件要紧是从统计学方面提供相应算法的软件,前面已经有所阐述。值得一提的是,目前有的数据挖掘软件产品不单单用统计方法,还借助智能化的电脑学习或者神经网络等技术。3 .数据仓库工具软件数据仓库不仅仅是个数据的储存仓库,更重要的是它要提供丰富的各类应用工具。各类功能强大的完整工具体系,是数据仓库实现应用的基础。目前一些商家推销的数据仓库软件都带有各自的工具软件,也具有各自的特色。4 .数据获取工具在数据获取层的一些工具,用来清洗、转换与从别处提取数据,“去其糟粕、取其精华”,将真实的、对决策有用的数据保留下来,使得放在数据仓库的数据有条有理,帮助决策者再通过其它分析工具方便地使用这些数据。5 .多维分析工具通常,每一个分析的角度能够叫作一个维。因此,多角度分析方式称之多维分析。管理人员往往希望从不一致的角度来审视业务数值,比如银行往往从时间、地域、功能、效益、利润来看同一类储蓄的总额。往常,针对每个分析的角度需要制作一张报表。现在,利用在线多维分析工具,能够根据用户常用的多种分析角度,事先分析、考虑构架好一些辅助结构,以便在查询时能尽快抽取到所要的记录,并快速地从一维转变到另一维,从而迅速将不一致角度的信息展现出来。6 .前台分析工具前台分析工具,包含联机分析处理工具(OLAP),能够提供各类分析处理操作功能与简单易用的图形化界面。图形化界面能够将数据仓库的结果以数字、直方图、饼图、曲线等方式,直观地提供给管理决策人员。管理决策人员也能够自由选择要分析的数据、定义分析角度、显示分析结果。前台分析工具,往往需要与多维分析工具配合,作为多维分析服务器的前台界面。数据获取工具、多维分析及前台分析工具,是数据仓库支持进行决策处理的基础性工具,它们完成对用户数据的整理、观察与总结,其作用是“掌握过去”,明白“是什么”。在此基础上,再利用前面提到的数据挖掘,通过挖掘发现问题、找出规律,明白“为什么”,从而预测未来,达到真正智能化决策的效果。2.2数据挖掘的定义、方法、算法2.2.1数据挖掘的定义数据挖掘是利用了分类、关联性分析、序列分析、群集分析、机器学习、知识发现及其他统计方法,从数据库庞大的数据中,找出隐藏的、未知的、但对企业经营十分有用的信息12引。这些信息是可能有潜在价值的支持决策,能够为企业带来利益,或者者为科学研究寻找突破口。随着信息技术的迅速进展与企业信息化的深入,企业积存的数据越来越多。数据的背后应隐藏着许多重要信息.企业自然希望能够对其进行更高层次的分析,以便更好地利用这些数据【2叭。数据库系统能够高效地实现数据的录入、修改、统计、查询等功能,但无法发现数据中存在的关系与规则,无法根据现有的数据预测未来的进展趋势,导致了“数据爆炸但知识贫乏”的现象。2. 2.2数据挖掘的功能与方法1 .数据挖掘的要紧功能数据挖掘过程通常包含数据抽样、数据描述与预处理、数据变换、模型建立、模型评估与公布等步骤。数据挖掘工具应该能够为每个步骤提供相应的功能集。数据挖掘综合了各个学科技术,有很多的功能,当前的要紧功能如下:(1)分类:按照分析对象的属性、特征,建立不一致的组类来描述事物。例如:银行部门根据往常的数据将客户分成了不一致的类别,现在就能够根据这些来区分新申请贷款的客户,以采取相应的贷款方案。(2)聚类:识别出分析对象内在的规则,按照这些规则把对象分成若干类。比如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。(3)关联规则与序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。比如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度与可信度来描述。与关联不一致,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。(4)预测:把握分析对象进展的规律,对未来的趋势做出预见。比如:对未来经济进展的推断。(5)偏差的检测;对分析对象少数的、极端的特例的描述,揭示内在的原因。比如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险P-O2 .决策树方法决策树方法起源于概念学习系统(CLS:ConceptLearningSystem),然后发展到ID3方法并达到高峰,最后又演化为能处理连续属性的C4.5【3”。有名的决策树方法还有CART与Assistant,U利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段,建立一个决策树的节点,在根据字段的不一致取值建立树的分支【3”。在每个分支子集中重复建树的下层节点与分支的过程,即可建立决策树。国际上最有影响的与最早的决策树方法是Quiulan研制的ID3方法,它对较大的数据库效果较好。决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法1341。比如,在大肠癌的手术后,要对大肠癌的术后情况做出推断,图2.3是为熟悉决这个问题而建立的一棵决策树,从中我们能够看到决策树的基本构成部分:决策节点、分支与叶子13”。图2.3丈肠癌的决策树示意图决策树中最上面的节点称之根节点,是整个决策树的开始。本例中叶子节点是“周径1/3、周径1/3”,对此问题的不一致PI答产生了“好”、“中”与“坏”分支。决策树的每个节点子节点的个数与决策树所用的算法有关。如CART算法得到的决策树每个节点有两个分支,这种树称之二叉树。同意节点含有多于两个子节点的树称之多叉树【36】。每个分支要么是一个新的决策节点,要么是树的叶子节点。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不一致PI答导致不一致的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个问题)来推断所属的类别(最后每个叶子会对应一个类别)。建立决策树的过程,即树的生长过程是不断的把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异''最大I"1。各类决策树算法之间的要紧区别就是对这个“差异”衡量方式的区别。在此,我们只需要把切分看成是把一组数据分成几份,份与份之间尽量不一致,而同一份内的数据尽量相同。这个切分的过程也可称之数据的“纯化”。假如通过一次切分后得到的分组,每个分组