欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    sas数据仓库与数据挖掘.docx

    • 资源ID:1686610       资源大小:175.66KB        全文页数:41页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    sas数据仓库与数据挖掘.docx

    SAS数据仓库与数据挖掘一%业务数据中提炼决策支持信息的解决方案SAS研究所和SRS系统1利用SAS技术速立你的数据仓库2SAS数据仓库的蛆成4SAS数据仓库的体系结构6SAS数据仓库的开发9SAS的数据仓库产品-SAS/WA12SAS帮助你进行政格佗抱15SAS的数据挖犍的方法语-SEMMA17SAS数据花班的集成软件工具-SASEM(EnterpriseMiner)21决策支特智能化24企业级的强表制作工具-SASER+SASMDDB+SASIntrNet27在网上展开SAS功能31SAS研究所和SAS系统SAS系统是用于产京数据分析和决策支持的大型集成式模块化软件包。六十年代末到八十年代初以统计分析及设性数学模型为主,并以比闻名于世。故其早期名为“Statistica1.Ana1.ysisSyStenr,"SAS”即成为SAS软件研究所(SASInstituteInc.)产品的忌商标。SRS软件研究所跨国公司成立于1976年,总部设在美国北卡州瓦瑞市(CaryNorthCaro1.ina).SRS保持了20年连续不断的商位数的业务收入增长率,现已是金球最大的私人软件公司和全球排名第九位的独立软件现,嫌其是私人独立软件?h免受股市和公众段东资本的操级和影响,按自主意志杷收拉的很大局梆再投入于研究和开展,使其研发投资比重一直保持了全球软件业的领先地位.凭借这一技术优势,遍布世界的4500多名SAS员工为120多个国票的三百五十多万SAS用户提供了行业公誉的嬴质量技术效劳和支持.面对当今竞争日趋剧烈*辞息万变的世界市场经济,从国家机关到企业界的各类人员都要面对各种机遇迅速作出抉择.计算机系琉支持人们能做出迅即反应业务处理的能力巳满足不了当今的蒂求,要信息技术对各个层次和各种类型决策进行支持已是IT行业开展必然芨势,SAS以其具有前哨性的技木开拓,在决策支持工具一战据仓库和弱据挖掘(I>auWarehouse与DataMining)方面已连年被评为“年度最正确产品"、"景正确决策支持工具°。公司卓著的业绩使之被评为“全美国人们最乐意为之工作的100宓公司”之一及“最正确决策支持工具的供给面"。Internet已成为世界信息的通勤大道.I1.nranet也已成为先进企业的信息经肤.SAS技术也与之有着同步的开展。SAS的IntrNCi产品使全部的SAS技术故大限度的实观了Icb-Enab1.e.这使得SAS原来冷多平台应用的开就机制扩段刎了网络计算环境和网际应用,这不仅使SAS使用更加力便,而且使那些以Thin-CIient运行的系统在使用SAS时节省了投链,并M少了系统维护的工作量。在这里将按下面五个肤络向你系统的介绍SAS技术:* SAS世界领先的蒙,仓席段术* SAS荻景正确决策支特工具表扬的数据挖掘变术* SAS的业务曾能化技术* SAS的企业纪J1.ft制作工具* SASa:Veb-Enab1.eawnt你可以通过宜到SAS研究所最新的技术信息。你还可以通过美国SAS研究所设立在北京(TCI:0106235128(0-3)>,上海(Te1.:)和广州(Te1.:)的办事处得到直接的咨询和技未支挎.利用SAS技术建立你的数据仓库由于便用SAS系统成功地建立了许多卓有成效的数怩仓库,SAS系统的数据仓库产品已连城沟年(19967997)被美国著名的"DataeaHon'评为“当年度最正琏产品".销管初也占据了SAS产品的首位.98年又在DCI全球数据仓库大会荣获"Exce1.1.enceinBusinessInforma1.ion大奖,正象投据仓库虽然是个较新的词语,但它是计算机技术开展的必然结果一样:SAS荻此殊荣也非一日之功,正是它顺合计算机技术开展规律的渊源所致.为什么在有了这么多数据库产品之后,人们又要用数据仓库技末.业界的各珞诸侯又如此君之若督.这正是计算机技术应用希求的推动.当今数据库技术大开殿的过程是伴随着O1.TP(On1.ineTransactionProCeSS联机业务处理>应用需求的推动联机业务处理最迫切的技术要求就是快速响应。数据库技术.轩别是基于E.F.Codd搔出的关系理论的数据犀的技术,将数据集分成了基少冗余的实体(Entity),然后又将它们按一定的关系(Re1.ationship)编织成一个有机的整体,比较完美地满足了O1.TP的应用需求。对于每个业务处理最好只须涉及一个实体,业务父理对于实体的Add或UPdate也只涉及数据媒体的可能最小的空间(如记录线封钺技术,对于其它实体的相关更新通过关系保持了一效性和完整性。这个切合当时O1.Tp应用实际需求的理论和技术的成功.推动了关系数据屋产品风行世界.象计算机技术的迅速开展一样,剧烈竞争的市场也激发了各行各业时计算机应用的更多样的箱求。计算机用户早巳不满足于计算机能帮助他迅速地处理具体业务,他们要从这大量业务数据中探索业务活动的规律性,市场的运作趋势,并从中为他们参与市项竞争作出重要的决策。由此而未产生了对DSS(DeCiSiOnSUPPortSyStem)决策支挣系统的济求。支持决策就要进行数据,信息的分析,这就产生了O1.RP(On1.ineAna1.ysisProcess)联机数据分析苑理的需要.决策支持所依据的数据从哪里来,当然是成功运行着的业务处理致据库中的数抠。所以景早的决策支持所进行的数抠处理就是直接使用数据库中的数据。可和之为Ro1.RP.即利用关系蛾据库的数据迸行联机分析处理。SAS系统早就具有最强有力的数据分析处理能力,再加上SAS的SAS/ACCESS对几乎所有数据库和数据文件的强大的读取能力,以及SAS跨多平台的运作能力,SAS系统就成了最克香的RO1.AP工具.当Ro1.AP只使期很少的关系数据库表时,这一愫作是可行的。这种樵作往往是针射后部姓问题选行的决策支持数据分析。但面对市砺的决策往往是涉及整个企业范的数据和信息。这就要同时启动大Jt的数据庠表,并且荽将众多表中的数据按一定的规律领合越来,形成恰好斜对所支持决策问J的数据内容。这样一个Ii程或许是十分复杂,且消耗大量资源,或许企业的舒据是分布在若干个系统中的,这样的数据整合过程几乎是冠以完成的。除此之外,在一个数据库表中的每一条记录也并不是某项决焚巫育妻的,这要按决筠文再的需要编制专用的数据体选程序.再者,联机业务处理系统中的数据有一个件性:即每一条记录都有产生,反鱼的变更、修改,直至败据记录不再变化的过程,葬之为“数据到位”。例如:一个物料在一个工厂中产生了,联机业务苑理系统中就要添加一条相应的记录:这个物料不断地进行加工,就要在它的记录中记入加工的叁效:当这个物料打工成产品,破发货出厂,就要再登录这些出厂信息,此后,记录其生产过程的数据就再也不能修改了.如果要进行产品生产周期的分析,就只使用发货出厂后的那些物料的数据,而不能使用同一表中的正在加工的甥料的数据。由此可见,直接使用陕机业务处理系统中的数据进行决策支持数据的分析处理妩会产生许多麻烦的.冬至圣实现不了的.这时候,人们就会问为什么系统中有我帝要的数据,而我却无法运用呢!这不是说关系数据库不好,而是老产品遇到了新任务.E-R型的数据结构能完美地执行联机业务处理,但不适应较大规槿的决策支持政据分析,尤其不适应企业级的决策支持数箔分析处理的需要。适应这一需求,应运而生的就是数抠仓库技术.在W.I1.ruo所著“Bui1.dingtheDataWarehouse”一书中给出了数据仓库的定义:“第库是*主H的、兽舍的、定的,并县回交的收集4号以文扑蜜决策的一科效城构帝式"之一定义指出了数推仓库和事务处理系统之问的主要差异.数据仓库的目标是为了制定管理的决策隈供支持信息,这显著的与O1.TP系统的快速哨应需要不同。正象企业为了开展要进行业务更组一样,为了支持管理决策济要也要按决策业务科目的要求重俎OUP系统中的数据,并要按不同决策,分析内容分别姐织便之方便使用.这种基于主题的模式从用户角度来看就是多重的数据重组结构.在杷数据笠我到数据结构重组后的金据仓库之前,先要建行蚊据转换,或称“整合”处理。这一处理包括几个必不可少的操作步皴,做到使致密完整.统一,这就确保了在使用数泰仓库时共中的数据是有质量保证的,对比后文有详述。简而言之,整合就是保证数抠准礴,到住,没有越出应有的数值范国,没有重复等,数利仓库中的数据不象事务处理基统中的数据那样频繁的修改,所以它是比较税定的(不必实时修改)。在一次数据分析的执行过程中使用的数据不律交更.这才能保正酉次在使用同一组信息进行分析时不会得出不同的答案.数君仓麻一般是按周、月或隔月从O1.TP系统周期性的批次更新效揖.由于具有数箔的时段稔定性,讨数抠仓库来说就可以减少许多传统RDBMS必须的资源消耗,如:记录的辕机制.参照完整性的检登、数据接作的日志,以及检查点/回退(Ro1.1.back)等.和01.TP的“实际事件相比,SAS数提仓库的致据组织可呈多维时间段结构(时变的一一例如:1997年各个月份的锹售数据),这一数据结构供进行某一时间段众多事件的定量分析用,并产生相应的结论。从本质上说,数据仓库的目标是从联机业务处理系统中帏选出某项决黄所需的支抖数据,再在分析处理过程中裨出进行决策时有用的信息,供分析使用的这种时变数据亦可预先汇纳出若干层次的汇总数据以利决策支持使用,这样,在常规决策操作时就不必临时进行.基础数据的汇息处理了。SRS系税提供的数据仓库模型是包括了数据仓犀管理、组织和悟息展现的整体解决方案,这是由一族有机限合产品用成的阵容强大的模型.在下列图中表示了SAS数据仓库的模型,管理组织展现SAS数据仓库一览总之,数据仓库是岩今社会的人们参与市场竞争等各项活动,耍迸行决策时的最适合的数据结构形式.是遗应企业重组(Re-Engineering)时,进行企业政据.信息电组的工具。SAS在数据仓库技术上的成功例证和经验也必然能帮助中国的企业更卓有成效的走向市场经济的大潮.SAS数据仓库的组成提京:在购篁数据仓库产品时注意其必不可少的技术环节数指仓库是适应决策支挣系统的需要而产生的,所以人们豁望所采用的软件产品能支椅决策过程的全荀工作内容.SAS的数据仓库技木就是可以支持决策全过程的整体解决方案。包括:*从任何业务处理系统或数据源中取出决策所需蚊格*对源数据进行清理和整合* 按力案或规则进行数据仓库的装式和更新* 按支舟决策的常要,以多种形式选行数据和信息的组织* 景丰黛的决策敢据分析处理能力* 灵活多样的结果茨现方式如果你想建立决策支技系统的话,您就应当检登您所采用的软件工具是否具备上述全面的能力.SAS累诜的数号存取能力从早期的SAS技术来看,它就是一个十分通用,且又十分开放的孜件产品.唯右这样SAS才会在如此广泛的各种不同类型计算机系统平台和各种各样的环境中得到充分的运用.SAS有一个SAS/ACCESS产品,利用它可对众多不同招式的数据进行查询、访问和分析.SAS/ACCESS提供了与目前许多流行数据库软件和老的数据文件的接口,用SAS/ROCESS可建立对应外部异构数据的一个筑一的共用数据界面.所提供的与外部数据的接口是透明和动态的。用户可不必将数抠真的读到SAS系统中来.而只需在SAS系统中窿立对外部效抠的描述亦即所谓View),便可把这些外图数据当作真正存储在SAS条版中的数据集一样使用。这时,用户即可使用这些数据进行所iNRO1.AP式的数据分析和决策工作.对一些系常反复使用的外荀联据.亦可利用SAS/ACCESS将其真正提取放入SAS系统中.并进一步经垃整理放进数抠仓库.SAS/ACCESS提供的接口是双向的,既可将数据读入SAS系统,亦可在SAS系统中更新外部数据,或将数据加栽到外部数据我体中去。这使数据仓厚裹统和原有的运行数据体系更加沟通.目前SSACCESS支持的数据库主要有:DB2,Orac1.e,Sybase,Rdb,CA-Ingres,CA-Datacoa,Informix,ADARAS,NCR-Teradata1AS/400等数据库。SAS/ACCESS迁能支持一些老的数据文件系统,如有名的IBM/VSAM等。通过ODBC使SAS系统和更广泛的开放型数据库跳立了沟通。另外,通过SAS嫡程中的DATASTEP可与任何知道其结构的数据进行球给.在数揖仓库的宣传中曾报通用一个数相串产品作数第仓库使用.但这个数据库对原有数抠线体没有存取能力,就又买了第三方的软件作为它们取出数据的工具。这种选择显然是不妥当的。SAS与众多软/硬件厂商长期友好合作所形成的跨平台的数据存取能力决非一日之功.效*的清理和要合在SAS的数据仓庠系统中有专门的机刷进行引入数据的检衣、核对和将不同来源数据14行整合的技术环节。在一个企业或其它大型的组统中,各种数据可能有不同的美型,格式可能也不尽统一,在原来不同的应用魂合亦可能采用了不同的单住、制式,要次将它们放在一起进行有效的受理.首先的要求就是统一。从业务操作系统中引入的数据必须进行其完整性的检态。在一条记录中的各个数据项应保持完整的存在关系,若有缺项,且又没有检查,这必然导致统计的借误,决策也会产生偏差,弱值的有效性也是必须进行核对的。防止将数据源中的错误带入决策过程之中。这些必要的清理工作保障了决策支持所使用数据的质贵.比外.还可以参加用户自己认为需要加强的环节.系统允许在数抠整理的各个层次加上用户自行强化的环节.数据仓庠的金或和更新从数据源抓取数据不仅有质量问题,还有有方案的按一定时间节奏从数据源取出和袋入.更新数据仓库的问题.因为SAS系琉有主动去取外前数据的能力,所以按时间节游从数揖源取出数据的操作在和其它系统管理人员协调好的差础上,就可完全在SAS系统内制定从各系统取用败据的方案了。在此基础上,数捱仓库按照数据和信息使用的时间要来.准时的.加或、更新,就是完全有保朦的了.从数据源到数据仓库一气呵成的集成式的操作,这是SAS数据仓库技术的重要特点.按决策要蛆IUV和信息清理好的数据还要迸行重组。按照决策的需要组织成不同的主题的数据仓庠表.这是十分关键性的接作.在再小的企业或组织中.也总是有许多业务和技术环节的。一般来说,原来运行系统数据库的设计也总是针Xf这些业务和技术环节设置“实体”,印数据库的表.这样的设计快O1.TP系统在埃运行时,发挥了最大限度的工作效军。但在开拓决蕾支持的O1.AP时.好别是对于全企业范围的数据进行操作时,这种数据结构效率校低。这是因为可能要从许多表中取出所需数据,而且还要进行数据的饰选.就不同表中的数据进行拟合等操作,这是税费时问和资源的.企业范围的决策是对各个环节分别进行业务处理的业务生蛆,这就需要有相应致枢结构的重姐,即按决策的希要组织成不同主题的扬据仓库表.以及相应的鲂据视图,汇总表等。SAS为此谀置了交互式操作的界面,以最大的主动性帮你克成决策支持所帑的数据空组.丰富的决策败务处理绘力在有的所谓数据仓库产品的宣传中说:为了处理数据他们有各种函引功能供端程使用.这显然是校其不够的.为了更有效地支持决焚,可能粘要进行广泛.深入的数据挖提(DataMining)工作.SAS在这方面有世界领先的丰富的决策支林效据分析、处理软件.首先SASMDI)B可帮你构造最适宜O1.AP操作的多维数据结构。SRS/STAT理差了所有的实用数理统计分析方法.是国际上统计分析领垓的标准软件。它援供了十多个过程可进行各种不同模型或不同林点的回归分析:为多种试脸设计模型提供了方差分析工具:在多变量就计分析方面,为主成分分析,相关分析,判别分析和因子分析提供了许多专用过程:还包括多聊聚类准则的聚类分析方法等。SAS/ETS提供了丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行ffi测的有力工具.SAS/0R提供了全面的运算学方法.SAS/IM1.提供了功能强大的面向矩阵运算的编程浩言.帮助你研究新算法或解决SAS条统中没有现感算法的专门问题.SAS/INSIGHT是一个可视化的数据探集工具。它将统计方法与交互式图形显示融合在一起,为你展现了一种全新的使用统计分析方法的环境,迂有SAS的人工神经元同珞和SAS/ASSIST等.具有鱼大伸缩性的,适合各个层次,各种类型人员使用的工具.灵活多样的结果展嶷方式分析结果的展现方式对决策时人的判别有更大的影利SAS也有众多的方式,方法供你选择:在BaSeSAS中就有从简单列表到比较复杂的统计报表和用户向定义的式样复杂的报表的能力;SAS/ER(EnterpriseReport)更是为企业级的决焚过程提供了报告的制作能力:SAS/GRAPH是一个强有力的图形软件包,可搭数据及其包含着的深层信息以多种图形生动的呈现出来从各种数据源主动的取出数据:经迂清理,整合:事按决策支持的需要分别主J.重组数据;按照时序节奏不断地自动装载、更新数据仓库;用世界权威的,丰富的数据处理工具进行决篥分析:最后以多种形式将决策支持的意见呈现给你。这就是完整的决策支持数据仓库解决方案.再次集普:在购置数据仓库产品时注意其必不可少的技术环节!SAS数据仓库的体系结构数据库技术对计算机应用的推动发挥了巨大的作用,舞别是建立在E.F.Co<M提出的E-R理论基础上的关系型数推库更是对O1.TP(联机业务处理)应用开拓了广卿天地1994年E.F.COdd曾答复一个提问:为什么对一个运行十分良好的基于E-R理论的关系数据库进行杳询,以制作一个较大型的报告时,其响应速度特别慢.他说:运行蚊格库是基于O1.TP需求环境设计的,这已有大多的成功事例.但现在是O1.AP(联机分析处理,这个微念述语EF.COdd在此第一次提出)类型的帑求.要实现O1.AP就要有适应它的,整合的,快速的,多维的信息奥构和查询机制,SRS蚊格仓库就是一个适应于对企业税的蚊据.信息进行重新整合,适合多堆.快速查询:进行O1.AP操作和决策支持的数据,信息的采集、管理、处理和展现的架构体系.可用下列图表示:环境”SJI*金库的体系笫挽数据仓库1主题1主班表系统主题表1.主题表n汇总表也1SAS或DBMS汇总层次1SAS或DBMS汇总层次6MDDB1.MDDBfi汇总表限(1信息市场1信息市场工程I信息市场工程n佶息市场n主题n数据市场组1戡箔市场1数据市场n情息市场1佶息市场n数据市场组n数据仓库n运行数据定义姐1运行政据定义】数箔文件1数据文件n外部文件1外部文件n运行政据定义n运行数据定义组n环境(Enviroaent)环境是SAS数据仓库的体系结为的总根.它由两大局部组成。一局部是分别含有不同主题内容的若干个数据仓库:另一局部是对数据源的定义.这构成了从数据采集到直接应用的完整的支林体系.4t*J(DataVarehouse)可以存在多个数据仓库,这是为了使用的方便.在一个大的企业或组织中不同部门在进行决策分析时可能使用的是循出不同的数据.重新整合后就没有必要将它们放在一起了。在体系结狗层次中的数据仓库主要是管理性的作用,其中有对数据仓库所有姐成单元的解绛仕数据MCUIdata在每个数据仓库中迁可以设置若干个主题,这一般是同一部门中支技不同决策内容片应的数据。主题是较大的败据我体.相对精5?或汇总一些的是所谓数据市旗.在一个数据仓库中亦可存在若干个数据市场。主JS(Subject)在每个主”中有一个主即表系统,其中放置与此主题相关的各种数樨。为了支持决策方便还设置了若干4数据的汇息表组。进一步为了支持决策的方便迂有若干个信息市场组.其中放置的是对数据是理后产生的决策支舟信息.主题表系杭(Detai1.)这里放置的就是从各个数据源取出,经过清理、整合的原始数据.为了使用和管理的方便,这些数据可放在多个表中。主总友(Detai1.Tab1.e)从运行系统数抠源取出的数据,分别姐成这里的若干耒。它们可能是实际的表,也可以是一些3T材视图(View).从本质上讲,它们和原来各个运行系统蚊据源的数据内容是一致的.但是为了支持决策败据处理的使用方便.而对数据的结构进行了也坦。为了决策支持数据处理工作的方便.和提赤了工作的效率,在数据IE组过程中,可能还要增加一些数抠冗余.汇总表H(SuamryGr(Ms)在汇总表限中定义进行数据汇总处理时的层次维数和所分析的交量.当汇总表组是按SRS翻据集和DBMS格式存放时可有六个层次,若是采用SAS的多堆数据库产品MDDB时刖可有任意多个层次.实际上数据汇总就是最常用的决镜支持数据处理手段,或有时是在汇总数据的基础上再进行进一步的决策支持数据处理,汇总表组可以有若干个.也就是说可以对多种交量分别进行不同方式的汇总处理.汇总展次(Suamry1.eve1.s)汇总一般是按时间进程而执行的汇总层次就是表示你所选择的数据汇总处理的时间维.如:日,冏,月估A市场(InformtionMarts)这是信息市场的分俎,在一项主题中可以有若干组信息市场,一皎来说是按不同的决策支持内容帮要进行分组的。之所以要讲之为“信息市扬”,这正是表达了谀置这样一个机制的目的:要让决基老免到了一个信息市题一样,能最方便,最快提的取得决策支持所备要的佶息.估唐市场工矍(InfonationMartIteas)这是信息市场中一项项具悔的信息,它是对数捱仓库中的数据受理后产生的结果。在一个企业或组织中决策目标并不忠是博机的,相反总是有一些要羟常反复进行的决策工作,但是随着时间的进程,文挎决策的依据在不断开展.变化.利用数指仓库架构就可以对这样的决策支杆数据处理工作自动的及时执行.当人们帑要决策支持时,马上就可以得到这些信息的支持.悟息市场工程可以是一些报表、图形或分析的结果.它也可以是一项应用功能的输出。你在调用这样的工程时,可以是即时启动此项应用功能,也可以籽它们设定成在数据仓库更新时作为系统运行的一局部.这样,就在可能的最早时何形成了决策支护的信息,为支持决策创造最大限度的快捷和方便。数得市场M(DataMartGroups)这是对我泰市场工程的分组,在一个数据仓库中可以有多俎数据市场.这也是按内容的不同进行分组的.和“信息市场”一样"数据市场”也是一个形象化的表达词汇:要让决策者能最方便的粟得决策支持所需要的效据.蒙IS市场(DataMarts)有时决策就是依据某些数据,但让决策者在浩如烟海的企业信息系统中找出这些数据可能并非易事.正是为了这样地目的设置了数据市场。它实际上就是为了各种价赊需要专门设计的数据表。特别是对一些要紧急受询的内容设置这样的数据表,就更有必要.你可以注意到数据市场不是设置在每个主题内,而是设置在数据仓库的范玲内,这也就是说,你可在以分主题的方式对原来运行数据重组的基础上,为了某种支持决策的需矍,再玲主题进行数据的重组。可以想象,这给你随着企业管理的开展,在要求你为了业务生组而进行数据重组时,SASft据仓库技术为你创造了可持域消长的、无限的数据定组的广穆天地.运行最It定义限(Operationa1.DataDefinitioaGroup)这是对要从数箔源取出的费搏进行定义的分蛆,企业可能有许多数抠源,比方说,它们是放在不同的计算机系统中的,你就可以分系统设置数据定义组。达从运行,管理上看,或者说从开发文档上看都是比较清楚的.运行救福定义(Operationa1.DataDefinition)在这里定义你要取出的数据,前面已逑SAS不仅有多冲力式可从各种环境中取出数据,而且可以通过SAS/MCESS在SAS系统中启动这些操作。所以这里就是你在SAS/ACCESS中设定的逻辑视图(View)的描述.由于取用对象的不同,它脐可能是SAS语句PROCSQ1.的逐辑视图(View)的描述,或是DATESTEP建辑视图(View)的描述.由上述内容可以看出SAS/据仓库有一个十分完善的影系结构。不仅为你速立决簧支技系统提供了完整的解决方案,而且为今后的持开展留下了广阔的天地。这也正是SAS获得数据仓库最正廉产品奖的原因所在。SAS数据仓库的开发利用SAS技术建立数据仓库,在全世界已有蚊以千计的成功先例,从而也枳累了开发的经验。SAS研究所愿与你分享这些经验:亦即在提供SAS数据仓库软件产品时,迂可向你提供建立数提仓库的方法学,咨询效劳,以至建立数据仓库的效劳。故箔仓库并不等同于数揖库,数掘仓库也有其开发的特点.根抠SAS的经险建立一个数据仓库会有以下五方面的工作:* 任务和环境的评估* 需求的收集和分析* 构造数据仓库* 数据仓库技术的培调* 回忆、总结再开茨任务和环境的评估数据仓犀是尼立在原有的运行系统之上的。因比要结合单位的现状来明确数据仓库的目标任芬。除了业务现状外,拘别要搞清任务所面对的数据源所在系统和其中的数据的状况.通过对这些情况的评估,看建立数据仓库的这个任务是否是可行的:所能建立的致掘仓库是不是用户所朝曳的:在此有没有不可选越的障碍.最好能确定评定将来数据仓庠系统成功与否的粮本原则。开展评估工作一定襄有高层负责人参加,呆好他就是将来使用数据仓库部门的负责人.这样从他这里就可以了解到全部的业务工作状况.他也最消费今后的工作目标及对任芬的期望,以及和竞争对手比我有什么爰距,在评估工作开展过程中.他应当及的的提出问通,并检宜.回忆工作的进展。在他的领导下要组成一个工程蛆,并有以下人员叁加:工程总负责人,与数据仓库相关的所有业务单位的负责人,计算机款/硬件负责人,向数箔仓库提供数据的数据库管理员以及月络方面的人员,工程也要进行工程定义,并首先按要到达的目标初步确定效据仓库的主题.进一步说明这个主题的层次结构.及所涉及的相关业务处理.景好运能设立几个可量化的工作指标.除了业务工作外,还要对相关的信息技术状况进行评估:敛据源的数据库类型,工作平台,数据量,数帮的质量等;将要陇文锹据仓库的环境状农.以及所利用的网络技术状况.全部评估工作应有正规的文档记攻,并交数据仓库负责人审定.求的收集和分析的据仓库是为支括决策效劳的。故首先要看决策者(亦即做导)的需求,即:现在最重要的工作目标是什么:怎样衡量这个目标是成功的到达了;现在是怎样获得决黄支持信息的:和竞争时手比墓正是什么.领导的决策总是由一批具体工作人员支持的,所以还应当从他们这里收集具体的需求,并加以分析:对应前面所定的主题.现在利用什么信息或报表(最好有实例:这报表中迂缺什么信息:这报表是如何制作出来的:有没有紧急.突发的决彷信息要求,其内容是什么:迂希生数据仓库为他们做些什么等.在此基础上确定:岩前共同的业务问堰是什么:希里开发怎样的功能来解决这些问题:由此定义好业务处理的规则:初步估计功能的规模加数据量:与牝同时迂要定义,理清业务和编程稻要的代码。基于上逑业务需求和分析即可开始制定系统的逆辑慎型.化外.还要对实现这些业务需求书,有信息技术的需求加以分析:每一个数据源的&理存猪秋况、运行平台.数搭质量如何;确认硬件、网络和软件的IR制条件;敷据装载和更新的策咯和问题;数据费和占用空间的估计:从信息技术看数抠的质量有什么同刖等,最后,迂是制作文档.其内容应包括:* 工程慨逑* 差距分析* 系统根本架为图示* 逻辑模型* 物理模型* 数据仓库初始装载和更新的策略* 数据仓庠的运行方案* 决策信息茨现的希曳和需求* 数据仓库建成的时限相迨效福仓4构迪数据仓隼包括了数泰仓库的管理,数据仓库的组织和决策支持信息的尾况三局邮.数据仓库的管理通过速立以下诸项内容实现之:设置和揭写取用数据的程序:设置和燎写数据转挨程序:设置和漏写数据更新程序:设置和编写运行的接口程序:淀立这一阶段的所有管理用数据Metadata;比阶段所有程序烧一标准命名和建档.毁掘仓库的缎织包括了:规划数掘仓库的初始我我:在数据仓库中建立所需的索引:傲了数据表外,建立效据视窗(View);进行数据仓库及工作平台的平安检至:装入数据和应用功能:空立这一阶段的所有管理用数据Metadata.决策支持信息的屣现SAS有强大的工具软件可供使用:SAS/STAT是国际上统计分析领域的标准软件,涵羞了所有实用数理统计分析方法:SAS/EIS是一个成熟的决策支持表现工具,也是快速开发工具并采用了面向好象的开发方式:SAS/AF也是一个应用开发工具,并含有众多现成功能的SAS软件作为方法库:SAS/ETS提供了丰IS的计量经济学和时间序列分析方法,是研究复杂系统和进行恒测的有力工具:SAS/CIS是靠地理信息系统与空间战据显示分析于一体的软件:SRS还搔供了人工和运元网络的功能:SRS/ASSIST枭用了面向菜单的驱动界台.借助它可使用许多其它SAS软件;SAS/INSIGHT是一个可视化的数据探索工具:SAS/OR提供了全面的运筹学方法;通itODftC,O1.E写还可集成许多现有的桌面工具.利用这些工具可预先制作好许多常规的信息市场工程(Infoinan)供支持决策使用,济可利用这些工具直接操作主题数据以得出折的决策支挣侑息.效仓康技术的站刎数据仓库是支持其货用者进行决策的.即便是建成了非常好的蚊据仓庠.人对系统的运作仍是决定性的因素.人利用数据仓库决策的成功才是数据仓库的成功,所以速成数据仓库后要认真进行最终用户的培训.首先要向用户介故据仓库金部的情况,用户拿握的越深入,将来运用的就更好:数据是向用户介的重点,不仅要介绍讲尽的弱据内容,而且要介绍系统如何保障数据的质量、完整性和可拿性,并且让他们在今后使用中进一步注意这些问题,很可能这就是以后维护,改良的地方;Metadata是数推仓库的管理性敷拷,要告诉用户什么是MeSdata,在何处,如何使用它:图形化的界面和各项功能当然是培调的主要内容:还要介绍数据的更新方案和此后数据的可用性:汇息层次的增加,可能是用户新需求的内容,要让他们题道如何和开发人员一起完成这件事:最后,不要定记平安标准的培削.假设数据仓库的管理员不是系统的开发者,那末该员亦属培刎范B1.培训内容是:数据仓库的建辑和物理模:从O1.TP系统到数据仓库的墩据流:全部的效据转换操作:所有YeIadata的所荏和内容,管理员对Metadata要有相当的熟卷程度才能胜任工作;数据装就和更新的策略:所有平安性问题及其渤度:所有程序文档资料的管理:等等。画忆、总结再开晨在数据仓库的开发过程中要不断的回忆嗝些地方可以做的更好:业务部门对开发的支持是否到位;双方如何合作的更好;什么是业务部门最立竿见影的效拉,知道了就要报住它;什么是开发部门最支竿见影的效会,就要利用它更好地为用户效劳.开发有了一定进展,就要慎重地看看:主题的范图选择是否怡当:是否应卷与的部门却积极主动地参与了工作;有什么阶段成果;发布这些成果的反映如何;业务和开发部门分别有什么反映:公司层的领导是否看到了初步成果:若有问是及时改良.在数据仓里开发完成存要检查:数据仓库的采用是否时公司有所推选:数据仓庠的采用是否挑高了公司的竞争优势;投资的回报率是否到达了厘计的水平:是否有公司的其它部门可利用数帮仓库获得效拉:有没有得到未首期望过的效茴。数据仓库的开发往往是从一个简明的急济主题开始,从中积累经复,并由此也可能会激发用户的新需求.然后不超护大数据仓库的内容和规模.只要你柳扎根打,循序渐进.SAS一定能帮你就立好你们的数据仓库,并使您的部门利用它获得更大的效首,SAS的数据仓库产品SAS/WASRS的数据仓庠是一个非常成熟的软件。它有一个侦应需求的开展历史,在开展中不断完善,实际上已是本领域的灰感产品.连线两年的获奖更说明了业界的拥戴.SAS的效邦仓库产吕SAS系统,多年来就以它的数据的存取,管理,分析和疑现能力供用户作为决策支持的工具来使用。SAS的数据仓库产品SAS/UarehouscAdministrator(简称SRS*A)一方面将原有的这些工具整合在一起;另外,为了更悚准地建立,维护数据仓库和更方便地对敷指仓库和数据市场进行存取,又添加了新的功能和工具:*定义数Jg仓库及其主危*传送和汇总整理数据*更新汇总数推*建立,管理和取用查看Iietadata*设置数据市场定义效据仓麻及其主题在SAS/UA中没置了友好的用户界面供用户定义自己数箔仓库的四成,在前文中已介貂itSAS数搏仓库的体系结构。在SAS/WA导引的定义过程中保证了数据仓库的标准化和体系中谙元素的内隹的应有联系.在进行这些定义后,按照这些联系就形成了一个标准化的敷指仓库体系.SAS/WA在每一步的操作中梆便供了缺省的元素特性,但是根据你的特殊需要,也可以对它进行更改.在这里特别要指出的是:你所定义的数据仓厚.可以建立在SAS数据库中:可建立在一般的DRMS中:还可以戏立在SAS的多缗数据卑产品SAS/MDDB*.在SRS/'MDDB中可形成EF.COdd所指出的运作O1.AP的最正确数据结构多雉数抠结构。这将大大提高数箔查询、访问的遑度和方便程度.传送和汇总整理数据这是通itSAS>A的ProCCSS的EditOr来进行的,它可以定义四种处理过程:* 运行数据的映射(MUPPing)在此定义从输入数据源中取出哪些数据.这些数据如何转换,然后将它们装我到期个主题数据表中去.* 数据传送将歆据从其所在的计算机系琉中选出,SSU'对它进行相应受理,然后使MPRoCUP1.oAD或PROCDOWN1.OAD再把它送到教橱仓库所在计算机系统中,在图1中表示了数抠的传送过程的一个例如.* 记录选取器按飘你规定的某些选取规则选出一个数据子集。形戌数据仓库的其它元素,如相应的表,数据市场或是VIE*等,* 用户出口除了SAS/联所规定的散搭仓库的操作过程外,用户在各个环节均可插入认为需要的数据操作,如图1所示:B数据仓F主题丧开发者7编程序I运行数据定义运行数据定义运行数据定义数据文件数据文件外部文件图1数据仓库的数智传送过程例如更新汇息数据数据仓庠中的数据是按你确定的时序,出动的进行主题数据更新的。更新实际上有两种含义印在原有数据表中进行某些数据的更新:或者是产生一个新的时何区间的数箱新板本,无论是用一种情况,SAS/IIA都会按你授先规定的规则产生一个新的汇总数据。因为汇息数据可能就数据仓库中的许多信息元亲都有关系,这样就保证了全体信息的一致性。速上.萱理和¾步I1.CtHdiItH企业的数据仓库可能是从许多不同的大系统中取出数抠建立的,因此其规模可能比原有的数据库都要大的多。面对这巨大的数据仓库,从戏立伊始就要保正其可管理性.在通过SASZIA建立数据仓库的过程中,将形成一个若干个数据仓库共用的metadata其中包括了:* 数Jg仓库中的各个元素所存放的地方* 在每台计算机系统中都有邺些数据仓库的什么内容* 如何从运行系统的数据源中取出所帚的信息* 其它数岩仓库管理员和用户问需要沟通的信息metadata不仅是胡据仓库的文档费料.可供管理,维护人员使用,而且亦可供用户登询,使之更好的了解散据仓库,银商自己的使用水平.设置她据市场蚊格市场(DataWarD是为了更方便用户的信息利用而

    注意事项

    本文(sas数据仓库与数据挖掘.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开