欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > PPTX文档下载  

    面对大数据的数据仓库系统.pptx

    • 资源ID:381854       资源大小:1.39MB        全文页数:45页
    • 资源格式: PPTX        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    面对大数据的数据仓库系统.pptx

    ,大数据分析原理与实践10、面对大数据的数据仓库系统,数据仓库,数据分析的对象是“数据”因此必须对数据进行有效管理,这便是数据仓库的职责。数据仓库两方面的需求可扩展性和高效率。面对大数据的数据仓库系统对这个需求要求更高,因此分布式数据仓库系统和内存数据仓库系统应运而生。,什么是数据仓库,一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持管理中的决策指定过程。W.H.Inmon 美国著名信息工程学家、数据仓库之父,什么是数据仓库,一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持管理中的决策指定过程。W.H.Inmon 美国著名信息工程学家、数据仓库之父,什么是数据仓库,1.面向主题这意味着在数据仓库的设计过程中,数据以所代表的业务内容划分,而不是以应用划分。2.数据集成性数据仓库中的数据采取统一的格式和编码方式。3.稳定的这意味着数据仓库中的数据不进行实时更新。4.与时间相关的这意味数据仓库中的数据组织方式要便于按时间段计算和提取数据。,数据仓库的内涵,1.支持多种数据源数据仓库应支持多种数据源,不仅仅是数据库,还应有各种数据文件、文本文件、应用程序等。2.不只存放数据数据仓库中存放的应该不仅是供分析使用的数据,还应有在一定激发条件下能主动起作用的处理规则、算法、甚至是过程。,3.虚拟数据仓库传统的物理数据仓库方法并非唯一的选择,应根据需求的具体情况,建立虚拟数据仓库的解决方案。4.汇总并统一据仓库中的数据并不完全是原始数据的简单归并和搬家,而应该是增值和统一。因此“汇总并统一”是数据仓库的必须内涵描述。,四个基本功能,1.数据定义这部分主要完成数据仓库的结构和环境的定义。2.数据提取这部分负责从数据源提取数据,并对获得的源数据进行必要的加工处理,使其成为数据仓库可以管理的数据格式和语义规范。3.数据管理数据管理由一组系统服务工具组成,负责数据的分配和维护,支持数据应用。4.数据应用数据仓库的数据应用除了一般的直接检索性使用外,还应当能够完成比较常用的数据表示和分析,如图表表示、统计分析、结构分析等。,数据仓库系统的体系结构,1.元数据是关于数据的数据,是关于数据和信息资源的描述信息。是数据仓库的核心。,数据仓库系统的体系结构,1.元数据2.源数据是分布在不同应用系统中,存储在不同平台和不同数据库中的大量数据信息。是数据仓库的物质基础。,数据仓库系统的体系结构,1.元数据2.源数据3.数据变换工具为了优化数据仓库的分析性能,源数据必须经过变换以最适宜的方式进入数据仓库。包括数据抽取,数据转换,数据装载。,数据仓库系统的体系结构,1.元数据2.源数据3.数据变换工具4.数据仓库源数据经过变换后进入数据仓库。数据仓库以多维方式来组织数据和显示数据。属性维和时间维时数据仓库反映现实世界动态变化的基础,它们的数据组织方式时整个数据仓库的关键。,数据仓库系统的体系结构,1.元数据2.源数据3.数据变换工具4.数据仓库5.数据分析工具数据库系统的目标是提供决策支持,它不仅需要一般的统计分析工具,更需要强大的分析和挖掘工具。,数据仓库系统的体系结构,1.元数据2.源数据3.数据变换工具4.数据仓库5.数据分析工具分析工具主要用于对数据仓库中的数据进行分析和综合。挖掘工具负责从大量数据中发现数据之间的关系,找到可能忽略的信息,预测趋势和行为。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,主题在数据分析或前端展现的某一方面的分析对象,例如分析某年某月某一地区的啤酒销售情况。一个主题在数据仓库中即为一个数据集市,数据集市体现了某一方面的信息,多个数据集市构成了数据仓库。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,确定主题确定主题需要综合考虑。主题的确定必须建立在现有联机事务处理(OLTP)系统的基础上,否则按此主题设计的数据仓库将成为一个空壳,缺少可存储的数据。但一味注重OLTP数据信息,也将迷失数据提取方向,偏离主题。故需要在OLTP数据和主题之间找到一个”平衡点“。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,选择合适的软件平台数据库、建模工具、分析工具等。需要考虑的因素系统对数据量、响应时间、分析功能的要求等。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,需要考虑的因素一些公认的标准:数据库对大数据量的支持能力数据库是否支持并行操作能否提供数据仓库的建模工具是否支持对源数据的管理能否提供支持大数据量的数据加载、转换、传输工具能否提供完整的决策工具集能否满足数据仓库中各类用户的需要,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,数据仓库的模型包括逻辑模型和数据模型。什么是逻辑模型数据仓库的逻辑模型是为解决业务需求而定义的数据仓库模型的解决方案。它是指导进行数据存放、数据组织以及如何支持定义的蓝图,用以定义需要追踪和管理的各种重要实体、属性和关系。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,逻辑模型的建立首先,确定建立数据仓库逻辑模型的基本方法。然后,基于主题试图,把主题视图中的数据定义转到逻辑数据模型中。继而识别主题之间的关系,分解多对多的关系。最后,对逻辑模型加以校验,包括利用数据库的范式理论检验逻辑数据模型的自动方法和由用户审核逻辑数据模型的人工方法。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,数据模型建立的步骤删除非战略性数据 数据仓库模型中不需要包含逻辑数据模型中的全部数据项,需要删除某些用于操作处理的数据项。增加时间主键 数据仓库中的数据一定是时间的快照,因此必须增加时间主键。增加派生数据 对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。加入不同级别粒度的汇总数据 粒度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的查询类型。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,粒度粒度级别越低,支持的查询越多;反之,能支持的查询就越少。对数据操作的效率与能得到数据的详细程度是矛盾的。通常,人们希望建成的系统既有较高的效率,又能得到所需的详细资料。实施数据仓库的一个重要原则就是不要试图包括所有详细数据,因为90%的分析需求是在汇总数据上进行的。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,数据模型的三个重要因素量度 量度是依据数据仓库的主题,要分析的技术指标。如年销售额,一般为数值型数据,或者将该数据汇总,或者将该数据取最大/小值等。事实数据粒度“最小粒度原则”。如按照时间对销售额进行汇总的情况下,如果OLTP数据库中记录了每天的交易额,那么最好不要在数据仓库中进行按月或者年汇总,需要保持到“天”,以便后续的分析。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,数据模型的三个重要因素维度 例如,我们希望按照时间、地区或者产品进行分析,那么时间、地区、产品就是相应的维度。这里首先要确定维度的层次和级别。维度的层次是指该维度的所有级别,包括各级别的属性;维度的级别是指该维度下的成员。例如,建立地区维度时,我们将地区维度作为一个级别,层次为省、市、县三层。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,4.数据仓库数据模型优化,优化的目的在设计数据仓库时,性能是一项主要考虑的因素。在数据仓库建成后,也需要经常对其性能进行监控,并依据需求和数据量的变更对数据仓库的数据模型进行优化,以提高性能。优化的方法合并不同的数据表增加汇总表避免数据的动态汇总通过冗余字段减少表连接的数量使用ID而不是描述信息作为键值对数据表做分区等等,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,6.开发数据仓库的分析应用,7.数据仓库的管理,5.数据清洗、转换和传输,为什么要进行这一步业务系统所使用的软硬件平台不同,编码方式不同。在业务系统中的数据加载到数据仓库之间,必须对其进行清晰和转换,以保证数据仓库中数据的一致性。数据加载方案的几项要求加载方案必须能够支持访问不同数据库和文件系统。数据的清洗、转换和传输必须能够在规定的时间范围内完成。支持各种转换方法。支持增量加载。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,7.数据仓库的管理,6.开发数据仓库的分析应用,建立数据仓库的最终目的是为业务部门提供决策支持能力,因此必须为业务部门选择合适的工具。几项要求全面 必须能够满足用户的全部分析功能要求。灵活的表现形式 使分析的结果能够以直观、灵活的方式表现。接口和集成 事实上,没有一种工具能够满足数据仓库的全部分析功能需求,一个完整的数据仓库系统的功能可能是由多种工具实现的,因此必须考虑接口和集成问题。,数据仓库系统的建立,2.选择平台,3.建立数据仓库的模型,4.数据仓库数据模型优化,5.数据清洗、转换和传输,6.开发数据仓库的分析应用,7.数据仓库的管理,需要考虑的几个方面安全性管理 数据仓库中的用户只能访问到其授权范围内的数据,即数据在传输过程中的加密策略。备份和恢复 数据仓库的大小和备份频率直接影响到到备份策略。如何保证系统的可用性 硬件方法或软件方法。数据老化 设计数据仓库中数据的存放时间周期和对过期数据的处理办法,如历史数据值保存汇总数据,当年数据保存详细记录。源数据的管理 维护数据采集、数据管理和数据展现阶段的不同源数据。,Hadoop上数据仓库系统的设计动机基于Hadoop的数据仓库系统,Hadoop上数据仓库系统的设计动机,容错性与性能的一个折中并行数据库技术并行数据管理系统(PDBMS)支持标准的关系表以及SQL。性能上有很好的竞争力,但在容错以及可扩展性上表现不佳。MapReduceMapReduce的表现则和PDBMS互补,它有很好的容错性以及扩展性,但其性能以及效率方面却有所丢失。,基于Hadoop的数据仓库系统:Hive,Hive是基于Hadoop的开源数据仓库系统解决方案。它具有如下特点支持像SQL语言相似的查询;提供数据仓库架构;提供工具包使数据的ETL实现更加方便;允许程序自定义映射以及消减操作。,基于Hadoop的数据仓库系统:Hive,基于Hadoop的数据仓库系统:HadoopDB,MapReduce与DBMS的结合HadoopDB是一个MapReduce和传统关系型数据库的结合方案,以充分利用RDBMS的性能和Hadoop的容错、分布特性。2009年被Yale大学教授Abadi提出,继而商业化为Hadapt。,基于Hadoop的数据仓库系统:HadoopDB,HadoopDB的整体框架,Shark:基于Spark的数据仓库系统,SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。,Shark:基于Spark的数据仓库系统,SharkShark是UC Berkeley AMPLAB开源的一款数据仓库产品,它完全兼容Hive的HQL语法,但与Hive不同的是,Hive的计算框架采用Hadoop,而Shark采用Spark。所以,Hive是SQL on Map-Reduce,而Shark是Hive on Spark。,Mesa,MesaMesa是一个具备跨地域复制和近实时特性的可扩展的分析型数据仓库系统,Mesa由Google公司开发,其动机为了给Google的核心业务互联网广告铺路。谷歌研究人员在报告中表示:“Mesa能够处理数千兆字节的数据、每秒数百万行的更新以及每天数十亿查询请求。”,SAP HANA,HANAHANA是一个提供高性能的数据查询功能的软硬件结合体,用户可以直接对大量实时业务数据进行查询和分析,而不需要对业务数据进行建模、聚合等。,HANA的内存数据库(SAP In-Memory Database,IMDB)是其重要组成部分,包括数据库服务器(In-Memory Database Server)、建模工具(Studio)和客户端工具(ODBO、JDBC、ODBC、SQLDBC等)。HANA的计算引擎(Computing Engine)是其核心,负责解析并处理对大量数据的各类CRUDQ操作,支持SQL和MDX语句、SAP和non-SAP数据。,SAP HANA,SAP HANA系统架构,Hyper,Hyper出现的背景联机事务处理(OLTP)和数据库架构联机分析处理(OLAP)两个领域对于构建数据库呈现两个不同的挑战,拥有关键任务记录的客户已经高效地将他们的数据拆分到两个独立的系统中,一个数据库用于OLTP,所以叫做OLTP的数据仓库。在允许适当的交易率的同时,这种分离也有一些缺点,包括由于只是定期分期启动提取转换加载数据而造成的数据新鲜度的延迟问题,以及为了维护两个独立的信息系统而造成的过度的消耗资源。因而提出了一个高效的混合动力系统,被称之为HyPer,他可以通过使用硬件辅助的复制机制来维持事务性数据的一致的快照来同时处理OLTP和OLAP。,Hyper,Hyper出现的背景HyPer是一个主内存数据库系统,它可以保证OLTP事务的ACID属性和相同的方法执行OLAP查询会话(多个查询)。虚拟内存管理(地址转换,缓存,复制更新)处理器的内在支持的利用率都在同一时间产生:高达100,000每秒的速度的空前的高成交率,在单一的系统并行执行两个工作负载时,OLAP的查询的响应时间也是非常的快。对其进行性能的分析是基于一个结合TPC-C和TPC-H的基准。,谢谢!,Thanks for your attention!,

    注意事项

    本文(面对大数据的数据仓库系统.pptx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开