大数据教程01第一章大数据概述.pptx
《大数据教程01第一章大数据概述.pptx》由会员分享,可在线阅读,更多相关《大数据教程01第一章大数据概述.pptx(52页珍藏版)》请在课桌文档上搜索。
1、,大数据基础教程,Fundamentals of Big Data,教材及参考书,内容安排,第一章,大数据基础,大数据基础教程 Fundamentals of Big Data,第一章 大数据基础,第一章 大数据基础,本章目标,1.1 大数据发展背景概述,1.1.1 引言,随着IT社区日益庞大,全球的大数据技术和服务市场,都有着巨大的收益。大数据的市场融合技术以及服务,正在形成迅猛发展的势头。学习掌握大数据技术,不仅是提高自身的竞争优势,同时也是顺应时代的要求。,1.1 大数据发展背景概述,1.1.2 发展历程,提出数据增长的挑战和机遇有三个方向:量、速与多变。,提出“BigData”的概念。
2、大数据得到较为广泛的认可。,欧洲领先的研究型图书馆与科技信息研究机构建立伙伴关系。,工信部发布的物联网“十二五规划”,信息处理技术被作为4 项关键技术创新工程之一被提出来。,德国联邦政府启动“数字德国2015”战略,实现全球互联。,1.1.2 发展历程,联合国在纽约发布大数据政务的白皮书大数据促发展:挑战与机遇。,互联网巨头发布机器学习产品。,“大数据”成为国内热议词汇。,大数据的在企业中的应用比例逐步上升。,大数据“十三五”规划出台。,第一章 大数据基础,1.2 大数据相关概念及特点,1.2.1 大数据特点,1.2 大数据相关概念及特点,1.2.2 相关概念介绍,1.云计算(Cloud co
3、mputing)NIST定义:云计算是一种按使用量付费的模式。中国云计算专家刘鹏教授定义:“云计算是通过网络提供可伸缩的廉价的分布式计算能力。”2.集群(Clustering)指将多台计算机或者服务器通过物理上以及软件上的部署,使其像一台计算机一样被使用。集群强调的是扩展。3.分布式(Distribute)指是将任务或者数据切分到不同的服务器进行计算或者存储,分布式强调的是切分。4.数据挖掘(Data mining)通过算法从海量的数据中搜寻隐藏的有意义的信息,这一过程被称之为数据挖掘。,第一章 大数据基础,1.3 大数据应用过程,1.3.1 数据采集,对数据进行采集是大数据应用生命周期中的第
4、一个环节,通常是使用ETL(Extract-Transform-Load)工具将分布的、异构的数据源中的数据。采集的方法主要包括以下三类:1.系统日志采集:收集业务日志数据供离线和在线的分析系统使用。目前常用的开源日志收集系统有Flume、Scribe等。2.网络数据采集:网络数据采集是指通过网络爬虫或调用网站公开API等方式从网站上获取数据的过程。3.数据库采集:一些企业会使用传统的关系型数据库MySQL或者Oracle等来存储数据。此外,像Redis和MongoDB这样的NoSQL数据库也常用于数据库的采集。,1.3 大数据应用过程,1.3.2 预处理,数据预处理是对采集到的原始数据进行清
5、洗、填补、平滑、合并、规格化以及检查一致性等操作的过程。数据预处理通常包含以下三个部分:1.数据清理:对源数据进行过滤、去噪,从中提取出有效的数据,主要的处理内容包含:遗漏值处理、噪音数据处理、不一致数据处理。2.数据集成与变换:将多个数据源中的数据整合到一个数据库的过程。集成数据需要重点解决模式匹配、数据冗余、数据值冲突检测与处理三个问题。3.数据规约:数据规约主要包括:数据聚集、维规约、数据压缩、数值规约和概念分层等。使用数据规约技术可以将数据集进行规约表示,在减小数据集规模的同时能保持原数据的完整性。,1.3 大数据应用过程,1.3.3 数据存储管理,将采集到的数据进行预处理后,需要将其
6、存储起来,便于管理和调用。用来对大数据进行存储和管理的数据库系统:1.分布式文件存储系统:主要特点是将复杂的问题进行分解,将大任务分解为多个小任务,然后通过使用多个处理器或多个计算机节点来进行计算从而提高解决问题的效率。2.NoSQL数据库:采用异于传统关系型数据库的设计思想,采用新的方案来解决传统关系型数据库在扩展性方面的不足。3.NewSQL数据库:NewSQL数据库既能提供SQL数据库的质量保证,也能提供NoSQL数据库的可扩展性。,1.3 大数据应用过程,1.3.4 数据挖掘分析,对数据进行挖掘分析的主要目的是找出隐藏在大量数据中有价值的信息,将其进行提炼,发现其中的内在规律,并根据实
7、际的业务需求,将这些有价值的信息应用到决策中。对大数据挖掘分析的研究主要有以下几个方面:1.可视化分析:将数据进行可视化,可以使数据的特点和规律更加直观清晰的展示出来,容易被读者接收,还能提高分析效率,加快分析速度。2.预测性分析:帮助分析结构化和非结构化数据中的趋势、模式和关系,并运用这些指标来洞察预测未来事件,为决策者进行决策提供帮助支持3.数据语义引擎:是语义技术最直接的应用,让用户更快、更准确、更全面地获取到所需要的信息。4.数据质量和数据管理:保证结果的真实性和价值性。,第一章 大数据基础,1.4 大数据技术,1.4.1 大数据集群,大数据集群是指由网络互相连接的多个独立服务器的集合
8、。主要用于解决数据库的负载均衡以及增加数据库服务器的可持续性,高可用性等问题。,1.4.1 大数据集群,大数据集群的模式负载均衡和冗余基于 DNS 负载均衡是通过 DNS 服务中的域名解析来实现负载均衡,在 DNS服务器中,可以为多个不同的地址配置同一个名字,而最终查询这个名字的客户机将在解析这个名字时得到其中一个地址。冗余模式,主要分为全冗余备份、互为冗余备份、中央备份服务器三种模式。,1.4.1 大数据集群,大数据集群的部署硬件部署、软件部署和高可用性部署硬件的部署:大数据集群目前支持所有主流的操作系统,如CentOS,Fedora,Ubuntu,AIX,Windows,SLES,Debi
9、an,RedHat等。软件的部署:在硬件集群已经建立完成的基础上,并行在各个节点上安装大数据分析处理系统,如Spark Cluster。高可用性部署:在硬件和软件部署的基础上,要达到高性能的部署,通常需要有主节点和多个次节点构成,以保证对海量数据的高效分布式并行计算。,1.4.1 大数据集群,大数据集群的优点高可扩展性集群。多个服务器可以执行相同的应用程序和数据库操作。高可用性群集。高可用性是指防止系统故障或自动从故障中恢复而无需操作员介入的能力。高可管理性集群。系统管理员只需要便捷的通过远程管理一个甚至是一组集群。高安全性集群。集群可以定时定期对整个集群系统进行备份,以保证数据的安全和可追溯
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 教程 01 第一章 概述
链接地址:https://www.desk33.com/p-362822.html