打造高性能的大数据分析平台.docx
《打造高性能的大数据分析平台.docx》由会员分享,可在线阅读,更多相关《打造高性能的大数据分析平台.docx(10页珍藏版)》请在课桌文档上搜索。
1、大数据时代,大数据的应用与挖掘,大数据的分析和决策,大数据在经济社会的运行轨道上发挥着愈来愈重要的作用。对于大数据分析,现在好多互联网金融公司和传统的商业银行、证券基金公司都特别看重。个个都想在大数据分析中获得重要信息,以此拓宽和巩固自己的经济业务和进展疆域。由此,一个高性能的大数据分析平台就显得极其重要,可以说,一个公司假如打造出了一个高性能的大数据平台,那么它离胜利就比同行更近一步。高性能的大数据分析平台,犹如充分了油的马达,一路向前狂奔,一路高歌猛进。下面,针对打造高性能的大数据分析平台的话题,给大家共享一篇文章,盼望对大家有所借鉴和关心。如何打造高性能的大数据分析平台大数据分析系统作为
2、一个关键性的系统在各个公司快速崛起,但是这种海量规模的数据带来了前所未有的性能挑战。同时,假如大数据分析系统无法在第一时间为运营决策供应关键数据,那么这样的大数据分析系统一文不值。本文将从技术无关的角度争论一些提高性能的方法。下面我们将争论一些能够应用在大数据分析系统不同阶段的技巧和准则(例如数据提取,数据清洗,处理,存储,以及介绍)。本文应作为一个通用准则,以确保最终的大数据分析平台能满意性能要求。1 .大数据是什么?大数据是最近IT界最常用的术语之一。然而对大数据的定义也不尽相同,全部已知的论点例如结构化的和非结构化、大规模的数据等等都不够完整。大数据系统通常被认为具有数据的五个主要特征,
3、通常称为数据的5Vs。分别是大规模,多样性,高效性、精确性和价值性。据Gartner称,大规模可以被定义为“在本(地)机数据采集和处理技术力量不足以为用户带来商业价值。当现有的技术能够针对性的进行改造后来处理这种规模的数据就可以说是一个胜利的大数据解决方案。这种大规模的数据没将不仅仅是来自于现有的数据源,同时也会来自于一些新兴的数据源,例如常规(手持、工业)设施,日志,汽车等,当然包括结构化的和非结构化的数据。据Gartner称,多样性可以定义如下:“高度变异的信息资产,在生产和消费时不进行严格定义的包括多种形式、类型和结构的组合。同时还包括以前的历史数据,由于技术的变革历史数据同样也成为多样
4、性数据之一高效性可以被定义为来自不同源的数据到达的速度。从各种设施,传感器和其他有组织和无组织的数据流都在不断进入IT系统。由此,实时分析和对于该数据的解释(展现)的力量也应当随之增加。依据Garmer,高效性可以被定义如下:”高速的数据流1/0(生产和消费),但主要聚焦在一个数据集内或多个数据集之间的数据生产的速率可变上精确性,或真实性或叫做精度是数据的另一个重要组成方面。要做出正确的商业决策,当务之急是在数据上进行的全部分析必需是正确和精确(精确)的。大数据系统可以供应巨大的商业价值。像电信,金融,电子商务,社交媒体等,已经熟悉到他们的数据是一个潜在的巨大的商机。他们可以猜测用户行为,并推
5、举相关产品,供应危急交易预警服务,等等。与其他IT系统一样,性能是大数据系统获得胜利的关键。本文的中心主旨是要说明如何让大数据系统保证其性能。2 .大数据系统应包含的功能模块大数据系统应当包含的功能模块,首先是能够从多种数据源猎取数据的功能,数据的预处理(例如,清洗,验证等),存储数据,数据处理、数据分析等(例如做猜测分析,生成在线使用建议等等),最终呈现和可视化的总结、汇总结果。下图描述了大数据系统的这些高层次的组件:2.1 各种各样的数据源当今的IT生态系统,需要对各种不同种类来源的数据进行分析。这些来源可能是从在线Web应用程序,批量上传或feed,流媒体直播数据,来自工业、手持、家居传
6、感的任何东西等等。明显从不同数据源猎取的数据具有不同的格式、使用不同的合同。例如,在线的Web应用程序可能会使用SOAPxmxxxxl格式通过HTTP发送数据,feed可能会来自于CSV文件,其他设施则可能使用MQTT通信合同。由于这些单独的系统的性能是不在大数据系统的掌握范围之内,并且通常这些系统都是外部应用程序,由第三方供应商或团队供应并维护,所以本文将不会在深化到这些系统的性能分析中去。2.2 数据采集第一步,猎取数据。这个过程包括分析,验证,清洗,转换,去重,然后存到适合你们公司的一个长久化设施中(硬盘、存储、云等)。在下面的章节中,本文将重点介绍一些关于如何猎取数据方面的特别重要的技
7、巧。请留意,本文将不争论各种数据采集技术的优缺点。2.3 存储数据其次步,一旦数据进入大数据系统,清洗,并转化为所需格式时,这些过程都将在数据存储到一个合适的长久化层中进行。在下面的章节中,本文将介绍一些存储方面的最佳实践(包括规律上和物理上)。在本文结尾也会争论一部分涉及数据平安方面的问题。2.4 数据处理和分析第三步,在这一阶段中的一部分洁净数据是去法律规范化的,包括对一些相关的数据集的数据进行一些排序,在规定的时间间隔内进行数据结果归集,执行机器学习算法,猜测分析等。在下面的章节中,本文将针对大数据系统性能优化介绍一些进行数据处理和分析的最佳实践。2.5 数据的可视化和数据展现最终一个步
8、骤,展现经过各个不同分析算法处理过的数据结果。该步骤包括从预先计算汇总的结果(或其他类似数据集)中的读取和用一种友好界面或者表格(图表等等)的形式展现出来。这样便于对于数据分析结果的理解。3 .数据采集中的性能技巧数据采集是各种来自不同数据源的数据进入大数据系统的第一步。这个步骤的性能将会直接打算在一个给定的时间段内大数据系统能够处理的数据量的力量。数据采集过程基于对该系统的共性化需求,但一些常用执行的步骤是-解析传入数据,做必要的验证,数据清楚,例如数据去重,转换格式,并将其存储到某种长久层。涉及数据采集过程的规律步骤示如下图所示:下面是一些性能方面的技巧:来自不同数据源的传输应当是异步的。
9、可以使用文件来传输、或者使用面对消息的(MOM)中间件来实现。由于数据异步传输,所以数据采集过程的吞吐量可以大大高于大数据系统的处理力量。异步数据传输同样可以在大数据系统和不同的数据源之间进行解耦。大数据基础架构设计使得其很简洁进行动态伸缩,数据采集的峰值流量对于大数据系统来说算是平安的。假如数据是直接从一些外部数据库中抽取的,确保拉取数据是使用批量的方式。假如数据是从feedfile解析,请务必使用合适的解析器。例如,假如从一个XmXXXXl文件中读取也有不同的解析器像JDoM,SAX,DOM等。类似地,对于CSV,JSoN和其它这样的格式,多个解析器和APl是可供选择。选择能够符合需求的性
10、能最好的。优先使用内置的验证解决方案。大多数解析/验证工作流程的通常运行在服务器环境(ESB/应用服务器)中。大部分的场景基本上都有现成的标准校验工具。在大多数的状况下,这些标准的现成的工具一般来说要比你自己开发的工具性能要好很多。类似地,假如数据XmXXXXl格式的,优先使用XmXXXXl(XSD)用于验证。即使解析器或者校等流程使用自定义的脚原来完成,例如使用java优先还是应当使用内置的函数库或者开发框架。在大多数的状况下通常会比你开发任何自定义代码快得多。尽量提前滤掉无效数据,以便后续的处理流程都不用在无效数据上铺张过多的计算力量。大多数系统处理无效数据的做法通常是存放在一个特地的表中
11、,请在系统建设之初考虑这部分的数据库存储和其他额外的存储开销。假如来自数据源的数据需要清洗,例如去掉一些不需要的信息,尽量保持全部数据源的抽取程序版本全都,确保一次处理的是一个大批量的数据,而不是一条纪录一条纪录的来处理。一般来说数据清洗需要进行表关联。数据清洗中需要用到的静态数据关联一次,并且一次处理一个很大的批量就能够大幅提高数据处理效率。数据去重特别重要这个过程打算了主键的是由哪些字段构成。通常主键都是时间戳或者id等可以追加的类型。一般状况下,每条纪录都可能依据主键进行索引来更新,所以最好能够让主键简洁一些,以保证在更新的时候检索的性能。 来自多个源接收的数据可以是不同的格式。有时,需
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 打造 性能 数据 分析 平台

链接地址:https://www.desk33.com/p-427581.html