“大数据”的认识与思考22.docx
《“大数据”的认识与思考22.docx》由会员分享,可在线阅读,更多相关《“大数据”的认识与思考22.docx(18页珍藏版)》请在课桌文档上搜索。
1、)Nn三iM1三1.三-三11m三三SS1.iSIORAGERk)IpiBJN三JU三SDW-VWP“大数据”的认识与思考刘姝祎目录1 “大数据”的时代背毋41.1 “大数据”的概念41.2 “大数据”产生的背景41.3 “大数据”的特征51.4 “大数据”的开展阶段51.5 “大数据”带来的机遇62 “大数据”的关键技术82.1 1“大数据”的采集和预处理82.2 “大数据*存储技术92.3 “大数据”分析技术92.4 “大数据”与云计算103大数据产业的应用113.1 大数据产业113.2 “大数据”在典型领域中的应用123.3 智慧城市:立体的大数据生态系统133. 3.1智款城市的产生
2、134. 3.2全球智慧城市的实践133.3.3.中国智慧城市144问题与挑战164. 1数据质量164. 2数据平安164. 3用户隐私与便利性的冲突164. 4庞大能耗164. 5数据分析与管理人才紧缺164. 6跟风现象较为严重175. 7缺少技术创新水平较高的互联网公司175对大数据产业开展的建议186. I政府方面187. 2企业方面19195.3公众方面1 “大数据.的时代背景1.1 “大数据”的概念纽约时报在2012年宣布“大数据时代”已经降临,“大数据”成为了时下最炽热的词汇。顾名思义,大数据是“无法任意时间内用常规软件工具对其内容进行抓取、管理和处理的大量而笈杂的数据集合.G
3、artner认为大数据是“需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”。大数据”的要义是尽可能地收集众多可以相互叠加补充的信息,据以完成对“未来的预测。这些数据可能有些混乱,甚至会出现批漏,但数据量的“多”和时间的“即刻”可以弥补数据质量的瑕疵,“大数据”将以最快的速度“预测”出最可能”的答案,指引人们迅速采取行动。1.2 “大数据”产生的背景大数据的应用和技术是在互联网快速开展中诞生的,起点可追溯到2000年前后。当时互联网网页爆发式增长,每天新增约700万个网页,到2000年底全球网页数到达40亿,用户检索信息越来越不方便。谷歌等公司率先
4、建立广覆盖数十亿阿页的索引库,开始提供较为精确的搜索效劳,大大提升了人们使用无联网的效率,这是大数据应用的起点。当时搜索引擎要存储和处理的数据,不仅数量之大前所未仃,而且以非结构化数据为主,传统技术无法应对。为此,谷歌提出了套以分布式为特征的全新技术体系,即后来砧续公开的分布式文件系统(GFS,Goog1.e),分布式并行计算(VaPRedUCe)和分布式数据库(BigTabIe)等技术,以较低的本钱实现了之前技术无法到达的规模.这些技术奠定/当前大数据技术的基础,可以认为是大数据技术的源头。伴随着互联网产业的崛起,这种创新的海域数据处理技术在电子商务、定向广告、智能推荐、社交网络等方面得到应
5、用,取得巨大的商业成功。这启发全社会开始重新审视数据的巨大价值,于是金融、电信等拥有大量数据的行业开始尝试这种新的理念和技术,取得初步成效.与此同时,业界也在不断对谷歌提出的技术体系进行扩展,使之能在更多的场景卜使用。2011年,麦肯锡、世界经济论坛等知名机构对这种数据驱动的创新进行了研究总结,随即在全世界兴起了股大数据热潮。2012年3月,美国政府发布大数据研究和开展方案3,同时组建大数据高级指导小组,以协调政府在数据领域的两亿多美元投资.根据这一方案,美国希里利用大数据技术再多个领域实现突破,包括科研教学、环境保护、国土平安等,此举标志若,美国把应对大数据技术革命带来的机遇和挑战,提高到国
6、家战略层面,形成了全体发动格局。随后,英国、法国、日本等各国都相继将大数据方案作为国家战略型方案提上日程。值得一提的是,由中国各级政府主导的大数据方案也已经全面展开,“大数据”已成为推动我国经济和科技开展的重要力量。1.3 “大数据.的特征“大数据”具有州的特点:是数据容量巨大(Vo1.ume)。国际数据公司(IDC)的研究报告称,2011年全球被创立和被复制的数据总量为1.8ZB(2的70次方),并预测到2020年,全球将拥有35ZB的数据量。二是数据类型众多(Variety).相对于过往以文本形式为主的结构化数据,大数据时代的数据类型涵盖/图片、音频、视频、网络H志和地理位巴信息等种类繁多
7、的半结构化和非结构化数据。三是数据价值密度低(Va1.uo)e举例而言,在个连续监控三个小时的视嫉中,能够提供有效信息帮助刑侦人员破案的画面可能只有三五秒.四是处理数据的速度要求非常快(Ve1.ocity),一方面,面对如此巨大的数据量,处理效率至关重要,另一方面,越来越多的处理需要在瞬间完成以便做出及时的反应。在此基础上,阿里巴巴延伸至3个维度一可实时性、可解释性、数据准确性程定性,这三个维度是决定数据是否有价值的关键。1.4 “大数据”的开展阶段每种技术都有自己的生命周期,GartnCr曾经指出新技术生命周期的5个阶段,即技术萌芽期(techno1.ogyIrigger)、期望膨胀期(Pe
8、HkofInf1.atedEXpeCta1.iOns)、泡沫化的谷底期(ThroughofDisi1.Iusionment)稳步爬升的光明期(S1.opeofEn1.ightement).最后才能进入成熟使用期(P1.ateauofProductivity)如下列图1-1所示图1-1大数据生命周期命而大数据正是出于期望膨胀期,预计通过近两年的开展,大数据将会在2016年到达泡沫化的低谷期,之后在5-10年的时间内经历槎步爬上的光明期,到2020年后将会到达实质的成热使用期。1.5“大数据,带来的机遇(1)新一代信息技术融合应用新焦点对大数据的处理和分析正成为未来新一代信息技术腱合应用的核心支撑
9、结点。物联网、移动互联网、数字家庭、社会化网络等都是新一代信息技术具体的应用形态,大数据伴随这些应用不断增长,云计算则为这些海量的、多样化的大数据提供存储和运算的支撑平台。以大数据为结点,各项新代信息技术应用产生的信息将不断聚集,并通过对不同来源数据的统性、综合性的处理、分析与优化,将结果反应或交叉反应到物联网、移动互联网、数字家庭、社会化网络等应用中,又进一步改善使用体验,并创造出巨大的商业价值、经济价值和社会价值。(2)信息产业持续高速增长的新引擎大数据因其巨大的商业价值和市场需求正在推动着信息产业持续高速增长。随着行业用户对大数据价值的认可程度增加,市场需求将出现井喷,面向大数据市场的新
10、技术、新产品、新效劳、新业态将会不断涌现,大数据将为信息产业翻开一个高增长的新市场.在硬件与集成设备领域,大数据面临的有效存储、快速读写、实时分析等挑战,将对芯片、存储产业产生重要影响,还将催生体化数据存储处理效劳器、内存计算等市场。在软件与效劳领域,因为大数据中蒸含的巨大价值,,带来对数据快速处理和分析的迫切需求,将引发数据挖掘、商业智能市场的空前繁荣。3)用户提升竞争能力的新动力对大数据的利用将成为企业提高核心竞争力、并抢占市场先机的关键。企业的决策正在从“业务驱动转变为数据业动”o在未来3到5年,我们将会看到那些真正理解大数据并能利用大数据进行价值挖掘的企业和不懂得大数据价值挖掘企业之间
11、的差距.真正能够利用好大数据、并将其价值转化成生产力的企业必将具备强劲有力的竞争优势,从而成为行业的领导者。在零售行业,对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对:在互联网行业,对大数据的分析可以为商家制定更加精准有效的营销策略提供决策支持:在效劳行业,对大数据的分析可以帮助企业为消费者提供更加及时和个性化的效劳:甚至在公共事业领域,大数据也开始发挥促进经济开展、维护社会稳定等不可小蜕的重要作用。(4)推动商业模式的创新对于海量数据而言,提供高附加价值的数据分析效劳,将数据封装为效劳形成可对外开放、可商业化的核心能力,实现商业模式的创新,才是大数据运用的关键所在。对F政府和企业而
12、言,至少可以实践4种商业模式的创新。第一是客户关系管理的创新,通过大数据分析可以根据客户的屈性,从不同角度深层次分析客户、了解客户,推出新的客户关系管理平台,以增加新的客户,提高客户的忠诚度,降低客户流失率。第二是企业经营决策指导的创新。企业可以利用用户数据,有效提升资源利用能力,提高决策的准确性,从而提升整体运营效率。如,沃尔玛通过分析客户购置产品的种类组合,适时推出产品联合促俏信息,以提升产品的销量。第三是个性化精准推荐。企业根据用户喜好推存各类产品和业务,如淘宝根据分析客户的检索数据,适时向客户推送相关产品的广告信息。第四是创新社会管理。政府可以将大数据运用到交通、应对突发灾击、维梅等领
13、域中。如,在大数据的帮助下,什么时间段、哪条路拥堵等问题,都可以通过分析得知,通过同条路上多个用户的手机位移速度,便可以判断当时的路况,为拥堵做出准确预警.2大数据*的关键技术“大数据”己经不仅是数据大这一事实r,更重要的是要对大数据进行分析以获取更多智能、深入和有价值的信息。而随着“大数据”在越来越多的领域得到应用,“大数据”也变得越来越更杂,因此“大数据-处理技术在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。大数据应用分析结果需耍经过数据采桀、预处理、存储、分析和挖掘等多多个环节才能最终呈现出来。2.1 “大数据.的采集和颈处理在数据分析界有着一个“拇指法则”,即
14、数据分析工作至少有70限80%的时间都花在搜集和准备数据上,而仅有20限30%的时间花在分析木身上。随着新技术采集手段的出现,数据来源和数据类型变得丰宏多彩,企业和机构采集数据首先需要明确所需的数据内容,并制定好数据分类存储规则,以便更有效的采集数据。按照数据所有者划分,企业数据采集源可以分成3类:一类是企业和机构的内部数据.如系统日志、生产经营数据等:类是合作机构的内部数据,可以通过设定好企业与合作机构的系统接口进行采集:还有一类是大量的网络公开数据,可以通过网络爬虫或者网站公开的应用开发接口(API)将所需信息从网页中采集出来。目前一些瓦联网企业和开源社区开发的海量数据采集工具,如FaCC
15、boOk的日志采集工具SCribe、淘宝的实时数据传输平台TimCTUnnC1.等,均已能够满足每杪数百MB的日志数据采集和传输需求.卜面就物联网及社交网络这两个“大数据”的新唱来源进行荷单的介绍。(1) “大数据与物联网物联网是一个信息技术领域的热词,其本质是传感器技术进步的产物.遍布大街小巷的摄像头,是大家可以直观感受到的种物联网形态。事实上,传感器几乎无处不在,现在大家常用的智能手机中,就包括重力感应器、加速度感应器、距离感应泯、光线感应器、陀螺仪、电子罗盘、摄像头等各类传感器,这些不同类型的传感曙,无时无刻不在产生大量的数据,这些成为大数据的重要来源之。妥善的利用这些数据可以监测大气的
16、温度、压强、风力,监测桥梁、矿井的平安,监测乜机、汽车的行驶状态等。(2) “大数据“与社交网络社交网络是互联网开展史上一个揖要的里程碑.它把人类真实的人际关系完美地映射到互联网空间,并借助互联网的特性而大大升华。社交网络使得互联网甚至具备某些人类的特质,瞥如“情绪”:人们分享各自的喜怒衰乐,并相互传染传播,社交网络为“大数据”带来类最具活力的数据类型,人们的喜好和偏爱.由于现实采集的数据与大数据分析过程中所需的数据,会存在结构不一致或不完照的情况,大数据预处理过程可以通过数据提取、转换和加载等操作,对采集的数据进行初步的组织和数量,从而提高大数据分析质员和效率。(3) “大数据”存储技术大数
17、据存储需要满足海量存储、平安存储和快速读取的要求。其中海量存储包含数据容量和数据文件址两个方面,为保蹿系统存储容fit能够以较低本钱存储海量数据并能实现快速平滑扩展,分布式存储和存储虚拟化技术被广泛采用:为更好的对系统中海域文件进行有效管理,聘数据传输和数据控制别离开的对象存储架构应用广泛.为了保障数据平安存储不丧失,大数据存储过程中会采用加密等平安技术,InJ时会对数据进行数次备份。为/支持数据的快速读取和并发访问,分布式存储和对象存储架构将会更有效。目前应用广泛的大数据海量文件存储技术主要有谷歌文件系统(GFS)和基于GFS开展的开源HadOOP分布式文件系统(HDFS)等。一些大型网站将
18、“数据”视为最核心的资产,他们甚至花费淘品的费用来保管这些数据,以便加快用户的访问速度。谷歌公司购置了弟独的水力发电站,为其庞大的数据中心提供充足的电力。2.3“大数据”分析技术当大数据的采集和存储已经完成,如何分析数据,将这些碎片化的数据系统化,在无序的数据和信息世界里寻找有序的连接.挖掘到可应用的价值.是真正驾驭大数据的重要环节。大数据的分析技术,大致包括5个根本方法理论技术:(1)可视化分析可视化分析能够直观的呈现大数据特点,简单明了易于接受。(2)数据挖掘算法大数据分析的理论核心就是数据挖摭鸵法,各种数据挖掘的算法基于不同的数据类型和格式能更加科学的呈现出数据本身具备的特点,而这些数据
19、挖掘的算法能够快速的处理大数据.(3)稹测性分析能力大数据分析最重要的应用领域之就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据(4)语义引擎大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其他输入语义.分析,判断用户需求,从而实现更好的用户体验和广告匹配。(5)数据质量和数据管理大数据分析离不开数据质址和数据管理,而质量的数据和有效的数据管理能够保证分析结果的其实和有价值.2.4“大数据”与云计算对于许多组织来说,“大数据”对存储容屋的需求已经超出目前的存储能力。我们正处于PB级存储时代,而EB及存储时代也即将
20、到来。大容量的存储不但要求系统具备在原有数据存储规格上进行扩展的能力,还要简弟快速的进行扩展,云计算就为“大数据”的诞生提供/集中采集数据和存储数据的基础。云计算的出现改变了数据的存储和访问方式,在云计算出现之前,数据大多分散保存在每个人的个人计算机中、每家企业的效劳器中。云计算,尤其是公用云计算,把所有的数据集中存储到“数据中心-,也即所谓的“云端,用户通过浏览器或者专用应用程序来访问。一些大型的网站,通过提供基石“云的效劳,积累大量的数据,成为事实上的“数据中心”,这为“大数据”诞生奥定了基础。而云计算及其技术绐了人们廉价获取巨量计算和存储的能力.云计算分布式架构能够很好地支持“大数据”存
21、储和处理需求.这样的低本钱硬件+低本钱软件低本钱运维,更加经济和实用,也使得“大数据”处理和利用成为可能。可以说云计兑为“大数据”提供了存储空间和访问渠道,“大数据”则是云计算的灵魂和必然的开展方向。而近年来国内各地也兴起建设云计算基地的风潮,客观上为“大数据在我国的推广和应用准备了必备的储存空间和访问渠道。3大数据产业的应用3.1 大数据产业“大数据”的应用能带来巨大的经济价值和社会价值,对于产业开展而言,“大数据”可以实现应用创新、降低行业内的生产本钱并创造新的产业价值。咨泡机构麦肯锡最早提出“大数据时代已经到来,在2012年发布的大数据:创新、竞争和生产力的下一个领域文章上说明,在零传业
22、、制造业、医疗卫生和公共部门,“大数据”可以加快产业规模的增长速度,降低生.产运营本钱:对于企业而言,采用“大数据”可以提升企业的竞争力,改善企业的营销规划,客户定位,产品创新、工作流程优化、人力资源管理、物理管理和风险控制等多方面的能力。目前,数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人们对于海量数据的挖掘和运用,预示若新一波生产率增长和消费者盈余浪潮的到来。对于“大数据”产业,政府与公共事业部门、行业企业、个人消费者是其的最终用户。在政府与公共事业领域.“大数据”可以应用到城市规划、公共平安、公共交通、舆情管理等社会管理和民生效劳领域,带来效率提升、响应速度加快、效劳
23、水平提高、管理本钱下降等诸多效益,对于行业企业,“大数据”可以应用到产品研发设计、生产运作管理、供给链管理、客户关系管理、企业品牌营销等各个环节.,能够帮助企业准确把握市场需求变动、提高产品设计与生产效率、提高供给链的敏捷性和准确性、实现个性化精准营销,同时也促进IT技术的创新。对于个人消费者,通过“大数据”的应用效劳将使信息变得更加泛在,从家庭生活、出行、消费、娱乐、旅游、学习等方方面面拓展民众生活空间、提高民众的生活品质。总结以往,“大数据”的应用价值可以分为感知现在和预知未来两局部。(1)感知现在通过对历史数据和当前数据的融合,以及潜在模式挖掘,力求到达对事物对群体与社会开展当前状态进行
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 认识 思考 22

链接地址:https://www.desk33.com/p-1562876.html