人工智能+大数据思维.pptx
《人工智能+大数据思维.pptx》由会员分享,可在线阅读,更多相关《人工智能+大数据思维.pptx(74页珍藏版)》请在课桌文档上搜索。
1、人工智能导论,Introduction to artificial intelligence,大数据思维,第1节,事实上人们对数据并不陌生。上古时期的结绳记事、以月之盈亏计算岁月,到后来部落内部以猎物、采摘多寡计算贡献,再到历朝历代的土地农田、人口粮食、马匹军队等各类事项都涉及到大量的数据。这些数据虽然越来越多、越来越大,但是,人们都未曾冠之以“大”字,那是什么事情让“数据”这瓶老酒突然换发了青春并如此时髦起来呢?,Car 情报局,当互联网开始进一步向外延伸并与世上的很多物品链接之后,这些物体开始不停地将实时变化的各类数据传回到互联网并与人开始互动的时候,物联网诞生了。物联网是个大奇迹,被认为
2、可能是继互联网之后人类最伟大的技术革命。,Car 情报局,如今,即便是一件物品被人感知到的几天内的各种动态数据,都足以与古代一个王国一年所收集的各类数据相匹抵,那物联网上数以万计亿计的物品呢?是不是数据大得不得了,于是“大数据”产生了。,Car 情报局,如此浩如云海的数据,如何分类提取和有效处理呢?这个需要强大的技术设计与运算能力,于是有了“云计算”。其中的“技术设计”属于“算法”。“云计算”需要从大量数据中挖掘有用的信息,于是“数据挖掘”产生了。这些被挖掘出来的有用信息去服务城市就叫做“智慧城市”,去服务交通就叫做“智慧交通”,去服务家庭就叫做“智能家居”,去服务于医院就叫做“智能医院”,于
3、是,智能社会产生了。不过,智能社会要有序、有效地运行,中间必须依托一个“桥梁”和借助于某个工具,那就是“人工智能”。,Car 情报局,这就是为什么近几年时间内,诸如“人工智能”、“物联网”、“大数据”、“云计算”、“算法”、“数据挖掘”和“智能XX”这些时髦概念突然纷纷冒出来的理由,原来它们都是“同一条线上拴着的蚂蚱”!图3-3 一根绳上的蚂蚱,Car 情报局,万物大数据主要包括人与人、人与物、物与物三者相互作用所产生(制造)的大数据。其中人与人、人与物之间制造出来的数据,有少部分被感知,物与物之间制造出来的数据还根本没法被感知的。对于人与人、人与物之间被感知到的那部分很小的数据(相对于万物释
4、放的量来说非常小,但是绝对量却非常大),这主要是指在2000年后,因为人类信息交换、信息存储、信息处理三方面能力的大幅增长而产生的数据,这个实际上就是我们日常所听到的“大数据”概念,是以人为中心的狭义大数据,也是实用性(商业、监控或发展等使用)大数据。信息存储、处理等能力的增强为我们利用大数据提供了近乎无限的想象空间。,Car 情报局,在数字化时代,数据处理变得更加容易、更加快速,人们能够在瞬间处理成千上万的数据。而“大数据”全在于发现和理解信息内容及信息与信息之间的关系。实际上,大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法,这三个转变是相互联系和相互作用的
5、。,Car 情报局,1,小数据时代的随机采样,第2节,很长以来,因为记录、储存和分析数据的工具不够好,为了让分析变得简单,当面临大量数据时,社会都依赖于采样分析。但是采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物。如今信息技术的条件已经有了非常大的提高,虽然人类可以处理的数据依然是有限的,但是可以处理的数据量已经大大地增加,而且未来会越来越多。大数据时代的第一个转变,是要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。,Car 情报局,在某些方面,人们依然还没有意识到自己拥有了能够收集和处理更大规模数据的能力,还是在信息匮乏的假设下做很多事情。人们甚至发展了一些使用尽可能
6、少的信息的技术,例如统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。,Car 情报局,数千年来,政府一直都试图通过收集信息来管理国民,只是到最近,小企业和个人才有可能拥有大规模收集和分类数据的能力,而此前,大规模的计数则是政府的事情。以人口普查为例,据说古代埃及就曾进行过人口普查,那次由罗马帝国的开国君主恺撒主导实施的人口普查,提出了“每个人都必须纳税”。1086年的末日审判书对当时英国的人口、土地和财产做了一个前所未有的全面记载。皇家委员穿越整个国家对每个人、每件事都做了记载,后来这本书用圣经中的末日审判书命名,因为每个人的生活都被赤裸裸地记载下来的过程就像接受“最后的审判”一样
7、。,Car 情报局,然而,人口普查是一项耗资且费时的事情,尽管如此,当时收集的信息也只是一个大概情况,实施人口普查的人也知道他们不可能准确记录下每个人的信息。实际上,“人口普查”这个词来源于拉丁语的“censere”,本意就是推测、估算。,Car 情报局,三百多年前,一个名叫约翰格朗特的英国缝纫用品商提出了一个很有新意的方法,来推算出鼠疫时期伦敦的人口数,这种方法就是后来的统计学。这个方法不需要一个人一个人地计算。虽然这个方法比较粗糙,但采用这个方法,人们可以利用少量有用的样本信息来获取人口的整体情况。样本分析法一直都有较大的漏洞,因此,无论是进行人口普查还是其他大数据类的任务,人们还是一直使
8、用清点这种“野蛮”的方法。,Car 情报局,美国在1880年进行的人口普查,耗时8年才完成数据汇总。因此,他们获得的很多数据都是过时的。1890年进行的人口普查,预计要花费13年的时间来汇总数据。然而,因为税收分摊和国会代表人数确定都是建立在人口的基础上的,必须获得正确且及时的数据,所以就需要有新技术。后来,是美国发明家赫尔曼霍尔瑞斯(被称为现代自动计算之父)用他的穿孔卡片制表机成功地在1年时间内完成了人口普查的数据汇总工作。这简直就是一个奇迹,它标志着自动处理数据的开端,也为后来IBM公司的成立奠定了基础。,Car 情报局,这就是问题所在,是利用所有的数据还是仅仅采用一部分呢?有人提出有目的
9、地选择最具代表性的样本是最恰当的方法,后来统计学家们证明,问题的关键是选择样本时的随机性,采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。在商业领域,随机采样被用来监管商品质量。这使得监管商品质量和提升商品品质变得更容易,花费也更少。本质上来说,随机采样让大数据问题变得更加切实可行。同理,它将客户调查引进了零售行业,将焦点讨论引进了政治界,也将许多人文问题变成了社会科学问题。,Car 情报局,随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它的成功依赖于采样的绝对随机性,但是实现采样的随机性非
10、常困难。一旦采样过程中存在任何偏见,分析结果就会相去甚远。,Car 情报局,我们来看一下DNA分析。由于技术成本大幅下跌以及在医学方面的广阔前景,个人基因排序成为了一门新兴产业。图3-5 世界民族基因总图(美国),Car 情报局,从2007年起,硅谷的新兴科技公司23andMe就开始分析人类基因,这可以揭示出人类遗传密码中一些会导致其对某些疾病抵抗力差的特征,如乳腺癌和心脏病。23andMe希望能通过整合顾客的DNA和健康信息,了解到用其他方式不能获取的新信息。公司对某人的一小部分DNA进行排序,标注出几十个特定的基因缺陷。这只是该人整个基因密码的样本,还有几十亿个基因碱基对未排序。最后,23
11、andMe只能回答其标注过的基因组表现出来的问题。发现新标注时,该人的DNA必须重新排序,更准确地说,是相关的部分必须重新排列。只研究样本而不是整体,有利有弊:能更快更容易地发现问题,但不能回答事先未考虑到的问题。,Car 情报局,苹果公司的传奇总裁史蒂夫乔布斯在与癌症斗争的过程中采用了不同的方式,成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。他得到的不是一个标记的样本,他得到了包括整个基因密码的数据文档。对于一个普通的癌症患者,医生只能期望她的DNA排列同试验中使用的样本足够相似。但是,史蒂夫乔布斯的医生们能够基于乔布斯的特定基因组成,按所需效果用药。如果癌症病变导致药物失效,医
12、生可以及时更换另一种药。乔布斯曾经开玩笑地说:“我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人。”虽然他的愿望都没有实现,但是这种获得所有数据而不仅是样本的方法还是将他的生命延长了好几年。,Car 情报局,采样的目的是用最少的数据得到更多的信息,而当我们可以处理海量数据的时候,采样就没有什么意义了。如今,计算和制表已经不再困难,感应器、手机导航、网站点击和微信等被动地收集了大量数据,而计算机可以轻易地对这些数据进行处理。但是,数据处理技术己经发生了翻天覆地的改变,而我们的方法和思维却没有跟上这种改变。在很多领域,从收集部分数据到收集尽可能多的数据的转变已经发生
13、。如果可能的话,我们会收集所有的数据,即“样本=总体”,这是指我们能对数据进行深度探讨。,Car 情报局,在上面提到的例子中,用采样的方法分析情况正确率可达97。对于某些事物来说,3的错误率是可以接受的,但是你可能会失去对某些特定子类别进行进一步研究的能力。谷歌流感趋势预测不是依赖于随机样本,而是分析了全美国几十亿条互联网检索记录。分析整个数据库,而不是对一个小样本进行分析,能够提高微观层面分析的准确性,甚至能够推测出某个特定城市的流感状况。,Car 情报局,通过使用所有的数据,我们可以发现如若不然则将会在大量数据中淹没掉的情况。例如,信用卡诈骗是通过观察异常情况来识别的,只有掌握了所有的数据
14、才能做到这一点。在这种情况下,异常值是最有用的信息,你可以把它与正常交易情况进行对比。而且,因为交易是即时的,所以你的数据分析也应该是即时的。,Car 情报局,因为大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,所以我们就可以正确地考察细节并进行新的分析。在任何细微的层面,我们都可以用大数据去论证新的假设。当然,有些时候,我们还是可以使用样本分析法,毕竟我们仍然活在一个资源有限的时代。但是更多时候,利用手中掌握的所有数据成为了最好也是可行的选择。于是,慢慢地,我们会完全抛弃样本分析。,Car 情报局,1,允许不精确,第3节,当我们测量事物的能力受限时,关注最重要的事情和获取最精确的
15、结果是可取的。直到今天,我们的数字技术依然建立在精准的基础上。我们假设只要电子数据表格把数据排序,数据库引擎就可以找出和我们检索的内容完全一致的检索记录。这种思维方式适用于掌握“小数据量”的情况,因为需要分析的数据很少,所以我们必须尽可能精准地量化我们的记录。在某些方面,我们已经意识到了差别。例如,一个小商店在晚上打烊的时候要把收银台里的每分钱都数清楚,但是我们不会、也不可能用“分”这个单位去精确度量国民生产总值。随着规模的扩大,对精确度的痴迷将减弱。,Car 情报局,针对小数据量和特定事情,追求精确性依然是可行的,比如一个人的银行账户上是否有足够的钱开具支票。但是,在大数据时代,很多时候,追
16、求精确度已经变得不可行,甚至不受欢迎了。大数据纷繁多样,优劣掺杂,分布在全球多个服务器上。拥有了大数据,我们不再需要对一个现象刨根究底,只要掌握大体的发展方向即可。当然,我们也不是完全放弃了精确度,只是不再沉迷于此。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。,Car 情报局,大数据时代的第二个转变,是我们乐于接受数据的纷繁复杂,而不再一味追求其精确性。在越来越多的情况下,使用所有可获取的数据变得更为可能,但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。然而,重点是我们能够努力避免这些问题。,Car 情报局,对“小数据”而
17、言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确。为了使结果更加准确,很多科学家都致力于优化测量的工具。在采样的时候,对精确度的要求就更高更苛刻了。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。然而,在不断涌现的新情况里,允许不精确的出现已经成为一个亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。这样就不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。,Car 情报局,同时,我们需要与各种各样的混乱做斗争。混乱,简单地说就是随着数据的增加
18、,错误率也会相应增加。所以,如果桥梁的压力数据量增加1 000倍的话,其中的部分读数就可能是错误的,而且随着读数量的增加,错误率可能也会继续增加。在整合来源不同的各类信息的时候,因为它们通常不完全一致,所以也会加大混乱程度。混乱还指格式的不一致性,因为要达到格式一致,就需要在进行数据处理之前仔细地清洗数据,而这在大数据背景下很难做到。当然,在萃取或处理数据的时候,混乱也会发生。因为在进行数据转化的时候,我们是在把它变成另外的事物。,Car 情报局,可见,为了获得更广泛的数据而牺牲了精确性,也因此看到了很多如若不然无法被关注到的细节。虽然如果我们能够下足够多的工夫,这些错误是可以避免的,但在很多
19、情况下,与致力于避免错误相比,对错误的包容会带给我们更多好处。,Car 情报局,大数据在多大程度上优于算法,这个问题在自然语言处理上表现得很明显。2000年,微软研究中心的米歇尔班科和埃里克布里尔一直在寻求改进Word程序中语法检查的方法。但是他们不能确定是努力改进现有的算法、研发新的方法,还是添加更加细腻精致的特点更有效。所以,在实施这些措施之前,他们决定往现有的算法中添加更多的数据,看看会有什么不同的变化。很多对计算机学习算法的研究都建立在百万字左右的语料库基础上。最后,他们决定往4种常见的算法中逐新添加数据,先是一千万字,再到一亿字,最后到十亿。,Car 情报局,结果有点令人吃惊。他们发
20、现,随着数据的增多,4种算法的表现都大幅提高了。当数据只有500万的时候,有一种简单的算法表现得很差,但当数据达10亿的时候,它变成了表现最好的,准确率从原来的75提高到了95以上。与之相反地,在少量数据情况下运行得最好的算法,当加入更多的数据时,也会像其他的算法一样有所提高,但是却变成了在大量数据条件下运行得最不好的。它的准确率会从86%提高到94。后来,班科和布里尔在他们发表的研究论文中写到,“如此一来,我们得重新衡量一下更多的人力物力是应该消耗在算法发展上还是在语料库发展上。”,Car 情报局,通常传统的统计学家都很难容忍错误数据的存在,在收集样本的时候,他们会用一整套的策略来减少错误发
21、生的概率。在结果公布之前,他们也会测试样本是否存在潜在的系统性偏差。这些策略包括根据协议或通过受过专门训练的专家来采集样本。但是,即使只是少量的数据,这些规避错误的策略实施起来还是耗费巨大。尤其是当我们收集所有数据的时候,这就行不通了。不仅是因为耗费巨大,还因为在大规模的基础上保持数据收集标准的一致性不太现实。大数据时代要求我们重新审视数据精确性的优劣。如果将传统的思维模式运用于数字化、网络化的21世纪,就有可能错过重要的信息。,Car 情报局,如今,我们已经生活在信息时代。我们掌握的数据库越来越全面,它包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响
22、。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。,Car 情报局,Car 情报局,在华盛顿州布莱恩市的英国石油公司(BP)切里波因特炼油厂里,无线感应器遍布于整个工厂,形成无形的网络,能够产生大量实时数据。在这里,酷热的恶劣环境和电气设备的存在有时会对感应器读数有所影响,形成错误的数据。但是数据生成的数量之多可以弥补这些小错误。随时监测管道的承压使得BP能够了解到,有些种类的原油比其他种类更具有腐蚀性。以前,这都是无法发现也无法防止的。,Car 情报局,有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。大数据不仅让我
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 数据 思维
链接地址:https://www.desk33.com/p-348618.html