2021卷积神经网络原理与视觉实践.docx
《2021卷积神经网络原理与视觉实践.docx》由会员分享,可在线阅读,更多相关《2021卷积神经网络原理与视觉实践.docx(129页珍藏版)》请在课桌文档上搜索。
1、卷积神经网络原理与视觉实践1 .第一部分绪论2 .第二部分基础理论篇3 .第二部分实践应用篇4 .A向量、矩阵及其基本运算5 .B随机梯度下降6 .C链式法则7 .参考文献8 .索引第一部分绪论0.1引言2015年10月,一场围棋的人机对决赛正在进行,但由于是闭门对弈,这场比赛在进行时可谓“悄无声息”围棋,起源于中国,是迄今最古老的人类智力游戏之一。它的有趣和神奇,不仅在于规则简洁而优雅但玩法却千变万化,而且还因为它是世界上最复杂的棋盘游戏之一,是在此之前唯一一种机器不能战胜人类的棋类游戏。那场对决的一方是三届欧洲围棋冠军的樊麾二段,另一方则是GoOgIeDeePMind开发的“阿尔法狗”(A
2、lPhaGo)人工智能(ArtifiCiaIIntelligenceAD围棋系统,双方以正式比赛中使用的十九路棋盘进行了无让子的五局较量。与比赛进行时的状况大相径庭的是,赛后结局并非无人问津而是举世哗然:阿尔法狗以5:0全胜的纪录击败樊麾二段,而樊麾二段则成为世界上第一个于十九路棋盘上被Al围棋系统击败的职业棋手。樊麾二段在赛后接受NatUre采访时曾谈道:“如果事先不知道阿尔法狗是台电脑,我会以为对手是棋士,一名有点奇怪的高手。霎时间消息不胫而走,媒体报道铺天盖地,莫非人类就如此这般轻易地丢掉了自己的“尊严”?莫非所有棋类游戏均已输给AI?当然没有。樊麾一战过后不少围棋高手和学界专家站出来质
3、疑阿尔法狗取胜的“含金量”,为人类“背书”:此役机器仅仅战胜了人类的围棋职业二段,根本谈不上战胜了围棋高手,何谈战胜人类呢!就在人们以一副淡定姿态评论这次“小游戏”时,阿尔法狗正在酝酿下一次“大对决”,因为它即将在2016年3月迎战韩国籍世界冠军李世忍九段。近十年来,李世复是夺取世界冠军头衔次数最多的超一流棋手,所以从严格意义上讲,这才是真正的“人机大战”。与上次不同,2016年3月这次人机“巅峰对决”堪称举世瞩目,万人空巷。不过在赛前仍有不少人唱衰阿尔法狗,特别是整个围棋界满是鄙视,基本上认为阿尔法狗能赢一盘保住“面子”就善莫大焉了。但是随着比赛的进行,结果却令人错愕。第一局李世宜输了!“是
4、不是李世身的状态不对,没发挥出真正的水平?”第二局李世复又输了!“阿尔法狗还是蛮厉害的啊。不过阿尔法狗大局观应该不行,世身九段在这方面加强,应该能赢。”第三局李世忍再次输了!赛前站在人类棋手一方的乐观派陷入了悲观。“完了!虽然比赛已输,但李九段怎么说也要赢一盘吧。“果然,第四局78手出现神之一手,李世复终于赢了一盘,让人有了些许安慰。但末盘阿尔法狗没有再给李世身机会,最终以4:1大胜人类围棋的顶级高手,彻底宣告人类“丧失”了在围棋上的统治地位。“阿尔法狗”则迅速成为全世界热议的话题。在阿尔法狗大红大紫的同时,人们也牢牢记住了一个原本陌生的专有名词“深度学习(deeplearning)o0.2什
5、么是深度学习比起深度学习,“机器学习一词大家更熟悉一些。机器学习(machinelearning)是人工智能的一个分支,它致力于研究如何通过计算的手段,利用经验(experience)来改善计算机系统自身的性能。通过从经验中获取知识(knowledge),机器学习算法摒弃了人为向机器输入知识的操作,转而凭借算法自身学习到所需知识。对于传统机器学习算法,“经验”往往对应以“特征”(feature)形式存储的“数据”(data),传统机器学习算法所做的事情便是依靠这些数据产生“模型(model)o但是“特征”为何物?如何设计特征更有助于算法产生优质模型?一开始人们通过“特征工程”(featuree
6、ngineering)形式的工程试错方式得到数据特征。可是随着机器学习任务越来越复杂和多变,人们逐渐发现针对具体任务生成特定特征不仅费时费力,同时还特别敏感,很难将其应用于另一任务。此外,对于一些任务,人们根本不知道该如何使用特征有效表示数据。例如,人们知道一辆车的样子,但完全不知道设计怎样的像素值并配合起来才能让机器“看懂这是一辆车。这种情况就会导致,若特征造得不好,最终学习任务的性能也会受到极大程度的制约,可以说,特征工程的质量决定了最终任务的性能。聪明而倔强的人类并没有屈服:既然模型学习的任务可以通过机器自动完成,那么特征学习这个任务自然也可以完全通过机器自己实现。于是,人们尝试将特征学
7、习这一过程也让机器自动地“学”出来,这便是表示学习”(representationlearning)表示学习的发展大幅提高了人工智能应用场景下任务的最终性能,同时由于其具有自适应性,这使得人们可以很快将人工智能系统移植到新的任务上去。“深度学习”便是表示学习中的一个经典代表。深度学习以数据的原始形态(rawdata)作为算法输入,由算法将原始数据逐层抽象为自身任务所需的最终特征表示,最后以特征到任务目标的映射(mapping)作为结束。从原始数据到最终任务目标“一气呵成”,并无夹杂任何人为操作。如图1所示,相比传统机器学习算法仅学得模型这一单一“任务模块”,深度学习除了模型学习外,还有特征学习
8、、特征抽象等任务模块的参与,借助多层任务模块完成最终学习任务,故称其为“深度”学习。神经网络算法是深度学习中的一类代表算法,其中包括深度置信网络(deepbeliefnetwork)递归神经网络(recurrentneuralnetwork)和卷积神经网络(ConvolutionNeuralNetwork,CNN),等等。特别是卷积神经网络,目前在计算机视觉、自然语言处理、医学图像处理等领域可谓“一枝独秀”,它也是本书将侧重介绍的一类深度学习算法。有关人工智能、机器学习、表示学习和深度学习等概念间的关系可由图2所示的韦恩图来表示。输出传统机器学习算法深度学习图1传统机器学习算法与深度学习概念性
9、对比。直接从数据中自学习所得图中阴影标注的模块表示该模块可由算法avx缪您”/xxk/三一女rWNINn洛三y/ / / / / / q /二Ar)i.丁一一W鬲一7学工三三三三y、警/三三yx3三怒三2怒2飞彦三w三三三三三三三习箕度深图2人工智能、机器学习、表示学习、深度学习和卷积神经网络(CNN)之间的关系0.3深度学习的前世今生虽说阿尔法狗一鸣惊人,但它背后的深度学习这个概念却是由来已久。相对今日之繁荣,它一路走来的发展不能说一帆风顺,甚至有些跌宕起伏。回顾历史,深度学习的思维范式实际上是人工神经网络(artificialneuralnetworks)o追溯历史,该类算法的发展经历了三
10、次高潮和两次衰落。第一次高潮是20世纪4060年代时广为人知的控制论(CybemGics)。当时的控制论是受神经科学启发的一类简单的线性模型,其研究内容是给定一组输入信号xl,x2,xn,去拟合一个输出信号y,所学模型便是最简单的线性加权:f(x,)=xll+.+xnno显然,如此简单的线性模型令其应用领域极为受限,最为著名的是,它不能处理“异或”问题(XORfunction)。因此,人工智能之父MarVinMinSky曾在当时撰文,批判神经网络存在两个关键问题:首先,单层神经网络无法处理“异或”问题;其次,当时的计算机缺乏足够的计算能力以满足大型神经网络长时间的运行需求。MinSky对神经网
11、络的批判使有关它的研究从20世纪60年代末开始进入“寒冬”,后来人工智能虽产生了很多不同的研究方向,可唯独神经网络好像逐渐被人淡忘。直到20世纪80年代,DavidRumelharfiIGeofferyE.Hinton等人提出了反向传播(backpropagation)算法,解决了两层神经网络所需要的复杂计算量问题,同时克服了MinSky所说的神经网络无法解决的异或问题,自此神经网络“重获生机”,迎来了第二次高潮,即20世纪8090年代的连接主义(COnneCtioniSm)O但好景不长,受限于当时数据获取的瓶颈,神经网络只能在中小规模数据上训练,因此过拟合(overfitting)极大地困扰
12、着神经网络算法。同时,神经网络算法的不可解释性令它俨然成为一个“黑盒”,训练模型好比撞运气,有人无奈地讽刺说它根本不是“科学”(SCienCe),而是一种“艺术”(art)0另外,加上当时硬件性能不足而带来的巨大计算代价,使人们对神经网络望而却步,相反,支持向量机(supportvectormachine)等数学优美且可解释性强的机器学习算法逐渐成为历史舞台上的“主角”。短短十年,神经网络再次跌入“谷底”。甚至当时在一段时间内只要和神经网络沾边的学术论文儿乎都会收到类似这样的评审意见:tThebiggestissuewiththispaperisthatitreliesonneuralnetw
13、orks,(这篇论文最大的问题,就是它使用了神经网络。)但可贵的是,尽管当时许多人抛弃神经网络转行做了其他方向,但GeOfferyE.Hinton、YoShUaBengio和YannLeCUn等人仍“坚持不懈”,在神经网络领域默默耕耘,可谓“卧薪尝胆”。在随后的30年,软件算法和硬件性能不断优化,2006年,GeofferyE.Hinton等人在SCienCe上发表文章38提出:一种称为“深度置信网络(deepbeliefnetwork)的神经网络模型可通过逐层预训燎(greedylayer-wisepretraining)的方式,有效完成模型训练过程。很快,更多的实验结果证实了这一发现,更重
14、要的是除了证明神经网络训练的可行性外,实验结果还表明神经网络模型的预测能力相比其他传统机器学习算法可谓“鹤立鸡群”。HintOn发表在SCienCe上的这篇文章无疑为神经网络类算法带来了一缕曙光。被冠以“深度学习名称的神经网络终于可以大展拳脚,它首先于2011年在语音识别领域大放异彩,其后便是在2012年计算机视觉“圣杯ImageNet竞赛上强势夺冠,接着于2013年被MIT科技纵览(MlTTeChnologyReview)评为年度十大科技突破之首这就是第三次高潮,也就是大家都比较熟悉的深度学习(deeplearning)时代。其实,深度学习中的“deep”一词是为了强调当下人们已经可以训练和
15、掌握相比之前神经网络层数多得多的网络模型。不过也有人说深度学习无非是“新瓶装旧酒”,而笔者更愿意称其是“鸟枪换炮有效数据的急剧扩增、高性能计算硬件的实现以及训练方法的大幅完善,三者共同作用最终促成了神经网络的第三次“复兴细细想来,其实第三次神经网络的鼎盛与前两次大有不同,这次深度学习的火热不仅体现在学术研究领域的繁荣,它更引发相关技术的爆发,并产生了巨大的现实影响力和商业价值人工智能不再是一张“空头支票尽管目前阶段的人工智能还没有达到科幻作品中的强人工智能水平,但当下的系统质量和性能已经足以让机器在特定任务中完胜人类,也足以产生巨大的产业生产力。深度学习作为当前人工智能热潮的技术核心,哪怕研究
16、高潮日后会有所回落,但应不会再像前两次衰落一样被人们彻底遗忘。它的伟大意义在于,它就像一个人工智能时代人类不可或缺的工具,真正让研究者或工程师摆脱了复杂的特征工程,可以专注于解决更加宏观的关键问题;它又像一门人工智能时代人类必须使用的语言,掌握了它就可以用之与机器“交流”完成之前无法企及的现实智能任务。因此许多著名的大型科技公司,如GOOgIe、AmazonFacebook,微软、百度、腾讯和阿里巴巴等纷纷第一时间成立了聚焦深度学习的人工智能研究院或研究机构。相信随着人工智能大产业的发展,慢慢的,人类重复性的工作可被机器替代,从而社会运转效率大为提升,把人们从枯燥的劳动中解放出来参与到其他更富
17、创新的活动中去。有人说,“人工智能是不懂美的。”即便阿尔法狗在围棋上赢了人类,但它根本无法体会“落子知心路”给人带来的微妙感受。不过转念一想,如果真有这样一位可随时与你“手谈”的朋友,怎能不算是件乐事?我们应该庆幸可以目睹并且亲身经历甚至参与这次人工智能的革命浪潮,相信今后一定还会有更多像阿尔法狗一样的奇迹发生。此时,我们登高望远,极目远眺;此时,我们指点江山,挥斥方遒。正是此刻站在浪潮之巅,因此我们兴奋不已,彻夜难眠!第二部分基础理论篇1卷积神经网络基础知识卷积神经网络(ConVolUtiOnaINeUraINetWOrkS,CNN)是一类特殊的人工神经网络,区别于神经网络其他模型(如递归神
18、经网络、BoltZmann机等),它最主要的特点是卷积运算操作(COnVoIUlionOPeratOrS)因此,CNN在诸多领域的应用特别是图像相关任务上表现优异,例如图像分美(imageclassification)图像语义分割(imagesemanticsegmentation)图像检索(imageretrieval)物体检测(objectdetection)等计算机视觉问题。此外,随着CNN研究的深入,像自然语言处理(naturallanguageprocessing)中的文本分类、软件工程数据挖掘(softwaremining)中的软件缺陷预测等问题都在尝试利用卷积神经网络解决,并取得
19、了比传统方法甚至其他深度网络模型更优的预测效果。本章首先回顾卷积神经网络发展历程,接着从抽象层面介绍卷积神经网络的基本结构,以及卷积神经网络中的两类基本过程:前馈运算(预测和推理)和反馈运算(训练和学习)。1.1 发展历程卷积神经网络发展历史中的第一个里程碑事件发生在20世纪60年代左右的神经科学(neuroscience)领域中。加拿大神经科学家DaVidH.Hubel和TorStenWieSel(图1-1)于1959年提出猫的初级视皮层中单个神经元的“感受野”(receptivefield)概念,紧接着于1962年发现了猫的视觉中枢里存在感受野、双目视觉和其他功能结构,这标志着神经网络结构
20、首次在大脑视觉系统中被发现。1图I-ITOrStenWieSeI(左)和DaVidH.Hubel(右)。两人因在视觉系统中信息处理方面的杰出贡献,于1981年获得诺贝尔生理学或医学奖1980年前后,日本科学家福岛邦彦(KunihikoFukushima)在HUbel和WieSeI工作的基础上,模拟生物视觉系统并提出了一种层级化的多层人工神经网络,即“神经认知”(neurocognitron)19,以处理手写字符识别和其他模式识别任务。神经认知模型在后来也被认为是现今卷积神经网络的前身。在福岛邦彦的神经认知模型中,两种最重要的组成单元是“S型细胞”(S-CenS)和“C型细胞”(CCellS),
21、两类细胞交替堆叠在一起构成了神经认知网络(如图1-2所示)。其中,S型细胞用于抽取局部特征(localfeatures),C型细胞则用于抽象和容错,不难发现这与现今卷积神经网络中的卷积层(COnVoIUtiOnlayer)和汇合层(poolinglayer)可对应。图121980年福岛邦彦提出的神经认知模型19随后,YannLeCUn等人在1998年提出基于梯度学习的卷积神经网络算法54,并将其成功用于手写数字字符识别中,在那时的技术条件下就能取得低于1%的错误率。因此,LeNet这一卷积神经网络在当时便效力于全美几乎所有的邮政系统,用来识别手写邮政编码进而分拣邮件和包裹。可以说,LeNet是
22、第一个产生实际商业价值的卷积神经网络,同时也为卷积神经网络以后的发展奠定了坚实的基础。鉴于此,GOOgle在2015年提出GoOgLeNet80时还特意将“L”大写,以此向“前辈”LeNet致敬。图1-3LeNet-5结构54:一种用于字符识别的卷积神经网络。其中,每一个“矩形”代表一张特征图(featuremap),最后是两层全连接层(fullyconnectedlayer)时间来到2012年,在有计算机视觉界“世界杯”之称的ImageNet图像分类竞赛四周年之际,GeoffreyE.Hinton等人凭借卷积神经网络AleX-Net力挫日本东京大学、英国牛津大学VGG组等劲旅,且以超过第二名
23、近12%的准确率一举夺得该竞赛冠军52,霎时间学界、业界一片哗然。自此揭开了卷积神经网络在计算机视觉领域称霸的序幕2,此后每年ImageNet竞赛的冠军非深度卷积神经网络莫属。直到2015年,在改进了卷积神经网络中的激活函数(activationfunction)后,卷积神经网络在ImageNet数据集上的性能(4.94%)第一次超过了人类预测错误率(5.1%)34o近年来,随着神经网络特别是卷积神经网络相关领域研究人员的增多、技术的日新月异,卷积神经网络也变得愈宽愈深愈加复杂,从最初的5层、16层,到MSRA等提出的152层ReSidUaINeu36,甚至上千层网络对广大研究者和工程实践人员
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2021 卷积 神经网络 原理 视觉 实践
![提示](https://www.desk33.com/images/bang_tan.gif)
链接地址:https://www.desk33.com/p-752163.html