2023人工自能机器算法深度学习.docx
《2023人工自能机器算法深度学习.docx》由会员分享,可在线阅读,更多相关《2023人工自能机器算法深度学习.docx(54页珍藏版)》请在课桌文档上搜索。
1、人工自能机器算法深度学习目录Ll简单前馈网络41.2 深度学习的计算图13卷积网络181.4学习算法261.5 泛化31L6循环神经网络38L7无监督学习与迁移学习431.8应用52深度学习通过梯度下降算法学习多层迭代的网络架构,它在人工智能的主要子领域中具有重要影响力。深度学习(deeplearning)是机器学习中一系列技术的组合,它的假设具有复杂代数电路的形式,且其中的连接强度是可调整的。“深度”的含义是指电路通常被设计成多层(Iayer),这意味着从输入到输出的计算路径包含较多计算步骤。深度学习是目前应用最广泛的方法,例如它在视觉对象识别、机器翻译、语音识别、语音合成和图像合成中的应用
2、,它在强化学习应用中也起着重要的作用(见第22章)。深度学习起源于早期的用计算电路模拟大脑神经元网络的工作(McCullochandPitts,1943)。因此,通过深度学习方法训练的网络通常被称为神经网络(neuralnetwork),尽管它与真实的神经细胞和结构之间的相似性仅仅停留于表面。虽然深度学习取得成功的真正原因尚未完全明晰,但与第19章所述的一些方法相比,它具有不言而喻的优势,在处理图像等高维数据时尤为明显。举例来说,虽然线性回归和逻辑斯谛回归等方法可以处理大量的输入变量,但每个样本从输入到输出的计算路径都非常短只是乘以某个权重后加到总输出中。此外,不同的输入变量各自独立地影响输出
3、而不相互影响(图21la)。这大大限制了这些模型的表达能力。它们只能表示输入空间中的线性函数与边界,而真实世界中的大多数概念要比这复杂得多。另外,决策列表和决策树能够实现较长的计算路径,这些路径可能依赖于较多的输入变量,但只是对很小的一部分输入向量而言(图21-lb)0如果一个决策树对一定部分的可能输入有很长的计算路径,那么它的输入变量的数量必将是指数级的。深度学习的基本思想是训练电路,使其计算路径可以很长,进而使得所有输入变量之间以复杂的方式相互作用(图21lc)。事实证明,这些电路模型具有足够的表达能力,它们在许多重要类型的学习问题中都能够拟合复杂的真实数据。图211(a)浅层模型,例如线
4、性回归,其输入到输出之间的计算路径很短。(b)决策列表网络(19.5节)中可能存在某些具有长计算路径的输入,但大多数计算路径都较短。(C)深度学习网络具有更长的计算路径,且每个变量都能与所有其他变量相互作用1.1简单前馈网络顾名思义,前馈网络(feedforwardnetwork)是只在一个方向上有连接的网络,也就是说,它是一个有向无环图且有指定的输入和输出节点。每个节点计算一个关于输入的函数,并将结果传递给网络中的后续节点。信息从输入节点流向输出节点从而通过网络,且没有环路。另外,循环网络(recurrentnetwork)将其中间输出或最终输出反馈到自己的输入中。这意味着网络中的信号值将形
5、成一个具有内部状态或记忆的动态系统。我们将在21.6节探讨循环网络。布尔电路是前馈网络的一个例子,它实现了布尔函数。在布尔电路中,输入被限制为0或1,每个节点是关于输入的简单布尔函数,节点的输出也为0或1。在神经网络中,输入值通常是连续的,节点接受连续的输入并产生连续的输出。节点的一部分输入也可能是网络的参数,网络通过调整这些参数值,使网络整体拟合训练数据,以此来进行学习。1.1.1网络作为复杂函数网络中的每个节点称为一个单元(Unit)。传统上,根据麦卡洛克和皮茨(MCCUIIOChandPitts,1943)所提出的设计,一个单元将计算来自前驱节点的输入的加权和,并使用一个非线性的函数产生
6、该节点的输出。令勺为单元/的输出,并令叱)为从单元i到单元/的连接的权重,有%=gjC)三g(阿)其中&为用于单元/的非线性激活函数(activationfunction),阿是单元/的输入的加权和。如19.6.3节所述,我们规定每个单元都有一个来自虚拟单元0的额外输入,这个来自虚拟单元0的输入固定为+1,并且该输入有权重WO产这样一来,即使前一层的输出均为0,单元/的输入的加权和吃也是非0的。根据这样的规则,我们可以将上述式子表述为向量的形式:%=(21-1)其中,W是关于单元/的输入的权重向量(包括Woj),X是单元/的输入向量(包括+1)。激活函数是非线性的这一事实非常重要,因为如果它不
7、是非线性的,那么任意多个单元组成的网络将仍然只能表示一个线性函数。这种非线性使得由足够多的单元组成的网络能够表示任意函数。万能近似(universalapproximation)定理表明,一个网络只要有两层计算单元,且其中第一层是非线性的,第二层是线性的,那么它就可以以任意精度逼近任何连续函数。定理的证明思路大致如下:由于单元个数为指数级别的网络可以表示指数多个输入空间中的不同位置不同高度的“凸起”,因此可以逼近所需的函数。换句话说,足够大的网络可以实现连续函数的查找表,就像足够大的决策树可以实现布尔函数的查找表一样。有许多不同种类的激活函数,其中最常见的有以下几类。 逻辑斯谛函数或SigmO
8、id函数,我们在逻辑斯谛回归中也曾用到它(见第19章):(x)=1/(1+e-x) ReLU函数,ReLU是修正线性单元(rectiAedlinearunit)的简写:ReLU(x)=max(0,%) Softphis函数,它是ReLU函数的光滑版本:softplus(x)=log(lex)Softplus函数的导数为SigmOid函数。 tanh函数:tanh()=-7e+1可以发现tanh函数的值域为LL+D。tanh函数是SigmOid经过伸缩与平移后的版本,Ul)tanh(x)=2z(2r)-L这些函数如图212所示.不难发现它们都是单调不减的,这意味着它们的导数g是非负的:在后面的章
9、节中,我们将对激活函数的选择做更多的解林。图212深度学习系统中常用的激活BHtA史料所冷函umoid咕故.b)ReLU0和Sof(PluS由数,)Ianh函数将多个单元组合到一个网络中会产生一个复杂的函数,它是由单个单元表示的代数表达式的组合。例如,图213a所示的网络表示了一个由权重W参数化的函数属仆),它将二元的输入向量X映射为标员输出假yy。函数的内部结构与网络的结构相时应.例如,我们可以将某个输出的表达式写成y=gs(EJ=g$(%吗吗+吗必)=gs(%s+%出式加3)+吗述4(加4)=ft(+W“g式%+WuX1+WuX2)+“血(%4+吗.4%+吗/2)(21-2)如此一来,我们
10、可以将输出方表示为关于输入和权重的函数(X)。图213a给出了神经网络相关书籍中描述网络的传统方式。一个更一般的方法是把网络看作一个计算图(computationgraph)或数相流图(dataflowgraph)本质上它是一个电路,其中每个节点代表一个基本运算。图21-3b给出了与图21-3a中网络相对应的计算图,该图显式地表达了整个计兑过程的每个元素.它还将输入(然色)和权更(淡紫色)进行了M分,我们可以调整权重,使输出/与训练数据中的真实值F更接近“每个权肃就像一个音垃控制旋钮,它决定了图中的下一个节点从特定前盟节点中听到了多少声音。M213仃)具TJ两个输入.个包含两个柒元的限做层和个
11、场出软元的神络.其中比1侑人及其权正没行在图中给出。b将(G中的MF分杆为完铁的计口图与式(21-1)中以向此形式描述单元的方式类似.我们可以对整个网络进行类似的操作我们通常以W表示权重矩阵:对于该网络,WS表示第一层的权重(卬“、卬3等),W?,表示第二层的权重(W*等).最后,记第一层和笫二层中的激活函数为,和匕那么臬个网络可以写为方式幻=产(HXV(那攵)(21-3)与式(2l-2一样,这个表达式也对应于一个计生图,尽管它比图213b中的计算图简单得多:在该图中只有一条“链,其中每一层都附带权重矩阵。图2L3b中的计算图相对来说规模较小且层数较浅,但其中的思想适用于所有形式的深度学习:我
12、们通过构造计竟图并调整其权市以拟合数据。图213b中的图同时也称作XiT工上的(fullyconnected),IIP-层中的每个节点都与下一层中的每个节点存在连接。这在某种意义上是默认的选择,但我们将在21.3节中看到,合理选择网络的连接性对于实现高效学习十分重要。1.1.2梯度与学习在19.6节中,我们介绍了一种基卜的监督学习方法:计算损失函数关于权重的梯度,并沿梯度方向调整权重以降低损失函数.(如果读者尚未阅读19.6节,我们强烈建议在继续阅读接卜来的内容之前阅读19.6节。)我们可以用完全相同的方法学习计算图中的权重。对于谕Wu(OulPUlIayer),即产生网络输出的层,其单元对应
13、的权重的悌度计算过程与19.6节中的计算方式基本相凡对于隐如hiddenlayer),它们与输出没有直接联系,其单元对应的权重的梯度计算过程会梢微更杂一点。现在我们考虑使用平方损失函数上,我们将计算图213中的网络关于单个训练样例(工)的梯度,(对于多个样例,其梯度仅仅是单个样例的梯度之和。)设网络输出的速测为9=人”),其其实值为那么我们有1.ossg=4G也(X)=Ia-%(X)Ir=(y-y)2为了计免损失函数关于权歪的梯度.我们需要使用与第19章中相同的分析工具一主要是范火法剂,WW)5xg,(f(X)f(X)Idxi我们将从简单的例子入手:一个连接到怆出单元的权重,如W”。我们直接在
14、定义网络的表达式,即式(212)中进行运算:-Loss(hw)=-(y-y)2=-2(y-y)dw3,s加,5加,5=-2(j-y)g5(5)=-2(y-9)g;(巩)巩dw315飒,5Q=-2(y-f)W(巩)工一(Wo,5+W3,5%+W454)咽5=-23一向式(淞)4(21-4)最后一行得以简化是因为卬0,5和卬4,5%不依赖于卬3,5,也不依赖于卬3.5的系数。3。比这稍微复杂一点的情况是考虑与输出单元没有直接联系的一个权重,如叼3。在这种情形下,我们必须多应用一次链式法则。其中前几个步骤是如同的,因此我们略去它们:a3-Loss(hw)=-2(y-y)g,s(in5)-(+w35a
15、3+w45tz4)加,3刎,3=(加5)叫$=-2(j-y)g5(in5)w35g3(in3)帆3(w03+wux1+w23x2)=-2(y)g;(巩)w*g;(加3)F-加3飒,3一2(y一y)gs(巩)W3,5g;(巩)=-2(J-yg1s(in5)w35g;(in3)x1(21-5)由此,对于损失函数关于权重卬3,5和3的梯度,我们有了相当简单的表达式。如果我们定义d=2(y)g;M)为第5单元接收到输入产生的某种,撼知误差”,那么损失函数关于W”的梯度为&。九这是很有道理的:如果是正的,这意味着夕过大(g总是非负的:如果如也是正的,那么增大卬”只会让结果变得更轴,而如果/是负的,那么增
16、大卬力会减少误差。仆的大小也很重要:如果在这个训叙样例中很小,那么在产生误差方面并不是主要的,也不需要做太大改变,如果我们定义劣=与吗.就(如),那么关于卬”的梯度则为因此,单元3关于输入的感知误差为单元5关于输入而感知误差乘以从单元5返回到单元3的路役的信息。这种现象是十分普遍的,并由此引出了反向f”f(back-pmpagaiion)一词,它表示输出的误差通过网络进行回传的方式。这些梯度表达式的另一个也要特征是它们以局部导数g;(加1为因了,。如前所述,这些导数总是非负的,但如果来自问题中的输入样例恰好将单元/放置在平坦的区域,它们可能会非常接近于0(在SigmOid、SoflPIUS和I
17、anh函数的情况下)或正好为0(在ReLU的情况下)。如果导数很小或为0.这意味着修改与单位/相关的权或对其输出的影响可以忽略不计。这样的结果是,层数较多的深度网络可能会遭遇号;2演失(vanishinggradient)误差信号通过网络进行反向传播时完全消失。2133节为此问题提供了一种解决方案。我们已经展示了,在我们给出的简单网络示例中,梯度的表达式十分简单,它可以通过将信息从输出单元传I同网络来计算“事实证明,这个特点是一般性的“事实上,正如我们将在2141节中所述,任何前馈计总图的梯度计算与底本的计算图具有相同的结构,这个性质由微分法则直接保证。我们已经介绍梯度计算的烦琐细节,但不用担
18、心:对于每一个新的网络结构,我们不需要重新推导式(214)和式(215)!所有这些梯度都可以通过Fl动做分(automaticCliffereniiaiion)的方法进行计算,这一方法系统地应用微积分法则来计算任何数值程序的梯度。山事实上,深度学习中的反向传播方法只是反向模A(reversemode)微分的一种应用,它在网络输入多、临出相对较少的情况下应用由外而内的钱式法则,并利用了动态规划的效率优势.1.U自动微分方法最初是在20世心Oq代和m张代发展出来的.对优化由大型支架的REn程序定义的系统的誓能所有深度学习的主流软件包都提供了自动微分的功能,因此用户可以自由地试验不同的网络结构、激活
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 人工 自能 机器 算法 深度 学习
链接地址:https://www.desk33.com/p-1081801.html