2023台大机器学习笔记.docx
《2023台大机器学习笔记.docx》由会员分享,可在线阅读,更多相关《2023台大机器学习笔记.docx(109页珍藏版)》请在课桌文档上搜索。
1、台大机器学习笔记NTUMLl.学习问题机器学习的概念我们可以从人类的学习思维入手。人类的学习过程,是从观察出发,经过大脑内化以后,变成有用的技巧。机器学习,类似地,是我们希望能让电脑模拟类似的过程。这时,电脑的观察到的东西被称作是数据,而思考过程实际上是计尊过程,技巧则是增强某一方面的表现。因此,机器学习的过程是从数据出发,经过计算过程以后,最终获得某种表现上的增进那么为什么需要机器学习呢?想象如下的例子,给定一张照片,判断照片里的物体是不是一棵(大自然中的)树.如果我们不使用机器学习算法,就需要对“什么是树”做一个回答,给出树的定义,并且动手将这个定义实现为程序.传统的做法是按照规则进行判断
2、,而将规则表述出来是很难的。然而,我们认识树的方法其实也是通过观察,经过经验的积累判断这个是树或者不是,并不是教条地从长辈那里学习判断规则。类似地,我们也可以编写代码,让机器自己从数据中学习树的判断方法.因此,机器学习是构建复杂系统的另一种方法机器学习在以下情况下尤其适用 当我们不敏前想好各种情况,手工编码规则时。例如要让机器人在火星上导航,而我们不可能提前想到它在火星上会遇见什么样的情况 当我们无法容易地定义问题的解决方案时。例如要做语音识别/视觉识别,而我们无法对音频信号做出准确定义 当人们需要做出快速决策时。例如高频交易 当要让机器服务于海量使用者时.例如糊艮务个性化定制因此,我们可以从
3、三个关键点进行判断,看是否适合使用机器学习1 .问题应该是“可以学习的,即存在一些潜在的模式,以及目标2 .这些规则难以清晰定义3 .手里掌握了对应的数据机器学习的应用机器学习目前在衣食住行四个方面都得到了广泛应用 衣:AbU-MoStafa201芬IJ用销售数据和对用户的调研结果构建推荐系统给用户推荐穿搭 食:Sadileketal.2013利用机器学习,以推特上的文本和地理位置信息为数据,判断餐厅的卫生状况 住:TsanasandXifara2012利用已有房间的特点和耗能,预测房屋的能源消耗 行:Stallkampetal.2012利用交通标志照片和对应的意义,来提升认识交通标志的准确率
4、此外还有两个领域:教戴口娱乐 教育:系统根据学生的答题状况,有针对地提供题目让学生练习其薄的部分,同时将太难的题推后给出。即,给定一名学生的答题历史和一个题目,预测学生是否能作对这道题(KDDCup2010) 娱乐:系统根据用户的历史打分,预测用户对新电影的打分(KDDCup2011)机器学习的过程问题背景以银行信用卡发卡这一问题为例。假设银行收集了一些用户的基本信息,例如下表项目值年龄23岁项目值so女年薪20万人民币在所在地居住年数1工龄0.5负债额4万人民币银行要解决的问题是,对于这样的客户,是否应该给她发放信用卡问题的形式化描述为了更加形式化地描述这个问题,我们需要定义一些符号: 输入
5、:XX,例如上面的这些基本信息 输出:yY,是我们期望得到的答案。例如在上面的问题中就是“发期不发” 目标函数:f:X一丫,朝划门期望学到,但是目前不知道的东西。是题隅的公式 数据:D=(x,y),仅2,丫2),,yn),是之前积累的记录 假设:g:X-Y,是机器从数据中学到的函数。我们通常都希望g的表现足够好,即gf注意这里g不一定等于f(事实上,我们永远也不知道真正的f是什么样子,只知道由f产生的数据D) 机器学习算法:A,是由D产生g的算法,可以理解为A会从各种不同假设hk(这里hk有好有坏)构成的集合H中拟题出来一个最好的g,使得gf即A以D和H为输入,以g为输出。我们所讲的机器学习模
6、型,指的就是A和H在有了这些记号以后,我们可以重新给机器学习下一个定义机器学习是使用幡计算假设g以逼近目标函数f的过程机器学习与其它名词机器学习与数据挖掘数据挖掘的f简单定义是使用海量数据中以找出一些有趣的现象或性质。这里,如果“有用的性质”就是“能够逼近目标函数的假设”,那么数据挖掘和机器学习是没有区别的。假如这两个概念只是有关联,那么这两者是相辅相成的关系传统上的数据挖掘还关注如何在大的数据库中进行有效计算.不过现在已经很难将机器学习和数据挖掘这两个概念分开了机器学习与人工智能人工智能要求计算机呈现出一些智能的行为。由于机器学习逼近目标函数的过程就展现了一些智能,因此我们可以说,机器学习是
7、实现人工智能的一种手段.机器学习与统计学统计学是要使用数据做出推论,推测一些我们本来不知道的事实。考虑到假设g是推论结果,f是不知道的事情,那么可以说统计是实现机器学习的一种方法。但是传统统计学从数学出发,很多工具是为数学假设提供证明和推论。而机器学习看重的是如何算出结果。总而言之,统计学为机器学习提供了很多有力的工具NTUML2.学习判断是与非 本文作者:TingxunShi 本文链接:http:/txshi- 版权声明:本博客所有文章除特别声明外,均采用CCBY-NC-SA3.0许可协议.转载请注明出处!感知机假设集合上回说到机器学习的核心就是,使用算法A接收数据D,从假设集合(所有可能性
8、)H中选出一个g,希望gf那么我们现在最关心就是,H应该是什么样的。以之前提到的银行审核发放信用卡的场景为例,假设我们把每个使用者定义为向量X,包含d个维度,例如Xl代表年龄,X2代表年薪,等等.我们可以将这些维度(因素)综合起来给使用者一个整体分数。如果这个分数超过了某个标准,那就给ta发放;否则拒绝发放.这样,我们需要给每个Xi,i1,.,CI)来赋一个系数Wi,如果特征对最后的影响是正面的,那么就给Wi正值,否则给负值。如果我们再规定一个阈值threshold,那么我们的决策方法就可以写为,如果cji=WiXithreshold,就批准信用卡申请,否则就拒绝。Sign函数来求出y的值,具
9、体地说,假设集合H中的每个元?h(x)= sign我们可以进一步地规定输出空间丫-l,+1,其中y=-1时表示拒绝,V=1时表示许可.这样做的好处是我们可以直接使用都有)下形式)fcZWiXi-thresholdi=l其中Sign函数的定义为Sign(X)=I+1if01-1ifXywx感知机的有效性与确定终止性回顾PLA算法的停止条件,它是在没有找到错误的时候才停止,这要求我们的数据可以用一条线将正例样本和负例样本分割开来(如果不存在这条线,PLA肯定是不可能停止的).这种条件叫做线性可分条件.接下来,我们需要证明:如果数据集的确是线性可分的,感知机是否总能找到一个超平面把数据恰好分开.假设
10、数据集D线性可分,我们先证明存在一个超平面W使得对任意il,.,n,y=Sig11(w这意味着对每个X,它与超fifii平面都有一定距离,即minywxOnrfn其中WTX是点X到W的带符号的距离。如果它被放在了相对于超平面的正确一侧,那么这个值与其标签的乘积应该是正数,否则为fnnf负数.则在训练过程中遇到的所有错分点(Xn(t),y11(t)(假设在时刻t遇到),肯定有ywminywx011(t)fn(t)nnfn我们可以先证明,Wl被(Xn(t),yn(t)纠正以后更加接近Wf.我们可以通过两个向量的内积来判断它们是否接近:两个向量越接近,内积越大(可以理解为两向量U和V越接近,其夹角越
11、小,那么COSe越大,所以两者的内积Uv=uvCoS礴大),则wfwt+=Wr(Wt+y1t)n(t)WW+m11yWtXftnrnfnwwt+0=rWt但是这里有一个漏洞,即内积变大不一定说明两个向量接近,因为向量长度变大也会导致内积变大。因此接下来我们要证明,修正黑窿fs碉麟要再弩生椽韵这艘到或嘱强霸产5三j颗鹏霸饕聋碱如果磨剪吗感,也tn(t)nn(t)tn(t)n(t)n(t)tn(t)是标量,因此wt+I2=wt+yn(t)11(t)I2简记y=y11(),=x(t),W=Wt,则IWt+iI2=(w+y)(w+y)=WW+2yW+XtXw2+x2(.yw-Xn,则W:WTTWfIW
12、IR由于向量除以其长度得到的是单位向量,长度为1,在这种情况下,两者内积越大一定意味着两者的夹角越小,距离越近。但是这里需要注意的是,两者的距离不会无限接近,到CoS=1时就会停止换f角度看,因为两个单位向量的内积最大值为1,因此从上面的不等式可推出L1上Rp2即算法至多更新W步后一定会停止感知机在线性不可分数据上的应用由上面的证明,假设数据集是线性可分的,那么PLA算法最后肯定会停止,而且(对训练集)给出正确的分类。该算法非常容易实现,而且结束很快,适用于任意Rd空间.但是这个算法最大的问题是,它要提前假设训练集是训练可分的,而且我们不知道算法什么时候会终止(因为上面给出的上限中用到了Wf,
13、而我们不知道它是多少一甚至不知道是否存在!(在线性不可分的时候该向量不存在)刃陷我们来考虑一个最坏的情况,即数据若的确是线性不可分的话,应该如何应对。由于数据产生的过程中可能会混入噪声,这使得原本线性可分的数据也可能因为噪声的存在而不可分。但是,一般情况下,噪声应该是一小部分,即我们可以退而求其次,不去寻找一个完美的超平面,而是去寻找一个犯错误最少的超平面,即NWg-argminynsign(wn)Wn=l然而,求解这个问题被证明是NP难的,只能采用近似算法求解。例如,我们可以保存一个最好的权重,该权重到目前为止错分的数量最少.该算法称为“口袋法”,其完整细节如下设定初始权重W对时刻t=0,1
14、,1 .随机寻找一个Wt错分的样本(Xn(t),y11(t)2 .试图通过如下方法修正Wtwt+1-W+yn(t)n(t)3 .如果Wt+1犯的错误比W少,那么将W替换为Wt+1直到足够多次迭代完成.我们将W(称为WPOCket)返回为g注意在线性可分集合上也可以使用口袋法,算法也可以返回一个无训练误差的解。但是由于每次更新权重以后,都要在所有数据上使用新旧权重各跑一遍,来计算错分数量,因此口袋法的执行时间通常比原始PLA的计算时间长很多NTUML3.机器学习的类型 本文作者:TingxunShi 本文链接:http7xshi20170805NTUML-3-Types-of-Learning
15、版权声明:本博客所有文章除特别声明外,均采用CCBY-NC-SA3.0许可协议.转载请注明出处!根据输出空间Y分类二元分类问题重新回顾一下“是非题”的形式。为了解决这个问题,需要我们提供一批训练数据D,其中我们要指出对哪些用户发放信用卡,哪些不发.像这样答案只有两种可能性(“要”或“不要”)的问题称为二元分类问题,其输出空间丫通常用集合-1,+1表示,类似于“判断题这种问题类型的例子有很多,包括 要不要发信用卡 电子邮件是不是垃圾邮件 病人有没有生病 广告是否会赚钱等等。二元分类问题是机器学习中最基本也是最核心的问题,很多理论推导和算法模型设计都是从这一类问题出发。多元分类问题二元分类问题很容
16、易进行扩展,即如果答案有多个离散的可能性,那么问题演变为多元分类问题.假设目标类别有K种,那么Y=1,2,一个典型的例子是对硬币进行分类,看投入的是1角、5角还是1元.这种问题类似于“选择题”。这种问题类型的例子包括 识别手写数字是0到9这十个数字中的哪一种 识别图片中的水果是哪一种水果 邮件的进一步分类,例如是垃圾邮件、社交网络邮件、重要邮件还是促销活动邮件等等回归问题如果将医疗领域中的问题对应到上述问题中,那么这两种问题可以对应如下: 二元分类问题:给定病人特征,判断病人是否患病 多元分类问题:给定病人特征,判断病人患的是哪种癌症但是还有一类问题,例如判断病人手术后多少天可以出院0这种问题
17、的输出是整个实数集,或者实数集中的一个连续区间。这种问题通常被称为回归分析。此时丫R或丫=lower,uppercr.这种问题类型的例子包括 根据公司的状况,预测其次日股票价格 根据大气状况,预测明日气温回归问题是一种历史悠久的统计问题,也是机器学习领域里非常核心的问题结构化分析在自然语言处理(NLP)这个领域里,有一项任务是对于输入句子中的每个词标注其词性(PartofSpeech,POS).例如输入“IloveML”,程序应该可以将tT标记为代词,“love”标记为动词,“ML”标记为名词.这种彳镑可以看作是一种多元分类问题,但是如果输入是以句子为单位,由于句子中有结构性,因此输出也是一个
18、结构.这样的问题可以看做是一个巨大的多类别分类问题,各个类别是隐藏的,看不到,而且不同类别之间有联系,使得穷举所有可能性变得不可能。但是我们知道输出存在一定的结构性,并希望程序能够正确给出判定.这种问勉称为结构化分析,此时丫是一种结构.这种问题类型的例子包括 给定蛋白质数据,判断蛋白质的结构 给定语言文本,给出语法树根据数据标签yn分类有监督学习考虑在第一节中的硬币分类问题。我们可以将所有硬币的特征收集起来,设成Xn,同时可以将硬币的面额给出,称为yn这两部分可以一起给到机器学习的算法A里,得到g。这种每个特征组Xn都有对应的yn的学习问题称作有监督学习。这里“监督”的意义在于,对每个特征都可
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 机器 学习 笔记

链接地址:https://www.desk33.com/p-942636.html