《机器学习基础及应用》教案第11课聚类(一).docx
《《机器学习基础及应用》教案第11课聚类(一).docx》由会员分享,可在线阅读,更多相关《《机器学习基础及应用》教案第11课聚类(一).docx(7页珍藏版)》请在课桌文档上搜索。
1、课题聚类(一)课时2课时(90min)教学目标知识技能目标:(1)掌握聚类的概念及距离的度量方法,了解聚类的类型(2)掌握k均值聚类算法的基本原理及其Skleam实现方法(3)能够使用k均值聚类算法训练模型(4)能够编写程序,寻找k均值聚类模型参数的最优值素质目标:了解时代新科技,激发学习兴趣和创新思维,增强民族自信心掌握常用的聚类算法,提高自主学习能力、数据分析能力和创新能力教学重难点教学重点:聚类的概念及距离的度量方法,k均值聚类算法的基本原理及其Sklean1实现方法教学睚点:使用k均值聚类算法训练模型;编写程序,寻找k均值聚类模型参数的最优值教学方法案例分析法、问答法、讨论法、i井授法
2、教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务,扫码观看“常见的聚类算法”视频,了解聚类和K均值聚类算法的相关知识【学生】完成课前任务考勤【教师】使用APP进行签到【学生】班干部报请假人员及原因问题导入【教师】提出以下问题:什么是聚类任务?【学生】思考、举手回答传授新知【教师】通过学生的回答引入要讲的知识,介绍聚类任务、k均值聚类算法的相关知识9.1 聚类任务聚类(clustering)属于无监督学习,是机器学习的三大任务之一,其应用领域常广泛.在商业中,聚类常用于发现不同的
3、客户群体并刻画其特征;在生物中,聚类常用于基因分类,获取对种群固有结构的认识;在医学、交通及军事等领域中,聚类常作为图像分割(利用图像的灰度、颜色、纹理和形状等特征,将图像分割成若干个特定的、互不相交的、具有独特性质的区域)的支撑技术,用于提取特定内容。9.1.1 聚类的概念聚类是一种寻找数据之间内在分布结构的技术。聚类是指根据某种特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇中的数据对象的相似性尽可能大,不同簇中的数据对象的差异性尽可能大,即聚类后同类数据尽可能聚到一起,不同类数据尽可能分离。【指点迷津】聚类任务仅能自动形成簇结构,每个簇所对应的概念语义需由使用者自行定义.聚
4、类既可作为一个单独过程来寻找数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。例如,在一些商业应用中,经常需要对新用户的类型进行判别,但直接定义用户类型往往是存在困难的,此时可先对用户数据进行聚类,根据聚类结果将每个簇定义为一个类(为用户数据打标签),然后再基于这些类训练分类模型,即可预测新用户的类别。9.1.2距离度量聚类是将差异性较小的样本聚为一类,将差异性较大的样本聚为不同类的过程。在聚类任务中,通常使用距离作为样本之间差异性的度量标准。距离越近,越亲密,距离越远,越疏远。1 .店的类型(1)在实际应用中,数据可分为连续型数据和离散型数据两大类。连续型数据指任意两个数据之间可细分
5、出无限多个值,如人的身高;离散型数据指任I可两个数据之间的数值个数是有限的,如产品的等级。(2)在统计学中,数据又可分为3种类型,分别是定类数据、定序数据和定S陵据。定类数据表示个体在属性上的特征或类别值仅是一种标志,没有顺序关系,如将性别男编码为1,性别女编码为O;定序娄照表示个体在某个有序状态中所处的位置,不能直接做四则运算,如受教育程度”是有顺序的,可定义为初中=3、高中=4、大学=5;定距数据是具有间距特征的变量,如温度。【教师】随机邀请学生回答以下问题:请举出几种定类数据、定序数据和定距数据的例子?【学生】聆听、思考、回答*【教师】总结学生的回答在机器学习中,需要将所有的属性值都统一
6、用数值表示,其中,定8瞄据本身就是数值,无须转换,对应连续型触;定类数据和定序数据需要通过编码转换为连续型数据.连续型数据和离散型数据的距离计算方法是不同的。2 .连续型数据的距离度量方法数据集中的每个样本都可以看作是多维空间中的一个点,故样本之间的距离就可转换成n维空间中点与点之间的距离。假设空间中有两点,和%,%和分别表示点,和在某一维度上的取值,则常用的计算两点之间距离的方法有如下几个。(1)欧式距离是直角坐标系中最常用的距离度量方法,是空间中两点之间的直线距离,其公式为ds,。,=J(.-9A+(演-XQ2+-+(电一肛)2(2)曼哈顿距离是把两点之间的每个维度的距离的绝对值相加得到的
7、距离,其公式为d(j,j)=%-xji+x,-xh1+xl-XjtiI(3)切比雪夫距离是取两点之间各个维度的距离的最大值,其公式为d(q,%)=max(%XjJ,|(气一匕),-x”)【教师】随机邀请学生回答以下问题:对于这三种连续型数据的距离度量方法来说,同样的数据集哪种方法计算出来的值最大?【学生】聆听、思考、回答【教师】总结学生的回答3 .离散型数据的距离度量方法离散型数据的距离通常使用简单匹配系数来度量,简单匹配系数的描述如下。假设i和j为两个样本,都由n个二元属性(取值为。或1)组成,这两个样本进行比较,可得到4个量,即样本i与样本j的属性值同时取I的属性个数,用a表示;样本i的值
8、取1,样本的值取O的属性个数,用b表示;样本i的值取O,样本j的值取1的属性个数,用C表示;样本i与样本j的属性值同时取O的属性个数,用d表示,则简单匹配系数的公式为sim(3j)=a+h+c+d显然,简单匹配系数的值越小,说明两个个体越相似。4 .1.3聚类的类型在实际应用中,根据聚类算法的不同,通常将聚类分为以下3种类型.(】)原型聚类亦称”基于原型的聚类,在实际聚类任务中经常使用。此类聚类算法假设聚类结构能通过一组原型(原型指样本空间中具有代表性的点)刻画。通常情形下,算法先对原型进行初始化,然后对原型进行迭代更新求解,其代表算法为k均值聚类算法、高斯混合聚类算法等.(2)层次聚类试图在
9、不同层次上对健集进行划分,从而形成树形的聚类结构。集的划分可采用自底向上”的聚合策略,也可采用“自顶向下”的分裂策略。(3)密度聚类亦称“基于密度的聚类”,此类聚类算法通过计算数据样本分布的紧密程度来确定聚类簇,将高密度区域的样本划分为同一个簇,其代表算法是DBSCAN聚类算法。【高手点拨】聚妁王务与分均王务的区别主要有以下几点。(1)训练模型使用的数据集不同。聚类任务属于无监督学习,其训练集不包含类别标签;而分类任务属于监督学习,其训练集需要有类别标签。(2)达成的目标不同。聚类任务的目标是把相似的数据分为一组,因此,聚类算法通常只需要考虑如何计算样本的相彳以度;而分类任务的目标是识别待测样
10、本属于某个类别,需要从已有的训练集中进行“学习,才能具备对未知数据进行分类的能力。(3)聚类和分类所采用的算法不同。聚类的主要算法有k均值算法、DBSCAN算法、高斯混合聚类算法等;分类的主要算法有逻辑回归算法、k近邻算法、朴素贝叶斯算法、决策树算法、随机森林算法、支持向量机等。*【教师】讲解“素养之窗”的内容(详见教材),了解AlGe的商业化发展9.2k均值聚类算法k均值(k-means)聚类算法原理简单,可解释性强,实现方便,广泛应用于数据挖掘、聚类分析、模式识别、金融风控、幡科学、智能营销和数据运营等领域,其目标是根据输入的参数k(簇的数目)的值,将样本集分成k个簇.9.2.1 k均值聚
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器学习基础及应用 机器 学习 基础 应用 教案 11 课聚类

链接地址:https://www.desk33.com/p-1242747.html