Spark大数据技术与应用(第2版)教案.docx
第1章Spark概述教案课程名称:Spark大数据技术与应用课程类别,必修适用专业,大数据技术类相关专业总学时:64学时(其中理论40学时,实验24学时)总学分I4.0学分本章学时:4学时一、材料清单(I>峪Park大数据技术与应用为教材,(2)配套PpT(3)引导性提问.(4)探究性问题。(5)拓展性问题。二、教学目标与基本要求1 .教学目标主要介绍Spark的发展历史,Spark的特点、Spark的生态圈和Sparl的应用场景以及介绍SPark的环境鼠?1.包括搭建单机版环境、单机伪分布式环境和完全分布式环境,爆后点介绍Spark的架构.Spurk作业的运行流程和Spark的核心数据集RDDc2 .基本要求(1)了斛SPark的发展历史及特点.(2)学会搭建SPark环境.(1)了解Spark的运行架构与原理。三、问题1 .引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出何题,启发引导学生去解决问遨.提问,从而达到理解、掌握知识,发展各种能力和提高.思想觉悟的目的.(1你了解Spark的发展历史及特戊吗?(2)你了解SPark的应用场景吗?(3)你自己搭建过Spart;环境吗?(4)你使用过SPark吗?2 .探究性问题探究性问题需要教师深入钻研教材的延础上精心设计,提问的角度或者在引导性提同的基础上,从重点、难点问感切入,进行插入式提问.或者是对引导式提问中尚未涉及但在课文中又是曳要的问四加以设问,(1)为什么需要SPark?(2) SpaK仃哪些特点?(3) SPa生态圈包含哪些环境?(4) SpaiI有哪些部署模式,有什么区别?(5) RDD,是怎样的数据集?(6) SPa心的运行流程是怎么样的?3.拓展性问题拓展性向题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问遨.亦可以提供拓展资料供学生研习探讨,完成拓展性问%根据SPark的安装配置过程.如果想要为SPa比集群多加个子节点,需要进行哪些操四、主要知识点、重点与难点(1) 要知识点(1)SPark基本概念。(2) SPark发展和应用.(3) SPark环境配置方法.(4) SPark架何及原理,2 .重点(1)如何搭建SPark环境。(2) SPark完全分布式集群特点,(3) 了解SPark运行架构与原理,3 .难点(I)搭建SPark完全分布式集群,(2) SPark的原理.五、教学过程设计1 .理论教学过程(1) Spart;简介.(2)搭建Spark环境.(3) 了解SPark运行架构与原理.2.实验教学过程搭建Spark伪分布式与完全分布式佻称.六、教材与参考资料1 .教材肖芳,张良均SPark大数据技术与应用(第2版)(微课版)M.北京:人民邮电出版社.2022.2 .参考资料(I)肖芳,张良均.SPark大歙据技术与应用(M).北京:人民邰电出版社.2018.2王哲,张良均.HadOoP与大数据挖(第2版)M.北京:机械厂.业出版社.2022.31张军,张良均HadOoP大数据开发册础第2版(微课版Nl北京;人民邮电出版社.2021.第2章Spark基础教案课程名称,Spark大数据技术与应用课程类别,必修适用专业t大数据技术类相关专业总学时I64学时(其中理论40学时,实脸24学时)总学分:4.0学分本章学时:8学时七、材料清单(6)bSPark大数据技术与应用教材。(7)配套PPT.(8弓I导性提问。(9)探究性同题.(10)拓展性问遨.八、教学目标与基本要求3 .教学目标Scala语言是3park平台常用的一种语常,为了学习SPark,需要先学习Stala苜先介纲/Scala的特性及安奘.接着介绍的是SCala的函数、表达式、循环、数据结构和类.通过本政的学习,可以体会到SCala函数式编程的便旋、简单.4 .基本要求(1) 了解Scala甚本特性并学会安装Scala,(2)掌握定义Scala的常埴、变愤及函数的方法.(3)常葬SCma的if判断和for循环.(4)掌握Svala的Colleciions(集合)操作。C5)掌握Scala的样例类与模式匹配。6 6)了解SCaIa类及读取文件.九、问题7 .引导性提问引号性提问需要教师根据教材内容和学生实际水平,提出问题,启发弓I导学生去解袂向遨.提问.从而达到理解、掌握知识,发展各种能力和提高思想觉褥的目的.(5)SCala是一门函数式编程诏吉,你了好什么玷函数式编程吗?(6)结合Spark的特点,你觉得Scala可能具备哪些特性?(7)你了耨SCaIa编程的常fit变盘及函数吗?(8)你了解SCala的循环与判断吗?8 .探究性问题探究性向施需要教W深入钻研教材的基础上精心设计,提问的用度或齐在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者足时引导式提问中尚未涉及但在课文中又是重要的何越加以设问.(7)为什么使用Scala编写了SPark?(8) SCaIa具有哪些特性?(9) SCala原始类型有哪些?<IO>Scala的循环可以有哪践衣现形式?(IDSCaIa各种数据类型的应用?<12)你能通过不同的方式读取文件吗?(13)什么是函数式编程?7.拓展性问题拓展性何起需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次.提出切实可行的关乎实际的可操作问遨,亦可以提供拓展资料供学生研习探讨,完成拓展性问喙<1)如果你学习过Java语力.你认为SCala与JaVa相比力哪些比较大的不同之处?(2) SCaIa变量能否使用自增或自减?(3) SCalafj没仃可变数黑?如果有.可变数组与不可变数组的区别是什么?<4)SCaIa的列大与数组有何区别?十、主要知识点、重点与难点8.主要知识点(5>SCaIa简介。(6) SCahl特性。(7) SCala的环境设置及安装方法,(8) SCida类的定义和运行方法.(9) SCa加数据类型、函数、表达式的应用.(10) SCaIaif判断和Cr循环,(三)SCaIa集合板用.9.重点(4)了解Scah的基础内容及特性.(5)掌握SCaIa的安装.(6)掌握SeaIa函数式编程.10 .难点(3) SCala的集合操作。(4) SCahl的类定义.(5)SCala的模式匹配.十一、教学过程设计11 .理论教学过程(4)SCaIa简介与安装.(5)函数式微程特点.(6)SCaIa编程学习.12.实验教学过程(I)安装SCma娟程环境.(2定义SCala函数识别号码类型。(3)统计广州号码段数地。(4)根据归属地对手机号码段分组.(5)编写手机号码归园地含询程序。(6)端写函数过湖文本中的回文单词.(7)使用SCaa编程实现杨辉三的.十二、教材与参考资料13 .教材肖芳,张良均SPark大数据技术与应用(第2版)(微课版)M.北京:人民邮电出版社.2022.14 .参考资料1肖芳,张良均SPark大数据技术与应用IM).北京:人民邮电出版社.2018.21王哲,张良均.HadOoP与大效期挖小(第2板)M.北京:机蛾工业出版社.2022.(3张军,张良均.Hadoop大数据开发基础(第2版(微课版M.北京:人民邮电出版社.2021.第3章Spark编程教案课程名称,Spark大数据技术与应用课程类别I必修适用专业I大数据技术类相关专业总学时I64学时(其中理论40学时,实验24学时)总学分I4.0学分本章学时:IO学时十三、材料清单(IDESPark大数据技术与应用X教材。(12)配套PPT,(13)引导性提问.(14)探究性问题。(15)拓展性问遨.十四、教学目标与基本要求15 .教学目标主要介绍SPark的基础操作,包括Spark的基本的核心数据集.Spark的转换操作和行动操作.以学生成的统计为任务,将任务分为各个子任务,以完成任务为目标,分析各大方法的运用,然后通过完成任务进一步熟悉操作.通过本章学习,掌握SPark的操作方法以及SpatlShell命令行的使用,为后面的高级掾作和殂件学习城定场础“16 .基本要求(7)掌握如何创建RDD.(8)第樨SPark本转换操作。(9)掌握SPark荔本动作操作”(IO)了解如何读取不同格式文件数据.(11)了解如何存储数据为不同格式文件。一、问题17 .引导性提问引导性提问备要教师根据教材内容和学生实际水平提出何超.启发引导学生去解决问题.提问,从而达到理解、掌握知识,发展各种能力和提高出想觉悟的目的.(9) 一般期末考试的成绩是如何保用的?(10) SPark适用于什么类型的计募?(IDSPark计算有什么特点?(12)是否了解过Spark中的RDD是一个什么样的类型?18 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从St点、难点向应切入,进行捅入式提问.或者是对引导式提问中尚未涉及但在课文中又是武要的问题M以设问。(14) RDD是一个什么样的集合?(15)有哪些创建RDD的方法?(16) RDD的转换探作和行动操作有什么区别?(17)什么是犍优对RD1).有哪些特点?(18)针对普通RDD的常用愫作行哪些,针对选侑对RDD的操作仃做些?(19)文本文件的存储和读取通过什么方法?23.理论教学过程(7)从内存中已有数据创建RD3(8)从外部存储创建RDD(17) RDD游化操作和行动操作。(18) RDD裸伯对操作.(11)文件读取与存储,24.实验教学过程(1)以学生成绩数据创建RDa(2)查询学生成绩表中的前5(3怆出IR科成绩为100分的学生ID.(4)输出祗位学生所有科目的总成绩.(5)谕出每位学生的平均成绩.(6)将汇总后的学生成绩存储为文本文件.(7)统计文本中性别为“先”用户数.(8)单词计数.四、教材与参考资料25 .教材肖芳,张良均SPark大数据技术与应用(第2版)(岗课版)M.北京:人民邮电出版社.2022.26 .参考资料(I)肖芳,张良均.SPark大数据技术与应用(M).北京:人民邰电出版社.2018.2王哲,张总均HadOoP与大数据挖抠(第2版)M.北京:机械工业出版社.2022.3张军,张良均.HadOOP大数据开发册础第2版)(微课版)M1北京;人民邮适用专业,大数据技术类相关专业总学时:N学时(其中理论40学时,实验24学时)总学分,4.0学分本章学时:6学时二十九、材料清单(36) Mpark大数据技术与应用3教材。(37)配套PPT,(38)引导性提问.(39)探究性间题。(40)拓展性问遨.三十、教学目标与基本要求75 .教学目标从机器学习的简或概念入手,先讲述机器学习的概念以及机密学习的常用算法,接着根据常用算法引向SparkM1.lib算法库,简单了解SParkMUib及SParkM1.库荔本情况,然后对M1.Iib中的尊法以及算法包都做了基本介绍.最后通过实现网络攻击类型分析任务强化学生对算法的理解,对算法所需要的数据类型、算法的调用、算法的模型建土以及算法的评估都做了一个详细的分析。76 .基本要求(29) 了解机器学习的基本概念,(30) /解M1.lib的概念以及算法.(31)掌握M1.lib豫法的基本调用,(32)掌握M1.lib实现逻辑何打律法.(33)掌握MiJib模型评价方法.三H"一、问题77 .引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问区.比发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。(30)你了解过机密学习吗?(31)机器学习獴法有哪些?(32)什么是监督学习,什么是非股督学习吗?(33)分类W法与聚类豫法的区别是什么?(34)使用M1.Ub提供的算法包有什么好处?78 .探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点向起切入.进行插入式提问.或者是对引导式提问中尚未涉及但在课文中又是曳要的问题加以设问.(40)常用的机器学习算法有哪”?(41)分类算法的特点是什么,有哪些常用的分类律法?(42) M1.Iib输入算法的数据类想通常'有现些?(43)通过M1.Iib调用算法时,分类算法的猿人数据要求部种类型,聚类、推荐算法呢?(44)调用设轨回归算法时,需要导入哪些包,如何建模?79 .拓展性问题拓展性同册需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,捉出切实可行的关乎实际的可操作问题。亦可以提供拓隈资料供学生研习探讨,完成拓展性问%(17)M1.Iib是鹤于RDD的算法称,M1.是茶于DalaFrame的乳法库,结合第五章的内容分析一下这两个库的优点?(18)Muib可以调用模型的SaVe方法辂模型保存:,ft存模型保存的信息,列举出模鞭具体保存了哪些信息?三十二、主要知识点、重点与难点80.主要知识点(36)机潺学习.(37) M1.IibM»(38) M1.Iib算法包介绍与应用.(39)逻辑网归匏法实现.81 .重点(1) MIJib算法包介绍与网用.(2)逻辑回归算法实现网络攻击类型识别。82 .难点(20)聚类算法的调用。(21)分类算法调用.(22)推荐类型算法调用”三十三、教学过程设计83 .理论教学过程(31>机器学习简介。(32) AlUib介绍.<33>MUib算法包介绍与调用。84.实验教学过程(l)以1.ogiSliCPI归实现用户分类.(2)以决策树模型实现网络攻击类型识别。(3)通过KMeans划分电影热度等级。三十四、教材与参考资料85 .教材肖芳,张良均SPark大数据技术与应用(第2版)(微课板)M.北京:人民郃电出版社.2022.86 .参考资料II肖芳,张良均.SPark大数据技术与应用IM.北京:人民即电出版社.2018.12)王哲,张良均Hadoop与大数据挖报(第2板)M.北京:机械工业出版社.2022.3张军,张良均HadCoP大数据开发基础(第2版微课版IM.北京:人民邮电出版社.2021.第9章项目案例:广告检测的流量作弊识别教案课程名曲Sparl大数据技术与应用课程类别,必修适用专业,大数据技术类相关专业总学时t64学时(其中理论40学时,实的24学时)总学分:4.0学分本章学时:12学时三十五、材料清单(41)Spark大数据技术与应用"教材.(42)配套PPT,(43)引导性提问.(44)探究性问题.(45)拓展性问题“三十六、教学目标与基本要求87 .教学目标主要介绍广告检测的流fit作弊识别案例.从案例背景、实现目标.系统整体架构及流程设计等展开,分步骤较完整地实现系统。同时,针对系统实现的各个过程,包括前期的方案设计、数据探索、数据预处理,到后期的建模、模型号优、模型评价及作弊流量识别等,那提供了相关的分析刖路与参考代码,以便于读者实际操作,期里通过项目中每个环节的实现过程,让读者实实在在就会SPatl在此实工作环境中发挥的作用,88 .基本要求(34) 了解广告检测衢求分析,(35) 了解常用的建模律法.(36)掌握用Spark编程实现逻辑Wl归算法建立模型,(37)掌握用SPark编程实现随机森林K法建立模型.(38)掌握应Hl推荐模型进行作弊流St识别.三十七、问题89 .引导性提问引导性提问缁要教师根据教材内容和学生实际水平提出何超.启发引导学生去解决问遮,提问,从而达到理解、掌握知识,发展各种能力和提海思想觉悟的目的。(35)你了解过推荐尊法吗?(36)你知道的推荐贪法有哪些?(37)你知道什么是协同过谑算法,什么是A1.S算法?(38)你知道不同的推荐算法之间的区别吗?90 .探究性问题探咒性问题需要教府深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从St点、难点向理切入,进行插入式提问,或者是对引导式提问中尚未涉及但在课文中又是iR要的问题加以设目。(45)常用的推荐律法有哪些?(46)协同过泄算法的特点是什么,仃哪些常用的协同过泄?(47) Spark提供的算法包A1.S与A1.S算法有什么差别?(48)Spark的AI.S珀入尊法的数据通常由哪些?(49)推荐模型怎么进行评测?91 .拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问遨.亦可以提供拓展资料供学生研习探讨,完成拓展性问题.SParkA1.S算法包中,数据使用的是RUIing类型,它的特点及要求?三十八、主要知识点、重点与难点92 .主要知识点(34)项目需求分析.(35)常用建模算法.(36)异常、跳失及冗余数据处理方法.(37)数据变换方法。(38)建立模鞭及模型评估.93 .重点(1)逻辑回归与随机森林算法的实现,(2) SparkA1.S算法包介绍与调用.94 .难点(23)应用逻辑网打算法实现建模.(24)应用随机森林算法实现建模,(25)算法的评估.三十九、教学过程设计95 .理论教学过程< 39>项目需求分析.< 40>数据预处理,(41)建立推荐模型与评刈.< 42>进行作弊流质识别.96 .实验教学过程(1)探索项目数据.(2)清洗缺失、异常及冗余数据。(3)探索作弊流盘的数据特征.(4)实现法F逻辑回归和随机森林的算法。(5)评价模型.(6)使用模型进行广告作弊漉依识别.四十、教材与参考资料97 .教材肖芳,张良均SPark大数据技术与应用(第2版)(微课版)M.北京:人民邮电出版社.2022.98 .参考资料(I)肖芳,张良均.SPark大数据技术与应用(M).北京:人民邮电出版社.2018.PI王哲,张良均.HadoOP与大数据挖髡(第2版)M.北京:机械工业出版社.2022.3张军,张良均.HadooP大数据开发基础(第2版(微课版Ml.北京:人民邮电出版社.2021.