欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    大数据分析及应用项目教程(Spark SQL)教学教案.docx

    • 资源ID:1180122       资源大小:207.38KB        全文页数:31页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    大数据分析及应用项目教程(Spark SQL)教学教案.docx

    衢职职业技术学院单元教学活动设计二级学院信息工程学院专业大数据技术设计者许慧课程名称大数据挖掘与分1斤学年20222023学期2授课类型口理论型,理实一体型,口实践型单元名称单元1.大数据分析概述班级I大数据技术1、2人数教材来源自编教材授课学时4学生学习条件分析1 .起点分析:(1) 9次具备Linux相关操作、大数据基础运维的基本技能;学生具备自主学习能力,能主动查阅资料预习。2 .重点分析:(1)大数据分析的相关工具。大数据分析可视化的概念及相关工具。3 .难点分析:(I)SParkSQL的运行架构。(2)Catalyst查询编译器的工作流程。教学方法手段1 .教学方法:讲授法、讨论法。2 .教学手段:实例讲解演示。教学资源1 .个人资源:教材、教学PPT与相关素材2 .学校资源:一体化教室、超星平台中的公共资源3 .网络、社会或出版社资源:多媒体课件、网上教学资源、精品课网站能力指标掌握大数据分析基础知识Cl养成良好的自我管理素养Bl提升学生沟通交流、小组协作能力E2教学目标知识1 .了解大数据分析的概念、特点、类别、优缺点。2 .知道大数据分析的相关工具3 .了解大数据分析可视化的概念及相关工具。4 .了解SparkSQL的背景、特点。能力1 .知道SparkSQL的运行架构2 .掌握Catalyst查询编译器的工作流程。素质1 .养成良好的自我管理素养2 .提升沟通交流、小组协作能力教师课前准备1 .准备好一体化机房,保证机器正常运转,安装好软件。2 .准备好授课PPT,完成所有案例设计,熟练示范操作的过程。3 .设计学生要完成的任务。4 .设计好教学环节。5 .服装大方,自然得体。学生课前准备查阅资料,预习教材活动历程一、准备活动1 .活跃课堂气氛,自我介绍,学习通签到、点名。2 .课程定位,课程教学内容安排与考核方式介绍。3 .课程主要学习内容、学习方法介绍。二、发展活动1 .关于大数据分析情境导入;2 .学习目标和要求;3 .提问:什么是大数据分析?大数据的“5V”特征大数据分析概念:大数据分析的特点大数据分析类别大数据分析的优势与缺点4 .提问:大数据分析工具有哪些?Hadoop生态圈中的大数据分析工具大数据分析编程语言其他工具5 .关于大数据g析可视化。三、课堂小结大数据分析概述、工具和可视化。第1、2节结束一、准备活动1 .活跃课堂气氛,学习通签到、点名。2 .认识SParkSQL情境导入。3 .学习目标和要求。二、发展活动1.SparkSQL背景简介SparkSQL的背景SparkSQL的特点2.SparkSQL运行原理。a.SessionCatalog保存元数据RDDb. ANTLR生成未绑定的逻辑计划c. Analyzer绑定逻辑计划d. Optimizer优化逻辑计划e. SparkPlanner生成可执行的物理计划f. CostModel选择最佳物理执行计划g. execute执行物理计划三、课堂小结与作业布置1 .小结:本次课程学习重点,学习过程中出现的问题与解决方法。2 .布置:完成第1章课后练习。第3、4节结束学习评量课堂练习中巡视指导课后作业纸笔作业:完成第1章课后练习题。教学后记目标或能力指针达成度、学习表现、内容、方法、资源、业师协同等向度1 .目标或能力指标达成度全班80%学生达到了教学目标和能力指标。2 .学习表现课内预习阶段发现学生预习时个别同学没有带书,大部分同学没有带笔和笔记本,阅读习惯有待改进。衢职职业技术学院单元教学活动设计二级学院信息工程学院专业大数据技术设计者许慧课程名称大数据挖掘与分1斤学年2022-2023学期2授课类型口理论型,理实一体型,口实践型单元名称单元2.实践环J克准备班级I大数据技术1、2人数教材来源自编教材授课学时6学生学习条件分析1 .起点分析:(1) 了解大数据分析概述、工具和可视化;(2)知道SparkSQL背景和运行原理。2 .重点分析:(I)Hadoop集群环境搭建。(2) Spark集群安装搭建。(3) SCala下载、安装和配置3 .难点分析:(I)Hadoop集群环境搭建。(2)SPark集群安装搭建。教学方法手段1 .教学方法:讲授法、讨论法。2 .教学手段:实例讲解演示。教学资源1 .个人资源:教材、教学PPT与相关素材2 .学校资源:一体化教室、超星平台中的公共资源3 .网络、社会或出版社资源:多媒体课件、网上教学资源、精品课网站能力指标掌握Hadoop和Spark集群的安装部署Cl养成良好的自我管理素养Bl提升学生沟通交流、小组协作能力E2教学目标知识1.了解Hadoop>Spark和Scala的基础知识。能力1 .掌握HadOOP集群环境搭建的环境准备工作,包括配置主机名、防火墙设置、免密登录设置、JaVa环境设置。2 .掌握安装Hadoop的过程、配置文件设置及启动集群的方法。3 .掌握Spark集群安装配置方法。4 .能使用Spark-shell进行简单编程测试。5 .会下载、安装配置SCala工具。6 .能启动Scala进行编程测试。素质1 .养成良好的自我管理素养2 .提升沟通交流、小组协作能力教师课前准备L准备好一体化机房,保证机器正常运转,安装好软件。2 .准备好授课PPT,完成所有案例设计,熟练示范操作的过程。3 .设计学生要完成的任务。4 .设计好教学环节。5 .服装大方,自然得体。学生课前准备查阅资料,预习教材活动历程一、准备活动1.活跃课堂气氛,学习通签到、点名。二、发展活动1 .Hadoop集群环境搭建情境导入;2 .学习目标和要求;3 .操作演示HadOOP集群搭建:.集群节点规划配置主机名和IP连接MObaXtenn终端工具关闭防火墙关闭SEIinUX修改etchosts文件配置免密登录配置JaVa环境安装Hadoop启动HadOOP集群4.运行经典案例wordcount在本地root目录下创建一个txt文件,输入一段自定义文字。上传文本到到hdfso:运行命令并查看结果三、课堂小结FIadoop集群搭建知识与技能回顾。一一第1、2节结束一一一、准备活动1 .活跃课堂气氛,学习通签到、点名。2 .Spark集群部署与使用情境导入。3 .学习目标和要求。二、发展活动1 .Spark安装上传软件包修改环境变量修改Spark配置文件复制修改spark启动脚本分发Spark安装文件到SlaverOl和slaver02o2 .启动Sparko查看各节点服务进程状态root0master*#jps3664WOrkerl2274NodeManager3730Jpsroot©SIaVerO1#jpstgsvr2JPS1524NameNode2Q58Jds2211WOrken匿潦嚷器客加产NodeMa产“娱;NodeManager166DataNode2013Worker|2268JPSB612MaSterl1391UataNoaeroot领asterroot0slaverl#.joyuaaNoeroot0slaverO2#: Web查看SPark主页情况3. Spark集群测试:使用Spark-Submit工具提交Spark作业使用 Spark-sql使用 Spark shell(rootfMster spark-shell 222-1O19 11:07:06.717utl.IUtvt<o<>lor:e 广 Iaad natvadooP library for your pltfora. using buatw-java classes 向er applicable Setting default log level toTo adjust logging lvl us sc.stL09Lvl(ntMtvl). For SparkR, use setLoLv l<nwtevl).2022*10-19 11:07:36.109 WAVl utU.VtUs: Service ,SparkUI' could nc bud on po rt 4040. Atteflptmg port 4941.Spark context Sprk context 9).Spark session Wlcon toWeb UI vhU at htpat:4041 vlbl 'sc, (ms r Xocl(*), app Id Xoc1-1W619205693available as sperk'./-Fi_3 v vT 7Z j /_/'_、/八'IJ*r* 411中1,年以队蒯支/lversion 3.1.2Uswg 5cl vrxon 2.12.10 < Java HotSpot(TW) 64t Srvr VM, Java 1.8.0.2Si> Tyx s expressions to hv the evaluated.yp :helP M 必皿二.A"攵*Wfcl> I -*-*-'-三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。第3、4节结束一一一、准备活动1 .活跃课堂气氛,学习通签到、点名。2 . SCaIa安装情境导入。3 .学习目标和要求。二、发展活动1.下载Scala安装包2.安装配置上传安装包并解压配置环境变量,添加SCaIa相关配置:使环境变量生效,查看SCala版本启动Scala三、课堂小结1 .小结:本次课程学习重点,学习过程中出现的问题与解决方法。2 .布置:完成第1章课后练习。第5、6节结束学习评量课堂练习中巡视指导课后作业纸笔作业:完成第2章课后练习题。教学后记目标或能力指针达成度、学习表现、内容、方法、资源、业师协同等向度1 .目标或能力指标达成度全班80%学生达到了教学目标和能力指标。2 .学习表现课内预习阶段发现学生预习时个别同学没有带书,大部分同学没有带笔和笔记本,阅读习惯有待改进。衢职职业技术学院单元教学活动设计二级学院信息工程学院专业大数据技术设计者许慧课程名称大数据挖掘与分1斤学年2022-2023学期2授课类型口理论型,理实一体型,口实践型单元名称单元3.学生信息处理分析班级I大数据技术1、2人数教材来源自编教材授课学时16学生学习条件分析1 .起点分析:(1) 了解大数据分析概述、工具;掌握基本的程序编写语言。2 .重点分析:SCaIa语言基础。3 .难点分析:能综合应用SCaIa基础知识编写应用程序进行数据分析。教学方法手段L教学方法:讲授法、讨论法。2.教学手段:实例讲解演示。教学资源1 .个人资源:教材、教学PPT与相关素材2 .学校资源:一体化教室、超星平台中的公共资源3 .网络、社会或出版社资源:多媒体课件、网上教学资源、精品课网站能力指标掌握Scala基础语言和编程Cl养成良好的自我管理素养Bl提升学生沟通交流、小组协作能力E2教学目标知识1 .理解SCaIa数据类型、常量与变量、运算符。2 .了解SCala类和对象、模式匹配的基本概念。能力1 .掌握Scala判断与循环、函数式编程。2 .掌握SCala集合操作。3 .掌握SCaIa类和对象、模式匹配的定义及操作方法。素质1 .养成良好的自我管理素养2 .提升沟通交流、小组协作能力教师课前准备L准备好一体化机房,保证机器正常运转,安装好软件。2 .准备好授课PPT,完成所有案例设计,熟练示范操作的过程。3 .设计学生要完成的任务。4 .设计好教学环节。5 .服装大方,自然得体。学生课前准备查阅资料,预习教材活动历程、准备活动1.活跃课堂气氛,学习通签到、点名。二、发展活动1 .班级基本情况分析情境导入;2 .学习目标和要求;3 .数据类型Scala与Java的数据类型相同,但是Scala中的数据类型都是对象即Scala没有java中的原生类型。因此Scala可以对数字等基础类型调用方法。4 .常量与变量定义方法。数据类型推断。:多变量声明5 .运算符算数运算符关系运算符逻辑运算符位运算符赋值运算符6.数组声明与定义方式基本操作方法基本操作描述arr.sum对Hnt数据类型的数组,返回数组各元素的和arr.max对于Int数据类型的数组,返回数组各元素的最大值arr.min对于Int数据类型的数组,返回数组各元素的最小值arr.length返回数组的长度arr.sorted.toBufler对于Int数据类型的数组,返I可数组各元素由小到大排序结果arr.reverse.toBuffer时子Int数据类型的数组,返回数组各元素倒序arr.contains(x)判断数组中是否包含X元素arr.isEmpty判断数组是否为空三、课堂小结SCaIa数据类型、常量与变量、运算符、数组小结。第1、2节结束一一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1 .判断与循环if判断a. if语句的语法格式如下:if(判断条件)如果判断条件为true则执行该语句块b. if.else语句语法格式如下:if(判断条件)如果判断条件为true则执行该语句块else如果判断条件为false则执行该语句块c.if.elseif.else语句语法格式如下:if(判断条件1)如果判断条件1为true则执行该语句块elseif(判断条件2)如果判断条件2为true则执行该语句块else如果以上判断条件都为false执行该语句块d.if.else嵌套语句语法格式如下:if(判断条件1)如果判断条件1为true则执行该语句块if(判断条件2)如果判断条件2为true则执行该语句块):循环a.WhiIe循环语法格式如下:WhiIe(条件表达式)(代码块)b.do.WhiIe循环语法格式如下:do代码块while(条件表达式)c.for循环的语法格式如下fbr(varX<-range)代码块)三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。一一第3、4节结束一一一、准备活动1.活跃课堂气氛,学习通签到、点名。2.学习目标和要求。二、发展活动1.函数式编程函数的定义和调用def函数名参数列表口返回值类型二函数体return表达式)函数调用的方法如下:函数名参数列表匿名函数匿名函数是指不含函数名称的函数。使用“二”定义,“二”的左边为参数列表,“二”右边为函数体表达式。高阶函数高阶函数是指使用其他函数作为参数,或者使用函数作为输出结果的函数。闭包闭包是一个函数,是可以访问一个函数里面局部变量的另外一个函数。函数柯里化函数编程中,接受多个参数的函数都可以转化为接受单个参数的函数,这个转化过程就是柯里化。柯里化本身也用到了闭包。嵌套函数嵌套函数即在函数内部定义函数,其中内部函数称为局部函数。2.学生所属班级和男女生数量一一编程分析实现判断学生所属班级统计男女生人数信息三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。第5、6节结束一、准备活动1 .活跃课堂气氛,学习通签到、点名。2 .学习目标和要求。二、发展活动1 .列表定义方法列表的常用操作方法(对列衣a和b进行掾作)描述a.isEmpty判断列表是否为空a÷÷b执接两个列表a.head获取列表的首个元素a.tail伏取列表除首个元素以外的剁余部分a.reverse反转列农a.take(num)获取指定个数的前缀a.drop(num)删除从左边开始的num个元索a.toString转换字符串a.toArray将列&转换为数组List.concat(a<lb)介井两个列表a.intersect(b)对两个列表取交集a.di趴b)对两个列划,小集a(索引值)获取列表中指定索引值的元素2 .Set集合:定义Set集合:Set的基本操作三、课堂小结Scala列表与Set集合小结。一一第7、8节结束一一一、准备活动1 .活跃课堂气氛,学习通签到、点名。2 .学习目标和要求。二、发展活动1 .元组定义元组的语法一:valtuple=(元素1,元素2,元素3.)定义元组的语法二:valt=newTUPIen(元素1,元素2,元素3.元素n)2 .Map映射映射定义映射的常用操作方法(对映射a和b进行操作)描述a.keys获取所有的keya.values获取所仃的VaIUea(key)使用key获取VaIUe,如果key不存在会报错a.contains(key)在看MaP中是否存在指定的keya.isEmpty检查map是否为空a+b介并两个map,如果key个复,+后者会替换掉前边的key对应的ValUe三、课堂小结Scala元组与Map映射小结。第9、10节结束一一一、准备活动1 .活跃课堂气氛,学习通签到、点名。2 .学习目标和要求。二、发展活动1 .函数组合器组合器包括map、filter、foreach>groupBy>flatten>drop>zip等。组合器描述map将某个函数应用到中的每个元素,并将结果形成集合输出。filter指定条件,对集合中的元索进行过滤fbreach对集合中的每个元素进行作用,但是没有返回值。groupBy对集合中的元素进行分组操作,得到个Map。flatten可以把嵌套的结构展开。drop去掉集合前面的n个元素zip将两个集合结合在一起2 .以班级为单位整理学生信息一一编程分析实现:以班级为单位整理学生信息,可以先将数据保存到列表中,然后使用groupBy组合器以班级为条件进行分组。三、课堂小结函数组合器小结。第11、12节结束一一一、准备活动1 .活跃课堂气氛,学习通签到、点名。二、发展活动2 .学生基本情况获取情境导入;3 .学习目标和要求;4 .类和对象类的定义方式如下:Class类名称(参数列表)定义类的字段和方法继承的语法如下:class子类名extends父类名(类体5 .单例对象和伴生对象单例对象定义一个单例对象的语法如下:object单例对象名半生对象若在同一个代码文件内部,同时出现了CIaSSA和ObjeCtA,即类名和单例对象名完全相同,那么它们两者就互为伴生关系。6 .模式匹配模式匹配基本语法如下所示:Xmatchcasepattern1=>doSomethingcasepattern2=>doothers6.案例:学生特长情况一一编程分析实现三、课堂小结SCala类和对象、SCala模式匹配小结。第13、14节结束一、准备活动1 .活跃课堂气氛,学习通签到、点名。2 .学习目标和要求。二、发展活动1 .综合案例一一学生成绩情况分析现要求使用SCaIa函数式编程,综合本章前面所学知识,进行学生成绩分析统计。获得各门课程的平均成绩和及格人数(大于60),每个同学所有课程的总成绩。 导入依赖包,读取数据文件 将数据转换为列表IiSt创建课程名称列表 定义函数,计算各门课程的平均成绩和及格人数。定义函数,统计每个同学所有课程的总成绩。 定义函数,用于输出CalCUlationI函数的计算结果。综合以上函数与方法,进行调用、统计分析与输出。三、课堂小结小结所涉及知识点。第15、16节结束学习评量课堂练习中巡视指导课后作业纸笔作业:完成第3章课后练习题。教学后记目标或能力指针达成度、学习表现、内容、方法、资源、业师协同等向度1 .目标或能力指标达成度全班80%学生达到了教学目标和能力指标。2 .学习表现课内预习阶段发现学生预习时个别同学没有带书,大部分同学没有带笔和笔记本,阅读习惯有待改进。衢职职业技术学院单元教学活动设计二级学院信息工程学院专业大数据技术设计者许慧课程名称大数据挖掘与分1斤学年2022-2023学期2授课类型口理论型,理实一体型,口实践型单元名称单元4.房产大数据分析与探索班级I大数据技术1、2人数教材来源自编教材授课学时16学生学习条件分析1 .起点分析:掌握SCaIa编程语言基础。2 .重点分析:能使用RDD的各种转换和行动操作对数据集进行处理分析。3 .难点分析:能灵活综合的应用各种RDD操作和各个算子对数据进行分析。教学方法手段L教学方法:讲授法、讨论法。2.教学手段:实例讲解演示。教学资源1 .个人资源:教材、教学PPT与相关素材2 .学校资源:一体化教室、超星平台中的公共资源3 .网络、社会或出版社资源:多媒体课件、网上教学资源、精品课网站能力指标综合的应用各种RDD操作和各个算子Cl养成良好的自我管理素养Bl提升学生沟通交流、小组协作能力E2教学目标知识1 .掌握将数据构建为RDD的方法。2 .知道RDD各种算子的使用方法。能力1 .能使用RDD的各种转换和行动操作对数据集进行处理分析。2 .能灵活综合的应用各种RDD操作和各个算子对数据进行分析。素质1 .养成良好的自我管理素养2 .提升沟通交流、小组协作能力教师课前准备L准备好一体化机房,保证机器正常运转,安装好软件。2 .准备好授课PPT,完成所有案例设计,熟练示范操作的过程。3 .设计学生要完成的任务。4 .设计好教学环节。5 .服装大方,自然得体。学生课前准备查阅资料,预习教材活动历程一、准备活动1 .活跃课堂气氛,学习通签到、点名。二、发展活动2 .某房产公司销售人员业绩分析情境导入;3 .学习目标和要求;4 .数据集处理:基于内存(集合)创建RDD。a. ParaIIeliZe方法创建RDDb. InakeRDD方法创建RDD从外部存储数据构造RDD使用sc.textFile()方法进行创建。操作练习构建员工业绩RDDscala>Valstaffrdd=sc.textFxle(,7Chapter4performancestaff.txt")Staffrdd:org.apache.spark.rdd.RDDStrng=Chapter4performance/staff.txtMaPPartttIOnSRDD22attextFileatVConSoie>:24scala>valfxrstrdd=sc.textFxle(,7Chapter4performancefxrst-half-year.txt,')frstrdd:org.apache.spark.rdd.RDDfStrng1=Chapter4performacefxrst-half-year.txtMapPartxtionsRDD24attextFxleat<console>:24scala>valsecondrdd=sc.textFile('7Chapter4performancesecond-haU-year.txtw)secondrdd:org.apache.spark.rdd.RDDString=Chapter4performancesecond-haif-year.txtMapPartitionsRDD26attextFileat<console>:24三、课堂小结RDD的创建方法小结。第1、2节结束一一一、准备活动1 .活跃课堂气氛,学习通签到、点名。2 .学习目标和要求。二、发展活动1.RDD支持的两种操作。a.转换操作:就是对RDD中的数据进行各种转换。b.行动操作:RDD的行动操作则是向驱动器程序返回结果或者把结果写入外部系统的操作,会触发实际的计算3 .统计部门人员人数COUnt()行动操作,返回的是RDD内元素的个数。4 .分别统计上/下半年业绩排名,取前三位及最后三位map、flatmap>sortby>take,first>COIIeCt等方法。 map转换操作map转换操作是最常用的转换算子,对RDD中的每个元素都执行一个指定的函数来产生一个新的RDDo flatm叩转换操作此方法首先将map函数应用于RDD的所有元素,然后将返回的结果平坦化。 sortby转换操作此方法是对RDD进行排序,有3个参数可以输入。SOrtby(参数一,参数二,参数三)参数一是要进行排序的对象值;参数二是排序方式,默认是正序排序,使用false参数就是倒序排序;参数三是分区个数。take,firstsCOlleCt行动操作进行分析,实现任务。4.进行操作练习。三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。第3、4节结束一一一、准备活动1 .活跃课堂气氛,学习通签到、点名。2 .学习目标和要求。二、发展活动1 .统计上/下半年业绩超过5000万的人员。利用filter、distnctUnion等方法对数据进行操作。filter转换操作此方法返回满足指定过滤条件的元素,不满足条件的元素被忽略。distinct转换操作此方法是对RDD中的数据去重,把完全相同的元素去除。对前述filter转换操作中的rdd数据进行操作。union转换操作此方法可以将两个RDD进行合并,返回两个RDD的并集,并且不去重。但是要求两个RDD中每个元素中的值的个数及数据类型保持一致。进行分析,实现任务。2 .进行操作练习。三、课堂小结小结:本次课程学习重点,学习过程中出现的问题与解决方法。第5、6节结束一、准备活动1 .活跃课堂气氛,学习通签到、点名。2 .学习目标和要求。二、发展活动1 .统计此部门当年的房屋销售套数。利用RDD的相关描述性统计函数实现。min()、max()函数min()方法返回RDD中的最小值,max()方法返回RDD中的最大值。 mean()sum()函数Inean()函数返回RDD中的平均值。SUm()函数返回RDD中的总和。 variance()>StdeV()函数VarianCe()计算RDD中所有元素的总体方差。StdeV()计算RDD的标准差。进行分析,实现任务。将经过map操作处理好的上/下半年业绩数据集map_firstrdd和map_secondrdd进行合并,取出第三列数据,利用SUln函数计算总数。2 .进行操作练习。三、课堂小结描述性统计函数小结。第7、8节结束一一一、准备活动1 .活跃课堂气氛,学习通签到、点名。2 .学习目标和要求。二、发展活动L查看全年总业绩最高人员。Spark为包含键值对类型的RDD提供了一些专有的操作,这些RDD被称为PairRDDo创建PairRDD创建PairRDD的方法有很多,当需要将一个普通RDD转换为PairRDD时,可以使用map方法来实现。keysOVaIUeS()转换操作keys()sVaIUeS()操作返回的类型是RDD。reducebykey()转换操作此方法应用于键值对数据集操作,对Key相同的Value使用指定的函数进行聚合操作,返回一个键值对的数据集。2.进行操作练习。三、课堂小结PairRDD的操作小结。第9、10节结束、准备活动1 .活跃课堂气氛,学习通签到、点名。2 .学习目标和要求。二、发展活动1 .groupbykey0转换操作此方法会对相同键的值进行分组,形成二元元组,第一个字段为相同的键,第二个字段为具备相同键的值的集合。2 .SOrtByKey()转换操作此方法返回一个根据“键”进行排序的RDD。3 .进行分析,实现任务将上、下半年的的业绩合并到同一个RDD中。将数据转换成(员工编号,业绩)键值对,利用reduceByKey方法对相同员工编号对应的业绩值进行相加。对业绩总和进行排序,获得最高业绩人员信息。4 .存储以上统计分析信息文本文件的存储可以直接调用SaVeASTeXtFile(Path)进行存储。三、课堂小结PairRDD的操作小结。第11、12节结束一一、准备活动1.活跃课堂气氛,学习通签到、点名。二、发展活动1 .某城市近年房产销售状况分析情境导入;2 .学习目标和要求;3 .数据准备此房产销售数据集是一个在系统外部的CSV文件,因此需要将其上传至文件系统中,加载为RDD后再做处理分析。4 .使用map方法转换RDD,以将每一行数据分割。5 .对户人数的基本情况进行统计,获得记录条目的总数,以及在这些记录中包括多少个用户ID。6 .了解房产销量趋势,统计每年房产销售量情况。要获得每年的房产销售量情况,需要先从日期中提取年份数据;然后利用reduceByKey方法按年进行统计汇总;最后利用SortBy方法对统计汇总的数据进行排序,获得每年销量从高到低的排序情况。7 .分析此数据集中购买房屋所属的区域是哪些?各个区域的房产销售情况如何?各个区域的房屋均价是多少?购买房屋所属的区域情况及数量:各个区域的房屋均价情况8 .操作练习。三、课堂小结数据探索与分析小结。一第13、14节结束一一、准备活动1 .活跃课堂气氛,学习通签到、点名。2 .学习目标和要求。二、发展活动1 .查询2018年1月1日的日销量有多少。使用filter转换操作。2 .查询2018年1月1日到1月31日之间,满五年房产的销售数量。3 .数据集中,房子的装修类型有精装、简装、毛坯、其他,四种类型,分析哪种装修类型的房子销量高。此问题的分析思路与第4点统计区域房产销售情况一致,可以使用reduceByKey(+)方法对装修类型相同的房屋数量进行求和统计。4 .了解在所售卖的房子中,电梯有无的比例,地铁有无情况,这些条件对房屋售卖量的影响程度。对电梯有无数据列创建键值对,其中“键”指有无电梯,每个“值”赋予“1”。然后使用gr。UPByKey()方法对相同“键”的键值对进行分类,分类后对“值”进行SUm求和。有无地铁情况的数据处理思路相同。5 .操作练习。三、课堂小结小结所涉及知识点。一第15、16节结束一一学习评量课堂练习中巡视指导课后作业纸笔作业:完成第4章课后练习题。教学后记目标或能力指针达成度、学习表现、内容、方法、资源、业师协同等向度1 .目标或能力指标达成度全班80%学生达到了教学目标和能力指标。2 .学习表现课内预习阶段发现学生预习时个别同学没有带书,大部分同学没有带笔和笔记本,阅读习惯有待改进。衢职职业技术学院单元教学活动设计二级学院信息工程学院专业大数据技术设计者许慧课程名称大数据挖掘与分1斤学年20222023学期2授课类型口理论型,理实一体型,口实践型单元名称单元5.电商大数据分析与探索班级I大数据技术1、2人数教材来源自编教材授课学时14学生学习条件分析1 .起点分析:能使用RDD的各种转换和行动操作对数据集进行处理分析。2 .重点分析:(1)从不同数据源创建DataFrameS的方法。掌握操作DataFrame进行数据清洗、转换、查询的基本方法。3 .难点分析:掌握使用SparkSQL语句进行数据分析的方法。教学方法手段1 .教学方法:讲授法、讨论法。2 .教学手段:实例讲解演示。教学资源1 .个人资源:教材、教学PPT与相关素材2 .学校资源:一体化教室、超星平台中的公共资源3 .网络、社会或出版社资源:多媒体课件、网上教学资源、精品课网站能力指标应用SparkSQL进行数据分析探索Cl养成良好的自我管理素养Bl提升学生沟通交流、小组协作能力E2教学目标知识1 .理解DataFrame概念,作用。2 .知道DataFrame的各种操作方法。能力1 .从不同数据源创建DataFrames

    注意事项

    本文(大数据分析及应用项目教程(Spark SQL)教学教案.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开