《Hadoop大数据原理与应用》教学教案.docx
课序授课日期授课班次授课教师批准人1课程描述大数据技术原理及应用是学习大数据技术的入门课程,是计算机科学与技术、数据科学与大数据技术、人工智能等专业的一门学科基础与专业核心课程。该课程着重讲述大数据技术的知识体系,阐明其基本原理,引导学生进行初级实践和了解相关应用,培养学生运用大数据平台搭建、大数据收集与预处理、大数据迁移、大数据存储与管理、大数据处理与分析、数据可视化等方法和技术工具完成大数据应用的能力,在整个大数据课程体系中起着承前启后重要作用。该课程由理论教学和实验教学两个部分组成,其先修课程包括面向对象程序设计、PythOn语言程序设计、操作系统、数据库原理等,后续课程包括数据采集与预处理、大数据存储与管理技术、数据挖掘、大数据开发技术、大数据高级编程、数据可视化技术等。总学时理论教学实践教学周学时学分483216单4双23课程教学目标大数据技术原理及应用围绕“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”的指导思想,着重讲述大数据技术的基本原理、基本方法、技术工具和相关应用,帮助学生构建完整的大数据技术知识体系,使学生了解大数据技术在行业领域中的最新发展趋势和前沿知识,熟悉大数据应用的整个生命周期,能够熟练使用HadOOp、SPark等主流大数据平台及其生态系统中的技术工具完成基本的大数据应用闭环操作,达到知行合一、以用促学的目的。知识目标:1 .理解大数据基本概念,了解大数据与云计算、物联网、人工智能的关系,了解当前大数据的岗位及需求、学习路线;2 .认识大数据处理平台Hadoop,熟练掌握全分布模式Had。P集群的部署基本过程;3 .理解分布式文件系统HDFS的体系架构、文件存储机制和数据读写过程,熟练掌握HDFSWebUl的使用、HDFSShelI常用命令的使用和HDFS编程;4 .理解分布式计算框架MapReduce的编程思想和作业执行流程,掌握MapReduce简单编程,了解当前其他主流的大数据计算框架如SPark、Storm、FIink等;5 .理解YARN体系架构和工作原理,掌握YARNWebUKYARNSheIl的基本使用,了解ReSOUrCeManager高可用机制的原理与配置,了解HDFSNameNode课程教学目标高可用机制、HDFSNameNodeFederation、HDFSSnapshots:6 .理解分布式协调框架ZOOKeePer的执行原理和应用场景,掌握ZOOKeePer集群的部署和ZOOKeePerShelI常用命令的使用;7 .理解NOSQL数据库与关系数据库的区别、分布式数据库HBaSe的数据模型、体系架构和运行机制,熟练掌握HBaSe集群的部署、HBaseShell常用命令的使用:8 .理解HiVe的体系架构和执行流程,掌握HiVe的部署和连接方式,熟练掌握HiVe基本操作包括HiVeDDL、HiveDML的书写和HiVeShelI命令的使用;9 .理解数据迁移框架Sqoop、日志采集系统FIUme、分布式发布/订阅消息系统Kafka的作用、架构和工作原理,掌握SqOOp、FIllme、Kafka的部署和使用;10 .了解数据可视化的概念、作用和过程,理解常用的数据可视化图形,了解当前主流的数据可视化工具。能力目标:培养学生学以致用,能够综合利用Hadoop大数据平台及其生态中各个工具解决实际大数据应用方面的基本问题,提高学生阅读外文科技文献能力,增强学生发现问题、分析问题、解决问题能力,与学科竞赛和项目紧密结合,稳步培养和提高学生的动手实践能力、自主创新能力、团队协作能力、写作表达能力。情感目标:通过对我国大数据技术、传统优秀文化的介绍,增强学生的民族自豪感,提升学生的爱国主义精神,增强文化自信;将专业知识与服务社会相结合,培养学生的社会责任感,树立正确三观,使学生更为深刻的理解专业内涵,提高学习内驱力,培养科学素养,内化为道德准则、科学思维和行为规范。课题第1讲开学第一课&大数据概述授课教材参考资料教材:1徐鲁辉.HadooP大数据原理与应用M.西安:西安电子科技大学出版社,2020年3月.参考资料:2徐鲁辉.HadOoP大数据原理与应用实脸教程M.西安:西安电子科技大学出版社,2020年1月.3林子雨.大数据技术原理与应用(第2版)M.北京:人民邮电出版社,2017年1月.4吕林涛.大数据技术及其应用M.北京:科学出版社,2019年5月.5维克托迈尔-舍恩伯格,肯尼思库克耶.盛杨燕等译.大数据时代:生活、工作与思维的大变革M.杭州:浙江人民出版社,2013年1月.6TomWhite.Hadoop:TheDefinitiveGuide(4thEdition)M.0'ReiIIyMedia,April2015.刀TOmWhite,著.王海,译.HadOOP权威指南(第4版)M.北京:清华大学出版社,2017年7月.8BiIIChambers,MateiZaharia.Spark:TheDefinitiveGuideM.O'ReiIIyMedia,February2018.9 BiIIChambers,MateiZaharia,著.张岩峰,译.SPark权威指南M.北京:中国电力出版社,2020年4月.10 1.arsGeorge.HBase:TheDefinitiveGuideM.0,ReillyMedia,September2011.11 1.arsGeorge,著.代志远,译.HBaSe权威指南M.北京:人民邮电出版社,2013.12 EdwardCapriolo,DeanWampIer,JasonRutherglen.ProgrammingHiveM.0,ReillyMedia,September2012.13 EdwardCapriolo,DeanWampler,JasonRUtherglen,著.曹坤,译.Hive编程指南IML北京:人民邮电出版社,2013.14蔡斌.HadOOP技术内幕:深入解析HadooPCOmmOn和HDFS架构设计与实现原理M.北京:机械工业出版社,2013年5月.15董西成.HadoOP技术内幕:深入解析MaPRedUCe架构设计与实现原理M.北京:机械工业出版社,2013年5月.16董西成.HadOOP技术内幕:深入解析YARN架构设计与实现原理M.北京:机械工业出版社,2014年1月.17 ApacheHadoopProject.https:/hadoop.apache.org.18 ApacheSparkProject.https:/spark.apache,org.19 TheHadoopEcosystemTabIe.https:/HadoopecosystemtabIe.github.io20 高校大数据课程公共服务平台.http:/dbIpost/bigdata-teaching-pIatform.21 林子雨.中国大学MOOC大数据技术原理与应用.https:/www.icourse163.orgcourseXMU-1002335004.其它教学资源学堂云:大数据技术原理及应用目的要求开学第一课1 .明确该课程的教学目标。2 .明确该课程的教学进度、教材、参考资料、上机软件。3 .明确该课程的考核方式。4 .熟悉学堂云、雨课堂的使用方法。第1章大数据概述1 .理解大数据的概念(重点),了解大数据的内涵。2 .理解大数据的4V特征:VoIume(海量化)、Variety(多样化)、VaIue(价值密度低)、Velocity(快速化)。(重点)3 .了解大数据处理关键技术:数据采集与预处理、数据存储与管理、数据处理与分析、数据可视化。(难点)4. 了解大数据产业。5. 理解大物云智5G技术,掌握大物云智5G之间的关系。(重点难点)6. 了解大数据的岗位。7. 了解大数据的学习路线。教学内容开学第一课1 .自我介绍。2 .课程地位、先修及后续课程。3 .教学目标及知识图谱。4 .课时分配(理论+实验)及进度、教材、参考资料、上机软件。5 .考核方式:平时+实验+期末。6 .学堂云、雨课堂的使用方法。第1章大数据概述1.1 大数据内涵(重点)1.2 大数据特征(重点)1.3 大数据关键技术(难点)1.4 大数据产业1.5 大数据与物联网、云计算、人工智能、5G的关系(重点,难点)1.6 大数据岗位介绍1.7 大数据学习路线重点难点重点:大数据概念,大数据特征,大物云智5G之间的关系。难点:大数据关键技术,大物云智5G之间的关系。教学方法手段讲授法,讨论法,任务驱动法教学步骤开学第一课1 .进行自我介绍。2 .进行头脑风暴,提问问题,引入为何学习此课程。3 .阐述课程地位、先修及后续课程。4 .明确该课程教学目标,了解该课程知识思维导图。5 .介绍该课程的课时分配及进度、教材、参考资料、上机软件。6 .公布考核方式:平时考核30%(在线考勤、课堂表现、作业、在线测试)+实验考核20%(实验态度、实险报告)+期末考核(笔试或大作业)。7 .介绍学堂云、雨课堂的使用方法。8 .完成在线测试,对先修课程的知识和技能进行综合测试。第1章大数据概述1.提问问题引入“大数据”。2.精讲本节内容。3.进行本节小结。4.布置课后作业。复习提问1 .当今IT界的热门技术有哪些?2 .你平时用的哪些应用使用到了云计算和大数据技术?作业1 .章节测试完成线上测试“章节测试1-大数据概述”。2 .预习作业预习“初识Hadoop3 .思考题(1)根据自己的专业领域和研究兴趣,调研大数据技术在自己所属领域中的应用现状?(2)调查分析大数据从业人员常用方法、技术与工具。教学环节复习提问新课讲解课堂讨论每课小结布置作业时间分配(以分钟计算)10701532课序授课日期授课班次授课教师批准人2课题第2讲初识Hadoop目的要求1 .理解Had。P是什么(重点),了解Had。P的发展简史、特点、版本。2 .理解HadOOP生态系统组成及各组件基本功能。(重点)3 .理解Had。P体系架构。(重点)4 .了解Had。P在国内外应用现状。5 .理解部署Hadoop集群所需系统环境、HadooP运行模式,熟练掌握在LinUX下部署全分布模式HadooP过程:规划集群、准备机器及软件环境(配置静态IP、修改主机名、编辑域名映射、安装和配置Java、安装和配置SSH免密整录)、安装和配置Hadoop集群(hadoop-env.sh、yarn-env.shmapred-env.sh、core-site.xml、hdfs-site.xml、yarn-site,xml、mapred-site.xml、slaves)关闭防火墙、格式化文件系统、启动和验证HadOOp、关闭HadoOPo(重点难点)教学内容第2章初识Hadoop2.1HadoOP概述(重点)2.2HadooP生态系统(重点)2.3HadOOP体系架构(重点)2.4Had。P应用现状2.5部署和运行Had。P(重点,难点)重点难点重点:HadOOP是什么,Hadoop生态系统,Hadoop体系架构,部署和运行Hadoop0难点:部署和运行HadOoPo教学方法手段讲授法,讨论法,演示法,案例法教学步骤第2章初识Hadoop1 .复习提问,讲评章节测试1,导入本节内容。2 .精讲本节内容。3 .进行本节小结。4 .布置课后作业。复习提问1 .根据你的理解,何为大数据?2 .大数据有哪些特征?3 .大数据关键技术有哪些?作业1.章节测试完成线上测试”章节测试2-初识HadOOp作业2.思考题(1)准备Had。P系统环境时,安装SSH是必须的,但是配置SSH免密登录并不是必须的,试述为何还要配置SSH免密登录。(2)配置Hadoop是部署Hadoop过程中较为繁琐的步骤,试述配置Hadoop伪分布模式和全分布式模式的异同。预习内容预习线上资源“实脸指导书-实验1部署全分布模式HadOOP集群”,了解实脸目的和实脸内容,准备实脸环境。教学环节复习提问新课讲解课堂讨论每课小结布置作业时间分配(以分钟计算)10701532课序:a实验日期:实验教师:*批准人:*一、实验名称实验1部署全分布模式HadOOP集群二、实验目的、要求1 .熟练掌握LinUX基本命令。2 .掌握静态IP地址的配置、主机名和域名映射的修改。3 .掌握LinUX环境下JaVa的安装、环境变量的配置、JaVa基本命令的使用。4 .理解为何需要配置SSH免密登录,掌握Linux环境下SSH的安装、免密登录的配置。5 .熟练掌握在LinUX环境下如何部署全分布模式Hadoop集群。三、实验重点、难点重点:配置全分布模式HadOoP集群。难点:配置SSH免密登录。四、实验器材、设备本实验所需的软硬件环境包括PC、VMwareWorkstationPro、CentOS安装包、OraCIeJDK安装包、HadOoP安装包。教学设计:一、复习提问,回顾部署和运行HadOOP的关键点。教师讲述本次实验的先修技能、实验步骤和实验重点难点。二、采用实验法教学,学生按照本次实验的实验指导书进行实验,教师指导。实验步骤如下:;科技能;3.理解SSH安全通信W议l>WBLnuxS4直第HAdOOPaKdsniS:运行环级运行I式、生态系终体系架构、配置文件考他群架构和a:主节点、从节点、IPmL运行服务、蚊眼W1-SLSJS三-件选择:虚拟机工具、LinUX操作浜统、JaV最SSH、HadooP2总备机88配同MP修改主机g3推备软件环境.gS¾j,¾Eg)<va安装和配置SSH免阳录4.下则安装HadooP新建怆doop.sh:添加HAooOPHoMf到变ItPAIHtt三hdoop-envh:JAVAHOME.HA(XX)P$HOPTS.HADOoPplDDIR-fimm3pred-cnvh:JAVAHOME,HADP.MAPRED.PD,DIR三yarn<env.s:JAVA,HOME.YARN.P1D.DI畤部署全分布模式HadoOP集群£8CoferiIaXmI:U.defaultFS,io.fle.bUffersiz%S.BM全分布Wt式HddoOP集群hadoop.tmp.di偌实脸步骤配BhdfSrite.xml:dk.namerode.name.dif4dfs.datanode.dataxiir.dk.namenode.cHeckpointdirrdfs.replicationS1EBmapredsitejcml:mapreduce.framework.nameS5Egyarsite.xml:yarrewurcemanger.hostname.yam.rx>demanageruxservices配IRaVeS6 .关闭防火墙7 .梏五化文件一维StartYfsshStarVyarashB9)Hadoopmrjobistofydaemon.shstarthistoryserver8启EHad8P方法1:jps理啦EHddOOP方法2:WebUl方法3:(三)HadoopBsfflijMapReduceffiffififfWordCountmr*jobhistory*ddemon.shstophistorysenrerstop*yam.sh9.关闭Hdoopstop-dfs.sh*应点配JI金分布样式Hedoopgun买脸有点难点P唯点:配置SSH免曳登录拓展训练图实验1部署全分布模式Hadoop集群知识地图1 .规划部署。2 .准备机器。3 .准备软件环境:配置静态IP;修改主机名;编辑域名映射;安装和配置Java;安装和配置SSH免密登录。4 .获取和安装HadooPo5 .配置全分布模式Hadoop集群。6 .关闭防火墙。7 .格式化文件系统。8 .启动和验证HadOOp。9 .关闭Hadoopo三、布置课后作业1 .完成本次实验的电子版实验报告,并与本周日前上传至平台。2 .预习“HDFS体系架构和文件存储机制二课序授课日期授课班次授课教师批准人4课题第3讲HDFS体系架构和文件存储机制目的要求1 .了解大数据存储对文件系统的挑战,理解HDFS文件系统特点。2 .理解HDFS体系架构,掌握NameNode与DataNode的作用与关系,掌握HDFS元数据文件的组成。(重点)3 .理解HDFS文件存储机制:块,副本策略。(重点)4 .掌握HDFS数据读写过程及涉及到的关键类。(重点)教学内容第3章分布式文件系统HDFS3. 1HDFS简介3.2 HDFS体系架构(重点)3.3 HDFS文件存储机制(重点)3.4 HDFS数据读写过程(重点)重点难点重点:HDFS体系架构,HDFS文件存储机制,HDFS数据读写过程。难点:无。教学方法手段讲授法,讨论法,演示法,案例法教学步骤第3章分布式文件系统HDFS1 .复习提问,讲评章节测试2和实验1,导入本节内容。2 .精讲本节内容。3 .进行本节小结。4 .布置课后作业。复习提问简述部署全分布模式HadOOP集群的基本步骤。作业无预习内容预习“实战HDFS"、“HDFS高可靠性机制教学环节复习提问新课讲解课堂讨论每课小结布置作业时间分配(以分钟计算)10701532课序授课日期授课班次授课教师批准人5课题第4讲实战HDFS目的要求1 .掌握HDFSWebUl的使用,熟练掌握HDFSShelI常用命令使用和HDFSJavaAPI编程。(重点,难点)2 .了解HDFS高可靠性机制:元数据备份、SecondaryNameNodeBackupNode备份、HDFSNameNodeHA、HDFSNameNodeFederation>HDFSSnapshots0教学内容第3章分布式文件系统HDFS3.5实战HDFS(重点,难点)3.5.1HDFSWebUl3.5.2HDFSShelI3.5.3HDFSJavaAPI编程3.6HDFS高可靠性机制(了解)重点难点重点:HDFS体系架构,HDFS文件存储机制,HDFS数据读写过程。难点:无。教学方法手段讲授法,讨论法,演示法,案例法教学步骤第3章分布式文件系统HDFS1 .复习提问,导人本节内容。2 .精讲本节内容。3.进行本节小结。4.布置课后作业。复习提问1.简述HDFS是什么。2.简述HDFS体系架构。3.简述HDFS文件存储机制。4.简述HDFS数据读写过程。作业1 .章节测试完成线上测试”章节测试3-分布式文件系统HDFS2 .思考题(1)简述HDFS元数据的更新和备份过程CheCkPoint。(2)简述备份节点和SeCOndaryNameNOde的区别是什么?预习内容预习线上资源准备实验环境°“实脸指导书-实验2实战HDFS”,了解实验目自夕和实脸内容,教学环节复习提问新课讲解课堂讨论每课小结布置作业时间分配(以分钟计算)5751532课序:上实验日期:实验教师:*批准人:*一、实验名称实验2实战HDFS二、实验目的、要求1 .理解HDFS体系架构。2 .理解HDFS文件存储原理和数据读写过程。3 .熟练掌握HDFSWebUI界面的使用。4 .熟练掌握HDFSShell常用命令的使用。5 .熟练掌握HDFS项目开发环境的搭建。6 .掌握使用HDFSJavaAPI编写HDFS文件操作程序。三、实验重点、难点重点:使用HDFSWebUI、HDFSShelKHDFSJaVaAPl编程。难点:使用HDFSJavaAPI编程。四、实验器材、设备本实验所需的软件环境包括全分布模式Hadoop集群、Eclipseo教学设计:一、复习提问,回顾使用HDFSWebUI、HDFSShell.HDFSJaVaAPl编程的关键点。教师讲述本次实验的先修技能、实验步骤和实验重点难点。二、采用实验法教学,学生按照本次实验的实验指导书进行实验,教师指导。实验步骤如下:先修技能实战HDFS -T实验步骤实验重点难点,难点:使用HDFSJaVaAPl编程拓展训练r HDFS NameNode HA高可用环境侬1.陋草提IJnUXM2 .塞提JaVa编程3 .螭津握全分布模式HadOoP集群的使用4 .理解HDFS基础知识:功能、体系架构、文件存储原理、HDFS接口等1.启动Had。P集群*2.fflHDFSShell3好HDFSWebUl4.搭建HDFS开发环境ECIiPSe在EdiPSe中创建JaVa项目在项目中添加所需JAR包/会5.使用HDFSJaVaAPl编程在项目中新建包广编写JaVa程序编译运行程序6.关闭Had。P集群量点:SfflHDFSWebUKHDFSShellHDFSJavaAPIS图实验2实战HDFS知识地图1 .启动全分布模式Hadoop集群,守护进程包括NameNode、DataNode、SecondaryNameNodesResourceManager>NodeManager和JobHistoryServero2 .查看HDFSWeb界面。3 .练习HDFSShell文件系统命令和系统管理命令。4 .在Hadoop集群主节点上搭建HDFS开发环境Eclipse。5 .使用HDFSJavaAPI编写HDFS文件操作程序,实现上传本地文件到HDFS的功能,采用本地执行和集群执行的两种执行方式测试,观察结果。6 .使用HDFSJavaAPI编写HDFS文件操作程序,实现查看上传文件在HDFS集群中位置的功能,采用本地执行和集群执行的两种执行方式测试,观察结果。7 .关闭全分布模式Hadoop集群。三、布置课后作业1.完成本次实验的电子版实验报告,并与本周日前上传至平台。课序授课日期授课班次授课教师批准人7课题第5讲MapReduce概述及作业执行流程目的要求1 .理解MaPRedUCe编程思想。(重点)2 .掌握MaPRedUCe应用程序WOrdCOUnt中Mapper类、Reducer类、main。方法的编写(重点、难点),并熟练掌握向HadOoP集群提交MR作业和查看结果的方法(重点)。3 .理解MaPRedUCe作业执行流程的五个阶段,理解MaPRedllCe2.0作业执行时体系架构。(重点)4 .理解ShUffle机制。(难点)教学内容第4章分布式计算框架MapReduce4.1MaPRedUCe简介(重点)分而治之;键值对key,value)4.2第一个MaPRedUCe案例:WordCount(重点)Mapper类、Reducer类、main。方法的编写4.3MaPRedUCe作业执行流程(重点)InputFormat,Map,Shuffle,Reduce,OutputFormat4.5ShUffle机制(难点)重点难点重点:MaPRedUCe编程思想;WordCount中Mapper类、Reducer类、main()方法的编写;MaPRedUCe作业执行流程。难点:WordCount中Mapper类、Reducer类、main()方法的编写:ShUffle机制。教学方法手段讲授法,演示法,案例法教学步骤1.复习提问,讲评章节测试3和实脸2,导入本节内容。2.精讲教学内容。3.进行本节小结。4.布置课后作业。复习提问简述HDFS的体系架构和接口。作业自行编写MapReduce程序WordCountDIY,并提交Hadoop集群运行。预习内容预习“MapReduce数据类型与殂手式"、“在MaPRedUCe中自定义£且件教学环节复习提问新课讲解课堂讨论每课小结布置作业时间分配(以分钟计算)10701532课序授课日期授课班次授课教师批准人8课题第6讲MaPRedUCe数据类型和自定义组件目的要求1 .掌握MaPRedUCe数据类型(重点),理解序列化和反序列化(难点)。2 .了解自定义输入组件、自定义排序组件、自定义分区组件、自定义输出组件的编写。(难点)教学内容第4章分布式计算框架MapReduce4.4MaPRedUCe数据类型与格式序列化,反序列化IntWritabIe,LongWritabIe,FIoatWritabIe,DoubIeWritabIe,ByteWritabIeBooIeanWritabIe,Text,NulIWritabIe4.6在MapReduce中自定义组件输入组件:org.apache,hadoop.mapreduce.InputFormat,RecordReader,重写CreateRecordReader()排序组件:自定义类实现COmParable或WritabIeComParabIe,重写CompareTo()分区组件:org.apache,hadoop.mapreduce.Partitioner,重写getPartition()输出组件:org.apache.hadoop.mapreduce.OutputFormat,RecordWriter,重写getRecordWriter()重点难点重点:MaPRedUCe数据类型。难点:序列化和反序列化;MapReduce自定义组件编写。教学方法手段讲授法,演示法,案例法教学步骤1 .复习提问,导入本节内容。2 .精讲教学内容。3.进行本节小结。4.布置课后作业。复习提问简述MapReduce作业执行流程。作业重读MapReduce示例程序WordCount,深入理解其中的数据类型。预习内容预习“实战MaPRedUce”、“其?:主流计算框架”O教学环节复习提问新课讲解课堂讨论每课小结布置作业时间分配(以分钟计算)5701555课序:9实验日期:实验教师:*批准人:*一、实验名称实验3MapReduce编程(1)二、实验目的、要求1 .理解MapReduce编程思想。2 .理解MapReduce作业执行流程。3 .理解MR-App编写步骤,掌握使用MapReduceJavaAPI进行MapReduce基本编程,熟练掌握如何在Hadoop集群上运行MR-App并查看运行结果。4 .熟练掌握M叩RedUCeWebUI界面的使用。5 .掌握MapReduceShell常用命令的使用。三、实验重点、难点重点:MaPRedUCe编程。难点:MaPRedUCe编程。四、实验器材、设备本实验所需的软件环境包括全分布模式Hadoop集群、Eclipseo教学设计:一、免习提问,回顾MaPRedUCe编程的关键点。教师讲述本次实验的先修技能、实验步骤和实验重点难点。二、采用实验法教学,学生按照本次实验的实验指导书进行实验,教师指导。实验步骤如下:L熟练掌IaLinUX基本会今2 .¾Javag先修技能3 .熟练掌班全分布慢式HadooP奥密的使用4 .Jf解MaPRedIKeaM蜘识:功筠、版本、微S区想、体系架构、fRlki>UjiftS.MaPRedUCe编程、MapReduceWebULMaPRedUCeShd心等1启动HadooP里群5 .血MaPReduCe开发SFttEdiPSe在ECliPSe中创建Java项目在项目中导入所需JAR包MaPRedUCe 编程(1)F * 3.自编MaPRedUCeJ?WOrdCOUnt 实验步骤在项目中新建包*自编MaPRedUCe?WordCoUnt将MaPRedUCefeF包OEJAR包*提交JAR包到HadOoP中运行查看运彳淬果*4.尊.习使用MaPRedIKeWebUI界面5,炼可使用MaPReduCeShelI常用会令6.关闭HadOOPftm*B点:MaPRedUCe启程实验重点难点广Jg点:MaPRedUCe微S图实验3M叩RedUCe编程(1)知识地图1 .启动全分布模式Hadoop集群,守护进程包括NameNode、DataNode、SecondaryNameNodesResourceManagerNodeManager和JobHistoryServero2 .在Hadoop集群主节点上搭建MapReduce开发环境Eclipseo3 .查看Hadoop自带的MR-App单词计数源代码WordCountjava,在Eclipse项目MapReduceExample下建立新包com.xijing.mapreduce,模仿内置的WordCount示例,自己编写一个WordCoUnt程序,最后打包成JAR形式并在HadooP集群上运行该MR-APp,查看运行结果。4 .分别在自编MapReduce程序WordCount运行过程中和运行结束后查看MapReduceWebUI界面。5 .分别在自编M叩RedUCe程序WordCount运行过程中和运行结束后练习MapReduceShell常用命令。6 .关闭Hadoop集群。三、布置课后作业1.完成本次实验的电子版实验报告,并与本周日前上传至平台。课序授课日期授课班次授课教师批准人10课题第7讲实战MaPRedUCe和其它主流计算框架目的要求1. 掌握MaPRedUCeWebUl的使用,了解MaPRedUCeSheII常用命令的使用,掌握MaPRedUCeJavaAPI编程。(重点)2. 了解MapReduce调优策略。3. 了解其它主流计算框架:SparkStreamingsStorm、Flink等。教学内容第4章分布式计算框架MapReduce4.7实战MaPRedUCeMapReduceWebUl:JobhistoryIP:19888MapReduceSheII:mapred命令参数4.8MapReduce调优4.9其他主流计算框架Spark>Storm>Flink重点难点重点:MapReduceWebUl的使用,MapReduceJavaAPI编程。难点:MapReduceJavaAPI编程。教学方法手段讲授法,演示法,案例法教学步骤1 .复习提问,讲评实验3,导入本节内容。2 .精讲教学内容。3.进行本节小结。4.布置课后作业。复习提问简述MapReduce数据类型0作业1 .章节测试完成线上测试”章节测试4-分布式计算框架MapReducewO2 .思考题(1)试述在MaPRedUCe运行的整个阶段中,哪些阶段可以实现自定义设计?请描述这些自定义设计如何具体的实现。(2)本章使用MaPRedUCe对单词进行了统计。单词本身属于“字符串”,但如果要统计的对象不是字符串,而是对象,该如何使用MaPRedUCe进行统计?预习内容预习“统一资力里管理和调度框?得YARN”。教学环节复习提问新课讲解课堂讨论每课小结布置作业时间分配(以分钟计算)10701532课序授课日期授课班次授课教师批准人11徐鲁辉课题第8讲统一资源管理和调度框架YARN目的要求1 .理解MaPRedUCe1.0存在的问题,理解YARN是什么及其优势(重点),了解YARN发展目标。2 .理解YARN体系架构,理解ResourceManagerAppIicatiOnMaster>NodeManager的功能O(重点)3 .理解YARN工作流程。4 .理解YARNWebUl的使用,掌握YARNShelI常用命令的使用(重点),了解YARNJavaAPI的基本使用。5 .理解ReSOUrCeManagerReStart是什么和实现原理,理解ReSoUrCeManagerHA是什么和体系架构,理解YARNFederation是什么和体系架构,了解以上三种YARN新特性的配置。(难点)6 .了解其它统一资源管理调度框架:ApacheMesosHadoopCorona>GoogIeBorg/Omega/Kubernetes>DockerSwarmo教学内容第5章统一资源管理和调度框架YARN5. 1初识YARN5.2YARN体系架构5. 3YARN工作流程5.4 实战YARN5.5 YARN新特性5.6 其它统一资源管理调度框架重点难点重点:YARN概述,YARN体系架构,YARNShell,YARNWebUl0难点:YARN新特性。教学方法手段讲授法,演示法,案例法教学步骤1 .复习提问,讲评章节测试4,导入本节内容。2 .精讲教学内容。3.进行本节小结。4.布置课后作业。复习提问简述MaPRedUCe编程思想、作业执行流程,MaPRedUCe编程要点。作业1 .章节测试完成线上测试”章节测试5-统一资源管理和调度框架YARN”。2 .思考题(1)试述YARN对MaPRedUC