《Spark大数据技术与应用案例教程》教案第12课编写SparkStreaming应用程序.docx
课题编写SparkStreaming应用程序课时2课时(90min)教学目标知识技能目标:(1)了解流数据、流计算和SparkStreaming的基本概念(2)理解SparkStreaming的运行原理(3)掌握编写SparkStreaming应用程序的基本步骤素质目标:培养自我学习和持续学习能力,能够及时掌握新技术和工具,并将其应用到实际项目中教学重难点教学重点:流数据、流计算和SparkStreaming的基本概念,SparkStreaming的运行原理教学难点:编写SparkStreaming应用程序的基本步骤教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学过程主要教学内容及步骤课前任务【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务请大家了解什么是流数据、流计算和SparkStreaming.【学生】完成课前任务考勤【教师】使用APP进行签到【学生】班干部报请假人员及原因问题导入【教师】提出以下问题:你知道什么是流数据、流计算和SParkSlreaming吗?【学生】思考、举手回答传授新知【教师】通过学生的回答引入新知,介绍流数据、流计算和SparkStreaming的基本概念,SparkStreaming的运行原理,以及编写SparkStreaming应用程序的基本步骤等知识一、流数据和流计算【教师】利用多媒体展示“流数据的特点”图片,并介绍流数据和流计算的概念和特点学习SparkStreaming之前,我们先来了解一下流数据和流计算。日常生活中,数据可以分为静态数据和流数据(动态数据)两大类。静态数据是指在应用程序运行时不会发生变化的数据,这些数据通常是预定义的,存储在文件或数据库中,并在程序执行期间被读取和使用。常见的静态数据包括配置文件、资源文件、产品目录、固定列表等。对于静态数据,一般采用批处理方式进行计算,对时间延迟的容忍度比较高。流数据是指动态生成、不断产生的数据集合,通常以连续的流形式进行输入和处理.流数据通常由各种设备或系统不断地采集、发送、存储和处理而来,包括传感器数据、日志数据、社交媒体数据等。流数据的特点如图4-1所示。流数据 的特点数据量大反数据的速度很快,处Gl【二具需要具备高效的算法一高速性数据结构J(嬴据顺序颠倒,或者不GlX无序性整,导致系统无法控制数芈元素的顺第Jf据量大,但不十分关G存储,一旦数据流中的某个元素经过处理,要么被叵弃,要被归档存储J多样性流数据来源广泛,格式复 杂多样旧重数据的整体价值,IL由Q分关注个别数场八空巴图4-1流数据的特点流计算是指对流数据进行实时计算。实时计算要求响应时间为秒级或者毫秒级,即能够实时得到计算结果。在大数据时代,数据量大、数据来源广泛、数据格式复杂,这些都增加了实时计算的难度,进而催生了针对流数据的实时计算流计算。目前,市场上存在的流计算框架有很多,其中主流的框架有SparkStreaming、Storm、KafkaStreams和Flink等。二、认识SparkStreaming【教师】介绍SparkStreaming的概念和优点SparkStreaming是Spark的一个组件,是用于处理流数据的分布式实时计算框架。SparkStreaming利用SPark核心引擎的强大计算能力,以微批处理(micro-batchprocessing)的方式对持续输入的流数据进行处理。SparkStreaming支持各种数据源,包括文件流、套接字流、RDD队列流、Kafl<a和Kinesis等,同时也可以与多种数据存储系统集成,如HDFS.CassandraxElasticsearch等。SparkStreaming的优点如下。> 易于使用。> 高效可靠。> 可扩展性强。> 多语言支持。(详见教材)三、SparkStreaming的运行原理【教师】利用多媒体展示“离散数据流的内部结构"和“SparkStreaming的运行原理”图片,并介绍SparkStreaming的运行原理SparkStreaming提供了一种高级的抽象,叫做离散数据流(discretizedstream.DStream)0DSlream的内部其实是一系列连续的RDD,每个RDD都包含一段时间内的数据,如图4-2所示。DStreainRDD time 1RDD Iime 2RDD ti me 3RDD time 4(ZXdata from data fromdata from _.data from A1 time 0 to 1time 1 to 2time 2 to 3time 3 to 4L_Jv图4-2离散数据流的内部结构SparkStreaming的运行原理是将针对DStream的流处理操作转换为针对RDD的批处理操作,如图43所示。也就是说,SParkSlreaming将实时输入的流数据按照一定的时间间隔拆分为一段一段的数据,并将每段数据都转换为RDD,形成DStream;然后使用Spark的计算引擎对该DStream进行处理(即对DStream中的每个RDD进行处理),输出处理后的DStreame输入流数据DStream1 - DlinesDStreamwordsDStreamRDD time IRDD Iime 2RDD time 3RDD time 4RDD result 1RDD result 2RDD result 3RDD result 4图4-3SparkStreaming的运行原理【教师】利用多媒体展示“实时单词统计”图片,以实时单词统计为例,帮助学生理解SparkStreaming的运行原理以实时单词统计为例(见图4-4),SparkStreaming会把流数据分成一段一段的数据,每麒据形成每个RDD均存储了一些TRDD,即RDDtime1、RDDtime2、RDDtime3和RDDtime4(详见函)句子,这些RDD构成了一个DStream(即IineS)图44实时单词统计四、编写SparkStreaming应用程序的基本步骤【教师】介绍编写SparkStreaming应用程序的基本步骤编写SparkStreaming应用程序可以处理和分析实瞰据流,其基本步骤如下。(1)创建SlreamingConiexi对象,设置批处理时间间隔。在SparkStreaming应用程序中,首先需要创建一个StreamingContext对象,该对象的参数说明如表4-1所示,表4-1StreamingContext对象的参数说明参数说明SparkContextSparkContext对象是Spark的主要入口点,StreamingContext需要使用现有的SparkContext对象来创建batchDuration可选参数,表示流数据划分为批次的时间间隔(以秒为单位)StreamingContext对象是整个应用程序的入口点,负责管理SparkStreaming的运行环境、连接数据源、创建DStream等。同时,该对象可以设置批处理时间间隔,决定每次从数据源中读取多长时间的数据。创建StreamingContext对象的参考示例如下。frompyspark.streamingimportStreamingContextfrompysparkimportSparkContextJ建SparkContext对象sc=SparkContext("local","AppName")能!J建StreamingContext对象,设置批处理时间间隔为1秒ssc=StreamingContext(sc,1)(2)读映雌创建DStream定义输入源。在SParkStreaming应用程序中,需要读取不同数据源中的数据创建DStream,为后续实时处理定义输入源。(3)对DSIream进行处理。SparkStreaming支持多种转换操作,可以对DStream进行处理。(4)输出数据处理结果。在处理输入数据之后,可根据业务需求使用DStream的输出操作将处理结果输出到外部系统或存储介质中。(5)启动StreamingContexi对象,接收数据和执行处理流程。使用StreamingCOnteXt.start。方法启动StreamingContext对象,SparkStreaming将会不断地从输入的数据源中获取数据,并执行指定的转换和输出操作。(6)等待作业完成或手动停止。一旦启动了StreamingConiex(对象,应用程序就处于一个无限循环执行的状态。用户可以使用StreamingCOnteXt.awailTemination()方法等待数据处理结束,或使用StreamingeOnIeXl.slop。方法手动结束流计算进程。【学生】聆听、思考、理解、记录【教师】介绍“编写SparkStreaming应用程序”的大概流程,安排学生扫描微课二维码观看视频“编写SparkStreaming应用程序“(详见教材),并要求学生进行相应操作1.利用Netcat工具向9999端口发送数据流NetCal是一款网络工具,它可以用于端口监听、端口扫描、远程文件传输,以及远程SheIl等。步骤I在虚拟机中打开两个终端,分别执行以下命令,运行并测试NeICal工具,如图4-5所示。分别在两个终端中输入字符后,如果两个终端可以分别收到对方发送的数据,则证明Netcat可以正常使用,通信正常。班端一的命令hadoopbogon$nc-Ik9999hello!#终端二的命令课堂实践|hadoopbogon|$nclocalhost9999hdp©bogonX文件(F)镇辑(E)查看(V)搜索(S)终端(T)帮助(H) hadoopbogo -$ nc -Ik 9999 hello!I love Spark!IloveSpark!hadoop)bogon:X文件(F)f三(E)皆着(V)搜索(三)终期(T)帮助(三)(hadoop9bogon-$nclocalhost9999hello!IloveSpark!I图4-5测试Neicat工具步骤2A分别在两个终端中按"Ctrl+Z"组合键,退出Netcato2.在PyCharm中编写SparkStreaming应用程序为了方便查看实时处理结果,用户可以打开终端,执行以下命令,打开Spark的配置文件Mlog4j.proper(iesw,将Spark日志记录的级别“INFO"修改为"ERROR”,清除大量的日志信息,如图4-6所示.hadoopbogon-$cdusrlocalsparkconfhadoopbOgonCOnf$sudocplog4j.properties.templatelog4j.propertieshadoopbogonconf|$sudovimlog4j.properties1.og4j.rootCategory三ERROR,console.lo4.aDoender.ConSOle=Ora.aDache.J,og4j.ConsoleAppenderloq4.appender.console.farqet=Svstm.errlog4j.appender.console.layout=org.apache.IOg4j.PatternLayoutIog4j.appender.console.layout.ConversionPattern=%dyyMMddHH:mm:ssp%cl:%ffln图4-6修改Spark日志记录的级别步骤IA创建SparkContext对象,设置4个本地线程执行任务,并将应用程序的名称设置为"WordCount"。步骤2A创建StreamingContext对象,SC为创建的SparkContext对象,指定批处理时间间隔为10秒,即每10秒将实时流数据划分为一个批次.步骤3A创建DSiream(即IineS)o使用SOCkelTeXISlream()方法创建DStream,用于接收来自本地主机(即localhost)9999端口的文本数据流。(详见教材)【运彳强果】在PyChann中运行"wordCount.py"文件,然后打开1个新的终端,执行命令并持续输入文本信息(见图4-7),利用Netcat工具向端口发送数据流,此时PyCharm控制台显示词频统计结果,如图4-8所小.Tiae:223-88313:53:80(,pychar',1)('love',1)(,1)Tiae:2023-88-8313:53:10(sparkf1)(,love,1)CI1)Tiee:2923-08-0313:53:28(hadoopbogon-$nc-Ik9999IIOVepycharmIlovesparkIIOVeSDarkStreaminQ图47终端的文本信息(,spark'r1)('love',1)(,Streaalng',1)II1)图4-8PyCharni控制台的显示信息【小提示】在终端尽可能以每10秒输入一行文本的速度持续输入文本数据,输入文本的时间和速度都会影响PyCharm中的运行结果。【学生】自行扫码现看配套微课,按照要求进行操作,如遇问蓬可询问老师【教师】巡堂辅导,及时解决学生遇到的问题【教师】简要总结本节课的要点课堂小结流数据和流计算认识SparkStreamingSparkStreaming的运行原理SparkStreaming应用程序的基本步骤【学生】总结回顾知识点作业布置【教师】布置课后作业(1)完成项目四项目实训中与本课相关的习题;(2)根据课堂知识,课后自己尝试编写SparkStreaming应用程序。【学生】完成课后任务教学反思