欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    (全国职业技能比赛:高职)GZ033大数据应用开发赛题第10套.docx

    • 资源ID:1131921       资源大小:54.47KB        全文页数:21页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    (全国职业技能比赛:高职)GZ033大数据应用开发赛题第10套.docx

    2023年全国职业院校技能大赛赛题第10套赛项名称:大数据应用开发英又名称:BigDataAPPIiCationDeVeloPmentGZ033赛项组别:高等职业教育组赛项编号:背景描述工业互联网是工业全要素、全产业链、全价值链的全面连接,是人、机、物、工厂互联互通的新型工业生产制造服务体系,是互联网从消费领域向生产领域、从虚拟经济向实体经济拓展的核心载体,是建设现代化经济体系、实现高质量发展和塑造全球产业竞争力的关键支撑,工业大数据则是工业互联网实现工业要素互联之后的核心价值创造者。随着大数据行业的发展,工业数据收集呈现时间维度不断延长、数据范围不断扩大、数据粒度不断细化的趋势。以上三个维度的变化使得企业所积累的数据量以加速度的方式在增加,最终构成了工业大数据的集合。为完成工业大数据分析工作,你所在的小组将应用大数据技术,以Scala作为整个项目的基础开发语言,基于大数据平台综合利用HudiSparkFlink.Vue.js等技术,对数据进行处理、分析及可视化呈现,你们作为该小组的技术人员,请按照下面任务完成本次工作。任务A:大数据平台搭建(容器环境)(15分)环境说明:服务端登录地址详见各任务服务端说明。补充说明:宿主机及各容器节点可通过ASbrU工具或SSH客户端进行SSH访问。子任务一:HadoopHA安装配置本任务需要使用root用户完成相关配置,安装Hadoop需要配置前置环境。命令中要求使用绝对路径,具体要求如下:1、从宿主机/opt目录下将文件hadoop-3.1.3.tar.gz、jdk-8u212-linu-64.tar.gz,apache-ZOOkeePer-3.5.7-bin.tar.gz复制到容器MaSter中的optsoftware路径中(若路径不存在,则需新建),分别将MaSter节点Hadoop、ZooKeeper.JDK安装包解压到optmodule路径中(若路径不存在,则需新建),其中将JDK、HadOoP解压命令复制并粘贴至客户端桌面【Release'任务A提交结果.docx】中对应的任务序号下;2、请完成host相关配置,将三个节点分别命名为master、slavelSlaVe2并做免密登录,修改容器中etcprOfiIe文件,设置JDK环境变量并使其生效,分发jdk至slaveKslave2中,均配置完毕后在Master节点分别执行"java-version"和"javacw命令,将命令行执行结果分别截图并粘贴至客户端桌面【Release'任务A提交结果.docx】中对应的任务序号下;3、配置好ZookeePer,其中ZOOkeePer使用集群模式,分别在master、SIaVe1、slave2作为其集群的节点,使用zkServer.shstatus获取zookeeper服务端状态,将命令和结果截图粘贴至客户端桌面【Release'任务A提交结果.docx】中对应的任务序号下(注:只截取三个节点中zookeeperserver角色模式为leader的节点);4、配置好HadOOPHA,请将dfs.ha.namenodes,hadoopcluster设置为nnl、nn2,同时yarn,resourcemanager,ha.rm-ids设置为rml、rm2,并在Master启动nnl与rml,在slavel启动nn2与rm2,将InaSter、SlaVe1、SIaVe2均作为datanode,分发hadoop至slavelslave2中,启动yarn与hdfs的HA集群(HadoopHA集群),并在Master节点上使用命令分别查看服务nn2与rm2进程状态,并将查看命令及结果截图粘贴至客户端桌面【Release'任务A提交结果.docx】中对应的任务序号下;5、HadOOPHA配置并启动完毕后,使用jps在SlaVeI节点查看服务进程,将查看命令及结果截图粘贴至客户端桌面【Release'任务A提交结果.docx】中对应的任务序号下。子任务二:Flume安装配置本任务需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,具体要求如下:1、从宿主机/opt目录下将文件apache-flume-l.7.O-bin.tar.gz复制到容器master中的optsoftware路径中(若路径不存在,则需新建),将MaSter节点FlUme安装包解压到optmodule目录下,将解压命令复制并粘贴至客户端桌面【Release、任务A提交结果.docx】中对应的任务序号下;2、完善相关配置,配置Flume环境变量,并使环境变量生效,执行命令flume-ngversion并将命令与结果截图粘贴至客户端桌面【Release'任务A提交结果.docx】中对应的任务序号下;3、启动FlUme传输HadOOP日志(namenode或datanode日志),查看HDFS中tmpflume目录下生成的内容,将查看命令及结果(至少5条结果)截图并粘贴至客户端桌面【Release、任务A提交结果.docx中对应的任务序号下。子任务三:CliCkHouse单节点安装配置本任务需要使用root用户完成相关配置,具体要求如下:1、从宿主机/opt目录下将CliCkhOUSe开头的相关文件复制到容器Master中的optmoduleCIiCkhoUSe路径中(若路径不存在,则需新建),将全部解压命令复制并粘贴至客户端桌面【Release'任务A提交结果.docx】中对应的任务序号下;2、执行启动各个相关脚本,将全部启动命令复制并将执行结果(截取结果最后倒数15行即可)截图粘贴至客户端桌面【Release'任务A提交结果.docx】中对应的任务序号下;3、设置远程访问并移除默认监听文件(IiStelI.xml),同时由于9000端口被HadOOP占用,需要将CliCkhOUSe的端口更改为9001,并启动CliCkhOUse,启动后查看CliCkhOUSe运行状态,并将启动命令复制、查看运行状态命令复制并将执行结果截图粘贴至客户端桌面【Release'任务A提交结果.docx】中对应的任务序号下。任务B:离线数据处理(25分)环境说明:服务端登录地址详见各任务服务端说明。补充说明:各节点可通过ASbrU工具或SSH客户端进行SSH访问;主节点MySQL数据库用户名/密码:root123456(已配置远程连接);Spark任务在Yarn上用Client运行,方便观察日志。子任务一:数据抽取编写Scala代码,使用Spark将MySQL库中表EnvironmentData,ChangeRecord,BaseMachine,MaChineDala,ProduceRecord全量抽取到HUdi的hudi_gy_ods库(路径为/user/hive/warehouse/hudi_gy_ods.db)中对应表environmentdata,changerecord,basemachine,machinedata,producerecord中。1、抽取MySQL的shtdindustry库中EnvironmentData表的全量数据进入Hudi的hudi_gy_ods库中表environmentdata,字段排序、类型不变,同时添加静态分区,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)PRECOMBINE_FIELD使用InPutTime,EnvoId作为主键。使用spark-sql的CIi执行showpartitionsods.environmentdata命令,将结果截图粘贴至客户端桌面【Release'任务B提交结果.docx】中对应的任务序号下;2、抽取MySQL的ShtCLindUStry库中ChangeReCOrd表的全量数据进入HUdi的hudi_gy_ods库中表changerecord,字段排序、类型不变,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyy三dd)。PRECOMBINE_FIELD使用ChangeEndTime,ChangeID和ChangeMachineID作为联合主键。使用spark-sql的Cli执行selectcount(*)fromods.changerecord命令,将CIi的执行结果分别截图粘贴至客户端桌面【Release'任务B提交结果.docx】中对应的任务序号下;3、抽取MySQL的shtd_industry库中BaseMachine表的全量数据进入Hudi的hudi_gy_ods库中表basemachine,字段排序、类型不变,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)oPRECOMBINE.FIELD使用MachineAddDate,BaseMachineID为主键。使用spark-sql的cli执行showpartitionsods.basemachine命令,将spark-sql的CIi的执行结果分别截图粘贴至客户端桌面【Release'任务B提交结果.docx】中对应的任务序号下;4、抽取MySQL的shtd_industry库中ProduceRecord表的全量数据进入Hudi的hudi_gy_ods库中表producerecord,剔除ProducePrgCode字段,其余字段排序、类型不变,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyy三dd)。PRECOMBINE_FIELD使用ProduceCodeEndTime,ProduceRecordID和ProduceMachineID为联合主键。使用spark-sql的cli执行showpartitionsods.producerecord命令,将spark-sql的cli的执行结果分别截图粘贴至客户端桌面【Release'任务B提交结果.docx】中对应的任务序号下;5、抽取MySQL的shtd_industry库中MachineData表的全量数据进入Hudi的hudi_gy_ods库中表machinedata,字段排序、类型不变,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)。PRECoMBINE_FIELD使用MachineRecordDate,MaChineReCOrdID为主键。使用spark-sql的cli执行showpartitionsods.Diachincdata命令,将cli的执行结果分别截图粘贴至客户端桌面【Release'任务B提交结果.docx】中对应的任务序号下。子任务二:数据清洗编写Scala代码,使用Spark将OdS库中相应表数据全量抽取到Hudi的hudi_gy_dwd库(路径为userhiveWarehOUSe/hudi_gy_dwd.db)中对应表中。表中有涉及到timestamp类型的,均要求按照yyyy-MM-ddHH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时分秒的位置添加00:00:00,添加之后使其符合yyyy-MM-ddHH:mm:sso1抽取hudi_gy_ods库中environmentdata的全量数据进入Hudi的hudi_gy_dwd库中表fact_environment_data,分区字段为etldate且值与ods库的相对应表该值相等,并添加dwd_insert_user>dwd_insert_time>dwd_modify_user、dwd_modify_time四列,其中dwd_insert_user、dwd_modify_user均填写uuserl,dwd_insert_timedwd_modify_time均填写当前操作时间,并进行数据类型转换。dwd_modify_time作为PreConIbineFieId,EnvoId作为primaryKeyo使用spark-sql的CIi按照envoid降序排序,查询前5条数据,将结果截图粘贴至客户端桌面【Release'任务B提交结果.docx】中对应的任务序号下;2、抽取hudi_gy_ods库中changerecord的全量数据进入Hudi的hudi_gy_dwd库中表fact_change_record,分区字段为etldate且值与hudi_gy_ods库的相对应表该值相等,并添加dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列,其中dwd_insert_user、dwd_modify_user均填写“userl”,dwd_insert_time>dwd_modify_time均填写当前操作时间,并进行数据类型转换。dwd_modify_time作为PreCombineField,change_id和change_machine_id作为联合PrinIaryKeyo使用spark-sql的cli按照ChangeJnaChine_id、Changjid均为降序排序,查询前1条数据,将结果截图粘贴至客户端桌面【Release'任务B提交结果.docx】中对应的任务序号下;3、抽取hudi_gy_ods库中basemachine的全量数据进入Hudi的hudi_gy_dwd库中表dimjnachine。分区字段为etldate且值与hudi_gy_ods库的相对应表该值相等,并添加dwd_insert_userxdwd_insert_timedwd_modify_userdwd_modify_time四列,其中dwd_insert_user>dwd_modify_user均填写user1,dwd_insert_timedwd_modify_tinie均填写当前操作时间,并进行数据类型转换。dwd_modify_time作为PreCombineField,Base_machine_id作为primaryKey。使用spark-sql的cli按照Base_machine_id升序排序,查询dim_machine前2条数据,将结果截图粘贴至客户端桌面【Release'任务B提交结果.docx】中对应的任务序号下;4、抽取hudi_gy_ods库中PrOdUCereCord的全量数据进入HUdi的hudi_gy_dwd库中表fact_produce_record,分区字段为etldate且值与hudi_gy_ods库的相对应表该值相等,并添加dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列,其中dwd_insert_user、dwd_modify_user均填写“userl”,dwd_insert_time>dwd_modify_time均填写当前操作时间,并进行数据类型转换。dwd_modify_time作为preCombineFie1d,produce_record_id和produce_machine_id作为联合PrimaryKey。使用spark-sql的cli按照produce_machine_id、PrOdUCe_record_id均为升序排序,查询fact_produce_record前1条数据,将结果截图粘贴至客户端桌面【Release'任务B提交结果.docx】中对应的任务序号下;5、抽取hudi_gy_ods库中machinedata的全量数据进入Hudi的hudi_gy_dwd库中表fact_machine_datao分区字段为etldate且值与hudi_gy_ods库的相对应表该值相等,并添加dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列,其中dwd_insert_user、dwd_modify_user均填写“userl”,dwd_insert_time>dwd_modify_time均填写当前操作时间,并进行数据类型转换。dwd_modify_time作为preCombineFie1d,machine_record_id作为primaryKeyo使用spark-sql的cli按照machine-idmachine_record_id均为降序排序,查询前1条数据,将结果截图粘贴至客户端桌面【Release'任务B提交结果.docx】中对应的任务序号下。子任务三:指标计算1、本任务基于以下2、3、4小题完成,使用DoIPhinSChedUIer完成第2、3、4题任务代码的调度。工作流要求,使用ShelI输出“开始”作为工作流的第一个job(jobl),2、3、4题任务为串行任务且它们依赖jobl的完成(命名为job2,job3、job4),job2.job3.job4完成之后使用shell输出“结束”作为工作流的最后一个job(endjob),endjob依赖job2、job3xjob4,并将最终任务调度完成后的工作流截图,将截图粘贴至客户端桌面【Release'任务B提交结果.docx中对应的任务序号下;2、编写scala代码,使用Spark根据hudi_gy_dwd层的fact_machine_data表统计出每日每台设备,状态为“运行”的时长(若运行无结束时间,则需根据时间判断这个设备的运行状态的下一个状态是哪条数据,将下一个状态的数据的时间置为这个设备运行状态的结束时间,如果设备数据的运行状态不存在下一个状态,则该设备这个阶段数据的运行状态不参与计算,即该设备的这个阶段数据的运行状态时长按0计算),将结果数据写入hudi_gy_dws层的表machine_data_total_time中,分区字段为etldate且值与fact_machine_data表该值相等,etldate作为PreCombineField,InaChine_id、machine_record_date和total_time作为联合primaryKeyo然后使用spark-sql的cli根据machine_id降序和machine_record_date升序排序查询前5条数据,将SQL语句复制粘贴至客户端桌面【Release'任务B提交结果.docx】中对应的任务序号下,将执行结果截图粘贴至客户端桌面【Release'任务B提交结果.docx】中对应的任务序号下;dws.machine_data_total_time:字段类型中文含义备注machine_idint设备idmachine_record_datestring状态日期如:2021-10-01total_timeint一天运行总时长秒3、编写scala代码,使用Spark根据hudi_gy_dws层表machine_data_total_time,计算每日运行时长前三的设备(若存在运行时长相同的数据时应全部输出,例如有两条并列第二,则第三名次不变,总共输出四条数据)。将计算结果写入ClickHouse数据库shtd_industry的machine_data_total_time_top3表中(表结构如下),然后在Linux的CliCkHOUSe命令行中根据查询所有数据,将SQL语句复制粘贴至客户端桌面【Release'任务B提交结果.docx】中对应的任务序号下,将执行结果截图粘贴至客户端桌面【Release'任务B提交结果.docx中对应的任务序号下;machine_data_total_time_top3:字段类型中文含义备注date_dayvarchar日期如:2021-10-01first_idint第一一天运行总时长第一secondjdint第二一天运行总时长第二tertiaryjdint第三一天运行总时长第二first_timeint第的时长秒second_timeint第二的时长秒tertiary_timeint第三的时长秒4、编写scala代码,使用Spark根据hudi_gy_dwd层的fact_produce_record表,基于全量历史数据计算各设备生产一个产品的平均耗时,ProdUCe_code_end_time值为1900-Ol-Ol00:00:00的数据为脏数据,需要剔除(注:fact_produce_record表中,一条数据代表加工一个产品,produce_code_start_time字段为开始加工时间,produce_code_end_time字段为完成加工时间),将设备每个产品的耗时与该设备平均耗时作比较,保留耗时高于平均值的产品数据,将得到的数据写入ClickHouse数据库ShtCLindUStry的machine_produce_PeJaVgtilne表中(表结构如下),然后在LinUX的ClickHouse命令行中根据设备id降序排序查询前3条数据,将SQL语句复制粘贴至客户端桌面【Release'任务B提交结果.docx】中对应的任务序号下,将执行结果截图粘贴至客户端桌面【Release'任务B提交结果.docx】中对应的任务序号下;machine_produce_per_avgtime:字段类型中文含义备注produce_record_idint生产记录id每生产一件产品产生一条数据produce_machine_idint设备idproducetimeint该产品耗时produce_per_avgtimeint设备生产一个产品平均耗时单位:秒任务C:数据挖掘(10分)环境说明:服务端登录地址详见各任务服务端说明。补充说明:各节点可通过ASbrU工具或SSH客户端进行SSH访问;主节点MySQL数据库用户名/密码:root123456(已配置远程连接);Spark任务在Yarn上用Client运行,方便观察日志。该任务均使用SCala编写,利用SPark相关库完成。子任务一:特征工程1、根据hudi_gy_dwd库中fact_machine_data表(或MySQL的ShtCLindUStry库中MaChineData表),根据以下要求转换:获取最大分区(MySQL不用考虑)的数据后,首先解析列machine_record_data(MySQL中为MachineRecordData)的数据(数据格式为xml,采用dom4j解析,解析demo在客户端/home/UbUntU/Documents目录下),并获取每条数据的主轴转速,主轴倍率,主轴负载,进给倍率,进给速度,PMC程序号,循环时间,运行时间,有效轴数,总加工个数,已使用内存,未使用内存,可用程序量,注册程序量等相关的值(若该条数据没有相关值,则按下表设置默认值),同时转换machine_record_state字段的值,若值为报警,则填写1,否则填写0,以下为表结构,将数据保存在Hive的dwd.fact_machine_1earning_data,使用Cli按照machine_record_id升序排序,查询dwd.fact_machine_learning_data前1条数据,将结果截图粘贴至客户端桌面【Release、任务C提交结果.docx】中对应的任务序号下。dwd.fact_machine_1earning_data表结构:字段类型中文含义备注machine_record_idint主键machine_iddouble设备idmachine_record_statedouble设备状态默认0.0machine_record_mainshaft_speeddouble主轴转速默认0.0machine_record_mainshaft_muItipleratedouble主轴倍率默认0.0machine_record_mainshaft_loaddouble主轴负载默认0.0machine_record_feed_speeddouble进给倍率默认0.0machine_record_feed_multipleratedouble进给速度默认0.0machine_record_pmc_codedoublePMC程序号默认0.0machine_record_circle_timedouble循环时间默认0.0machine_record_run_timedouble运行时间默认0.0machine_record_effective_shaftdouble有效轴数默认0.0machine_record_amount_processdouble总加工个数默认0.0machine_record_use_memorydouble已使用内存默认0.0machine_record_free_memorydouble未使用内存默认0.0machine_record_amount_use_codedouble可用程序量默认0.0machine_record_amount_free_codedouble注册程序量默认0.0machine_record_datetimestamp记录日期dwd_insert_userstringdwd_insert_timetimestampdwd_modify_userstringdwd_modify_timetimestamp子任务二:报警预测1、根据子任务一的结果,建立随机森林(随机森林相关参数可自定义,不做限制),使用子任务一的结果训练随机森林模型,然后再将dwd.fact_machine_1earning_data_test(该表字段含义与dwd.fact_machine_learning_data表相同,machine_record_state列值为空,表结构自行查看)转成向量,预测其是否报警将结果输出到MySQL数据库Shtd-industry中的ml_result表中(表结构如下)。在Linux的MySQL命令行中查询出machine_recorCLid为1、8、20、28和36的5条数据,将SQL语句复制并粘贴至客户端桌面【Release'任务C提交结果.docx中对应的任务序号下,将执行结果截图粘贴至客户端桌面【Release'任务C提交结果.docx】中对应的任务序号下。mlresult表结构:字段类型中文含义备注machine_record_idint主键machine_record_statedouble设备状态报警为1,其他状态则为0任务D:数据采集与实时计算(20分)环境说明:服务端登录地址详见各任务服务端说明。补充说明:各节点可通过ASbrU工具或SSH客户端进行SSH访问;FIink任务在Yarn上用Perjob模式(即Job分离模式,不采用SeSSion模式),方便Yarn回收资源。子任务一:实时数据采集1、在主节点使用FIUnIe采集/dataOg目录下实时日志文件中的数据,将数据存入到Kafka的Topic中(Topic名称分别为ChangeRecord.ProduceRecord和EnVironmentData,分区数为4),将FlUme采集ChangeReCord主题的配置截图粘贴至客户端桌面【Release'任务D提交结果.docx】中对应的任务序号下;2、编写新的FIUme配置文件,将数据备份到HDFS目录usertestflumebackup下,要求所有主题的数据使用同一个Fhnne配置文件完成,将FIUme的配置截图粘贴至客户端桌面【Release'任务D提交结果.docx】中对应的任务序号下。子任务二:使用FIink处理Kafka中的数据编写Scala代码,使用Flink消费Kafka中的数据并进行相应的数据统计计算。1、使用Flink消费Ka珠a中ChangeRecord主题的数据,实时统计每个设备从其他状态转变为“运行”状态的总次数,将结果存入MySQL数据库Shtd.industry的change_state_other_to_run_agg表中(表结构如下)。请将任务启动命令复制粘贴至客户端桌面【Release、任务D提交结果.docx中对应的任务序号下,启动1分钟后根据change_machine_id降序查询change_state_other_to_run_agg表并截图,启动2分钟后根据ChangeJnaChine_id降序查询change_state_other_to_run_agg表并再次截图,将两次截图粘贴至客户端桌面【Release'任务D提交结果.docx】中对应的任务序号下;注:时间语义使用ProcessingTimeochange_state_other_to_run_agg表:字段类型中文含义change_machine_idint设备idIast_machine_statevarchar上一状态。即触发本次统计的最近一次非运行状态total_change_torunint从其他状态转为运行的总次数in_timevarcharflink计算完成时间(yyyy-MM-ddHH:mm:ss)2、使用Flink消费Kafka中ChangeRecord主题的数据,每隔1分钟输出最近3分钟的预警次数最多的设备,将结果存入Redis中,key值为warning_last3min_everymin_out,value值为“窗口结束时间,设备id”(窗口结束时间格式:yyyy-MM-ddHH:mm:ss)。使用rediscli以HGETALLkey方式获取warning_last3min_everymin_out值,将结果截图粘贴至客户端桌面【Release'任务D提交结果.docx】中对应的任务序号下,需两次截图,第一次截图和第二次截图间隔1分钟以上,第一次截图放前面,第二次截图放后面;注:时间语义使用ProcessingTimeo3、使用Flink消费Kafka中EnvironmentData主题的数据,监控各环境检测设备数据,当温度(Temperature字段)持续3分钟高于38度时记录为预警数据,将结果存入RediS中,key值为"env_temperature_nIOllitOr”,value值为“设备id-预警信息生成时间,预警信息”(预警信息生成时间格式:yyyy-MM-ddHH:mm:ss)o使用rediscli以HGETALLkey方式获取env_temperatureJTIOnitor值,将结果截图粘贴至客户端桌面【Release'任务D提交结果.docx】中对应的任务序号下,需要FIink启动运行6分钟以后再截图。注:时间语义使用ProcessingTimeoVaIUe示例:114-2022-01-0114:12:19,设备114连续三分钟温度高于38度请及时处理!中文内容及格式必须为示例所示内容。同一设备3分钟只预警一次。任务E:数据可视化(15分)环境说明:数据接口地址及接口描述详见各任务服务端说明。注:所有数据排序按照接口返回数据顺序处理即可,不用特意排序。子任务一:用折线图展示PM2.5浓度变化编写VUe工程代码,根据接口,用折线图展示PM2.5浓度变化,同时将用于图表展示的数据结构在浏览器的console中进行打印输出,将图表可视化结果和浏览器console打印结果分别截图并粘贴至客户端桌面【Release'任务E提交结果.docx】中对应的任务序号下。子任务二:用饼状图展示每日各状态总时长编写VUe工程代码,根据接口,用饼状图展示每日各状态总时长(秒),同时将用于图表展示的数据结构在浏览器的console中进行打印输出,将图表可视化结果和浏览器console打印结果分别截图并粘贴至客户端桌面【Release'任务E提交结果.docx】中对应的任务序号下。子任务三:用柱状图展示每日所有车间各设备平均运行时长编写VUe工程代码,根据接口,用柱状图展示每日所有车间各设备平均运行时长(秒,四舍五人保留两位小数),同时将用于图表展示的数据结构在浏览器的console中进行打印输出,将图表可视化结果和浏览器ConSoIe打印结果分别截图并粘贴至客户端桌面【Release'任务E提交结果.docx】中对应的任务序号下。子任务四:用单轴散点图展示设备运行时长编写VUe工程代码,根据接口,用单轴散点图展示设备运行时长(秒),同时将用于图表展示的数据结构在浏览器的console中进行打印输出,将图表可视化结果和浏览器console打印结果分别截图并粘贴至客户端桌面【Release'任务E提交结果.docx】中对应的任务序号下。子任务五:用单轴散点图展示各设备加工每件产品所需时长编写VUe工程代码,根据接口,用单轴散点图展示各设备加工每件产品所需时长(秒),同时将用于图表展示的数据结构在浏览器的ConSoIe中进行打印输出,将图表可视化结果和浏览器console打印结果分别截图并粘贴至客户端桌面【Release'任务E提交结果.docx中对应的任务序号下。任务F:综合分析(10分)子任务一:Kafka中的数据如何保证不丢失?在任务D中使用到了Kafka,将内容编写至客户端桌面【Release'任务F提交结果.docx】中对应的任务序号下。子任务二:请简述HBase的rowkey设计原则。请简要概述HBase的rowkey的重要性并说明在设计rowkey时应遵循哪些原则,将内容编写至客户端桌面【Release'任务F提交结果.docx】中对应的任务序号下。子任务三:数据仓库中怎么处理缓慢变化维,有哪几种方式?在任务B的数据仓库的设计过程中,会出现缓慢变化维的问题,缓慢变化维是指一些维度表的数据不是静态的,而是会随着时间而缓慢地变化,在数仓设计中有哪些方式应对这些问题?将内容编写至客户端桌面【Release'任务F提交结果.docx】中对应的任务序号下。

    注意事项

    本文((全国职业技能比赛:高职)GZ033大数据应用开发赛题第10套.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开