GZ-2022041 大数据技术与应用赛项正式赛卷完整版包括附件-2022年全国职业院校技能大赛赛项正式赛卷.docx
《GZ-2022041 大数据技术与应用赛项正式赛卷完整版包括附件-2022年全国职业院校技能大赛赛项正式赛卷.docx》由会员分享,可在线阅读,更多相关《GZ-2022041 大数据技术与应用赛项正式赛卷完整版包括附件-2022年全国职业院校技能大赛赛项正式赛卷.docx(26页珍藏版)》请在课桌文档上搜索。
1、2022年全国职业院校技能大赛高职组“大数据技术与应用”赛项赛卷(6卷)任务书参赛队编号:背景描述工业互联网是工业全要素、全产业链、全价值链的全面连接,是人、机、物、工厂互联互通的新型工业生产制造服务体系,是互联网从消费领域向生产领域、从虚拟经济向实体经济拓展的核心载体,是建设现代化经济体系、实现高质量发展和塑造全球产业竞争力的关键支撑。党中央、国务院高度重视工业互联网发展,习近平总书记连续四年对推动工业互联网发展做出重要指示。加快发展工业互联网产业,不仅是各国顺应产业发展大势,抢占产业未来制高点的战略选择,也是我国推动制造业质量变革、效率变革和动力变革,实现高质量发展的客观要求。为完成工业大
2、数据分析工作,你所在的小组将应用大数据技术,以SCaIa作为整个项目的基础开发语言,基于大数据平台综合利用HivesSpark、FlinksVueJs等技术,对数据进行处理、分析及可视化呈现,你们作为该小组的技术人员,请按照下面任务完成本次工作。模块A:大数据平台搭建(容器环境)(15分)环境说明:服务端登录地址详见各模块服务端说明。补充说明:宿主机可通过ASbrU工具或SSH客户端进行SSH访问;相关软件安装包在宿主机的/opt目录下,请选择对应的安装包进行安装,用不到的可忽略;所有任务中应用命令必须采用绝对路径;进入MaSter节点的方式为dockerexec-itmasterbinbas
3、h进入SIaVel节点的方式为dockerexec-itslave1binbash进入SIaVe2节点的方式为dockerexec-itslave2binbashMySQL已在容器的MaSter中安装完毕,用户名/密码为root/123456任务一:HadooP完全分布式安装配置本环节需要使用root用户完成相关配置,安装HadoOP需要配置前置环境。具体要求如下:1、从宿主机/opt目录下将文件hadoop-2.7.7.tar.gz.jdk8u212linuxx64.tar.gz复制到容器master中的optsoftware路径中(若路径不存在,则需新建),将master节点JDK安装包解
4、压到optmodule路径中(若路径不存在,则需新建),将JDK解压命令复制并粘贴至客户端桌面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号下;2、修改容器中etcprofile文件,设置JDK环境变量并使其生效,配置完毕后在master节点分别执行“java-version”和“javac”命令,将命令行执行结果分别截图并粘贴至客户端桌面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号下;3、请完成host相关配置,将三个节点分别命名为master、slave1sslave2,并做免密登录,用SCP命令并使用绝对路径从master复制JDK解
5、压后的安装文件到SIaVe1、SlaVe2节点(若路径不存在,则需新建),并配置SlaVe1、SiaVe2相关环境变量,将全部SCP复制JDK的命令复制并粘贴至客户端桌面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号下;4、在master将HadOOP解压到optmodule(若路径不存在,则需新建)目录下,并将解压包分发至SlaVe1、SlaVe2中,其中master、slave1sSIaVe2节点均作为datanode,配置好相关环境,初始化HadOOP环境namenode,将初始化命令及初始化结果截图(截取初始化结果日志最后20行即可)粘贴至客户端桌面【Rele
6、ase重命名为工位号模块A提交结果.docx】中对应的任务序号下;5、启动HadoOP集群(包括hdfs和yarn),使用jps命令查看master节点与SIaVel节点的JaVa进程,将jps命令与结果截图粘贴至客户端桌面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号下。任务二:SqooP安装配置本环节需要使用root用户完成相关配置,已安装Had。P及需要配置前置环境,具体要求如下:1、从宿主机/opt目录下将文件sqoop-1.4.2.bin_hadoop-2.0.0-alpha.tar.gzsmysql-COnneCtorjava5.1.47.jar复制至IJ
7、容器master中的/OpVsoftware路径中(若路径不存在,则需新建),将容器master节点SqOOP安装包解压到optmodule目录下,将解压命令复制并粘贴至客户端桌面Release重命名为工位号模块A提交结果.docx】中对应的任务序号下;2、完善其他Sq。P相关配置,设置Sq。P环境变量,并使环境变量生效,执行命令SqoOPVerSion并将命令与其结果截图粘贴至客户端桌面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号下;3、测试Sq。P连接容器master节点的MySQL数据库是否成功并展示所有的database,并将连接命令与结果截图粘贴至客户端桌
8、面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号下。任务三:HiVe安装配置本环节需要使用root用户完成相关配置,已安装Had。P及需要配置前置环境,具体要求如下:1、从宿主机/oPt目录下将文件apache-hive-2.34bin.tar.gz、mysql-connector-java-5.1.47.jar复制至IJ容器master中的/oPtySOftWare路径中(若路径不存在,则需新建),将MaSter节点HiVe安装包解压到/OpVmoduIe目录下,将解压命令复制并粘贴至客户端桌面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号
9、下;2、设置HiVe环境变量,并使环境变量生效,执行命令hive-version并将命令与结果截图并粘贴至客户端桌面【Release重命名为工位号模块A提交结果.docx】中对应的任务序号下;3、完成相关配置并添加所依赖的包,将MySQL数据库作为HiVe元数据库。初始化HiVe元数据,并通过SChematoOI相关命令执行初始化,将初始化结果截图(范围为命令执行结束的最后10行)粘贴至客户端桌面Release重命名为工位号模块A提交结果.docx】中对应的任务序号下。模块B:离线数据处理(25分)环境说明:服务端登录地址详见各模块服务端说明。补充说明:各主机可通过ASbrU工具或SSH客户端
10、进行SSH访问;MaSter节点MySQL数据库用户名/密码:root/123456(已配置远程连接);HiVe的配置文件位于optapachehive-2.3.4-binconfSPark任务在Yam上用CIient运行,方便观察日志。注:该SPark版本无法进行本地调试,请打包上传集群调试。任务一:数据抽取编写SqooP脚本,将MySQL库中表ChangeReCOrd、BaseMachinexMachineDatasProdUCeReCord全量抽取到HiVe的OdS库中对应表ChangereCOrd、basemachine.machinedata,producerecordo(提示:可通
11、过SqooP将mysql的数据先加载到hdfs,然后再通过hive中loaddatainpath的方式为将数据加载到分区表中,同时hive表中默认的分隔符为t)1、抽取MySQL的ShtCUndUStry库中ChangeReCord表的全量数据进入HiVe的OdS库中表ChangereCOrd,字段排序、类型不变,同时添加静态分区,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)0使用hivec执行ShoWPartitiOnSOdS.ChangereCord命令,将Sq。P提交命令及hiveCli的执行结果分别截图粘贴至客户端桌面【R
12、elease重命名为工位号模块B提交结果.docx】中对应的任务序号下;2、抽取MySQL的ShtCUndUStry库中BaSeMaChine表的全量数据进入HiVe的OdS库中表basemachine,字段排序、类型不变,同时添加静态分区,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)o使用hivecli执行ShoWPartitionSodS.basemachine命令,将Sq。P提交命令及hiveCIi的执行结果分别截图粘贴至客户端桌面【Release重命名为工位号模块B提交结果.docx】中对应的任务序号下;3、抽取MySQL
13、的ShtcundUStry库中ProdUCeReCOrd表的全量数据进入Hive的OdS库中表PrOdUCereCOrd,易IJ除ProdUCePgCode字段,其余字段排序、类型不变,同时添加静态分区,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)。使用hiveci执行ShoWPa巾tionsods.producerecord命令,将SqooP提交命令及hiveCli的执行结果分别截图粘贴至客户端桌面【Release重命名为工位号模块B提交结果.docx】中对应的任务序号下;4、抽取MySQL的ShtCundUStry库中MaCh
14、ineData表的全量数据进入HiVe的OdS库中表machinedata,字段排序、类型不变,同时添加静态分区,分区字段为etldate,类型为String,且值为当前比赛日的前一天日期(分区字段格式为yyyyMMdd)0使用hivec执行ShoWPartitiOnSodSmachinedata命令,将Sq。P提交命令及hiveCli的执行结果分别截图粘贴至客户端桌面【Release重命名为工位号模块B提交结果.docx】中对应的任务序号下。任务二:数据清洗编写HiVeSQL代码,将OdS库中相应表数据全量抽取到HiVe的dwd库中对应表中。表中有涉及到timestamp类型的,均要求按照y
15、yyyMMddHH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时分秒的位置添加00:00:00,添加之后使其符合yyyyMMddHH:mm:sso1、抽取OdS库中ChangereCord的全量数据进入HiVe的dwd库中表fact_change_record,抽取数据之前需要对数据根据Changeid和ChangemaChineid进行联合去重处理,分区字段为etldate且值与OdS库的相对应表该值相等,并添加dwd_insert_usersdwdJnsertJime.dwd_modify_usersdwd_modify_time四歹IJ,其中dwd_insert_usersdw
16、d_modify_uSer均填写“useri,dwd_insert_timesdwd_modify_time均填写当前操作时间,并进行数据类型转换。使用hiveCli按照Change_machine_id降序、Change_id升序排序,查询前1条数据,将结果截图粘贴至客户端桌面【Release重命名为工位号模块B提交结果.docx】中对应的任务序号下;2、抽取OdS库中basemachine的全量数据进入HiVe的dwd库中表dim_machine,抽取数据之前需要对数据根据basemachineid进行去重处理。分区字段为etldate且值与OdS库的相对应表该值相等,并添加dwd_ins
17、ert_usersdwd_insert_timexdwd_modify_userxdwd_modify_time四歹IJ,其中dwd_insert_userxdwd_modify_user均填写“use门”,dwd_insert_timesdwd_modify_time均填写当前操作时间,并进行数据类型转换。使用hivecli按照base_machine_id升序排序,查询dim_machine前2条数据,将结果截图粘贴至客户端桌面【Release重命名为工位号模块B提交结果.docx中对应的任务序号下;3、抽取OdS库中ProdUCereCord的全量数据进入HiVe的dwd库中表fact_
18、produce_record,分区字段为etldate且值与OdS库的相对应表该值相等,并添力口dwd_insert_usersdwd_insert_timesdwd_modify_usersdwd_modify_time四歹J,其中dwd_insert_usersdwd_modify_user均填写,user,dwd_insert_timexdwd_modify_time均填写当前操作时间,并进行数据类型转换。使用hiveCIi按照ProdUCe_machine_id升序排序,查询fact_produce_record前1条数据,将结果截图粘贴至客户端桌面【Release重命名为工位号模块B
19、提交结果.docx】中对应的任务序号下;4、抽取OdS库中machinedata的全量数据进入HiVe的dwd库中表fact_machine_data0分区字段为etldate且值与OdS库的相对应表该值相等,并添力口dwd_insert_usersdwd_insert_timesdwd_modify_usersdwd_modify_time四歹J,其中dwd_insert_usersdwd_modify_user均填写,user,dwd_insert_timexdwd_modify_time均填写当前操作时间,并进行数据类型转换。使用h血冲按照用植灰降序排序,查询前1条数据,将结果截图粘贴至
20、客户端桌面【Release重命名为工位号模块B提交结果.docx】中对应的任务序号下。任务三:指标计算1、编写SCaIa代码,使用SPark根据dwd层的fact_change_record表统计每个月(Change_starLtime的月份)、每个设备、每种状态的时长,若某状态当前未结束(即Charlge_end_time值为空)则该状态不参与计算。计算结果存入MySQL数据库ShtCLindUStry的machine_state_time表中(表结构如下),然后在LinUX的MySQL命令行中根据设备id、状态持续时长均为降序排序,查询出前10条,将SQL语句复制粘贴至客户端桌面Relea
21、se重命名为工位号模块B提交结果.docx】中对应的任务序号下,将执行结果截图粘贴至客户端桌面【Release重命名为工位号模块B提交结果.docx中对应的任务序号下;machine_state_time表结构:字段类型中文含义设备注状态持续时长(秒)当月该状态的时长和年状态产生的年月状态产生的月2、编写SCaIa代码,使用SPark根据dwd层的fact_change_record表关联dim_machine表统计每个车间中所有设备运行时长(即设备状态为“运行”)的中位数在哪个设备(为偶数时,两条数据原样保留输出),若某个设备运行状态当前未结束(即Change_end_time值为空)则该状
22、态不参与计算,计算结果存入MySQL数据库ShteUndUStry的machineUnning.median表中(表结构如下),然后在LinUX的MySQL命令行中根据所属车间、设备id均为降序排序,查询出前5条数据,将SQL语句复制粘贴至客户端桌面【Release重命名为工位号模块B提交结果.docx】中对应的任务序号下,将执行结果截图粘贴至客户端桌面【Release重命名为工位号模块B提交结果.docx】中对应的任务序号下;machine_running_median表结构:字段类型中文含义备注设所属车间运行总时长结果以秒为单位3s编写SCala代码,使用SPark根据dwd层的fact_
23、produce_record表,基于全量历史数据计算各设备生产一个产品的平均耗时,ProdUCe_code_encLtime值为1900-01-01OO:00:00的数据为脏数据,需要易Il除,并以produce_record_idProdUCe_machine_id为联合主键进行去重(注:fact_produce_record表中,一条数据代表加工一个产品,ProdUCe_code_start_time字段为开始力工时间,produce_code_end_time字段为完成加工时间),将设备生产每个产品的耗时与该设备生产一个产品的平均耗时作比较,保留耗时高于平均值的产品数据,将得到的数据写入
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GZ-2022041 大数据技术与应用赛项正式赛卷完整版包括附件-2022年全国职业院校技能大赛赛项正式赛卷 GZ 2022041 数据 技术 应用 正式 完整版 包括 附件 2022 全国 职业院校
链接地址:https://www.desk33.com/p-777720.html