2021企业大数据处理Spark、Druid、Flume与Kafka应用.docx
《2021企业大数据处理Spark、Druid、Flume与Kafka应用.docx》由会员分享,可在线阅读,更多相关《2021企业大数据处理Spark、Druid、Flume与Kafka应用.docx(151页珍藏版)》请在课桌文档上搜索。
1、企业大数据处理:SparkDruidFlUme与Kafka应用实践本书分三部分展开介绍:第部分(第1章)主要介绍了企业大数据系统的前期准备工作,包括如何构建企业大数据处理系统的软件环境和集群环境。第二部分(第27堂)首先介绍Spaik的基本除理,SPark20版本的SPalkSQLSuuciuredSueaming倏理和使用方法,以及SPark的多种优化方式:然后,介绍/Dmid的基本原理、案器的搭建过程、数据摄入过阳以及在杳询过程中如月实现Dwid杳询API:接着介匏了日志收集系统FlUme的整本架构和关穗粗件,以及分层日志收集架构的设计与实践:鼠后介绍了分布式消息队列Kafka的些本架构雌
2、群搭建过黑以及使用JaVa语言实现客户端APi的脚过程.第三部分(第89南)主要介绍了企业大数据处理的两个实际应用案例,分别是基于DrUd构建多维数据分析平台和基HMX指标的监控系统.第一部分准备工作1AS础环境ift稿第1章基础环境准备1.1软件襁准备软件版本选择:操作系绦CentOS66版本;JDK:17版本:Maven:3,2版本:Scala:210版本。所有软件安装目录:/data/Soft。确定了软件版本后,即将具体介绍软件的安装,本节主要介绍基曲的款件安装方式。IJDK安装JDK是JaVaDevebpmemK:t的简称,为JaVa语言开发的程序梃供开发工具包和运行环境,JDK安装的
3、步骤如下:(1卜,载JDK二进制安装包WgCthttpzdwnlad.oracle.aotn-pubjavajclk7ul5-b03jdk-7ul5-limtx-x64.tar.gz(2解压安装tar-zxvfjdk-7ul5-liux-x64.tar.gz(3)创建软连接软连接相当于快捷方式,便于后续版本更新升级。Is-Sdatasoftjdk-7ul5-linux-x64usrlocaljdk(配置环境变量vim etcproflcEusrlocaljdk=SIAVA H0WEj,e=.:$JAVA_HOME/1 ibdt. iar:$IAVA_HOME/l ibtls. jar:SJ R
4、E,H0WE ib: SCISSPAIMexportPAIB:SPAlIk$JAvAJK)ME/bin刷新环境变量使其生效:source/etc/profile(5)验证安装是否成功查看JDK版本命令:java-vers:On2Maven安装XaYen是APaehe开源的一个目前比较湍行的项Fl管理和整合工具,能够自动完成项目的构建,并根据配置文件自动下就依敕组件,提供代理笫译、打包、发布等功能,下面介绍MaYeMm羊细安装过程。NaYen安装的步骤如下:(I)下载MaVen二进制安装包WRethttpxapache(navenfiaven-33.3-9binariesapache-ffa,e
5、n-3.3.9-bin-tar.gz(2解压安装tar-zxvfapachenaven-3.3.9-bln.tar.gz(3)创建软连接软连接相当于快捷方式,便于后绘版本更新升级。IS-sdatasoftapachc-maven-3.3.9-binusrlocalravtn配置环境变垃vimetcproflcexportM2JI0WE=usrlottilravcnexportPAlB=SPAnk$JAVAJoME/bin:JMZJOHbin刷新环境变量使其生效:source/etc/profile(5)验证安装是否成功查看MaYen版本命令:mvn-versionSScaIa安装SCaIa编程
6、语言是一种面向对象的函教式编程语言,充分屣现了函数式编程语言简约,高效的特点,在程序开发的过程中可以引入JHVa语言,可扩展性强,由于SCaM具有很多优秀的特性,越耒越多的开源项目使用SCaIa语言开发,比如SPark、Kafka等。下面详缰介绍SCaIa开发环境的安装过程.ScaIa安装的步骤如下:(1)下就JDK二进制安装包wgethttp:/dcmnloads.Iscala2.10.6scala-2.10.6.tgz(2)解压安装tar-zxvfscala-2.10.6.t(3)创建软连接软连接相当于快捷方式,便于后续版本更新升级。IS-Sdatasoftscala-2-10.6usrl
7、ocalsc下载JDK二进制安装包WgCthttp:/donnlaads.lightbcnd.cs0la2.10.6scala-2.10.6.tgz(2解压安装tar-zxvfscala-2.10.6.tgz创建软连接软连接相当于快捷方式,便于后续版本更新升级。Is-Sdatasoftscala-2.10.6usrlocalla(4)配置环境变显vimetcprofilcexportSCAIA.HOME=/usr/local/scalaexportPATlI:SfWnk$JAVAJi0WE/bin:$M2JI0H/bin:$SCALA_H0WE/bin刷新环境变量使其生效:source/etc
8、/profile(5)验证安装是否成功查看SCaHiI本命令:scala-version1.2集群环境准备121ZoOkeePer集群部署ZoOkeePer是大数据系统中常用的分布式框架,主要用于公共配置管理、集群资源一致性管理、状态管理、部分分布式系统Leader选举等,卜面通过完全分布式搭建方式进行介绍.1维需规划由于Zookeeper采用FaStLeadeIEMUon算法选举Leader集群中过半的机器正常运行才能够成功选举Leadeh为保证集群正常运行.集群部署的节点数为奇数个,见少节点个数为3,生产环境建议都署5个以上的奇数个节点,因为3个实例其中只要有个实例不可用,整个ZOOkee
9、Per案神将无法成功选举,仍然不可以提供服务。2.部署过程本例将以三个节点的部署为例,分别在192.16&1.1、192168.L2、192168J.3三台服务器孤署一个ZookeePeT实例。详细都署过程如下:(1)下载安装包并解压wgethttpzapacle.fayea.co(zookeeperz(x)keeper-3.4.6z0keeper-3.4.6.tar.gz解压到/data/SOft目录下:tar-wcvfhttp:/aache.fhyea.cozodkeeerzookeeer-3-4-6zookeeer-3-4-6-tr.g-Cdatasoft(2)创建软连接创建软连接便于以
10、后升级版本,方便统一管理。Is-Sdatasoftzkeeper-3.4.6.usrlocalzookecpcr(3设置环境变量vimetcprofileexportZOOKEEPERJK)ME=usr1oca1/zkeeperexportPAiB:SPRTH:$JAVA_HOME/l)in:W_HOH/l)in:$SCAIA_HOWE/l)in:SZooKH/RjioYE/Mn刷新环境变量使其生效:Source/etc/profile配置进入到ZoOkeeP。佞装目录:cd/usr/local/zookeeper拷贝一份COMll录下的配J?文件,重命名为ZOodg:cp./con(yzoo
11、_saniple.c厄,Confzoocfg编辑配置文件设置关健参数:tiCkTirre=ZO(X)initLimit=5SyncLimit3crataDir=datazkecperdataserwr-l=192.168.1.1:2888:3888server.2=192.168.1.2:2f8:3ft88scrvcr.3=192.168.1.3:2888:3888关键参数说明:tidirw,ZOokEper中的幕稿卷为时同.所打与时间相关的设亶和为tidcTime时间的整数倍,峨位是修沙- initLimit:ZookeeperLeaderljFo11ower新WiJ生接明FoIlOWer九
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2021 企业 数据处理 Spark Druid Flume Kafka 应用

链接地址:https://www.desk33.com/p-942521.html