公安视频大数据平台.docx
公安大数据平平台1.1.1.Hadoop基础平台条充设用口实现基于Hadp为基础平台,采用分布式文件系统、分布式列式数据库对娄据进行存储,融合流式计算、批处理计算及即席查询多种计算模式,实现数据快速处理的同时极大提高了系统的可扩展性。lxHDFSHDFS(HadoopDistributedFileSystem)是Hadoop项目的核心子项目;是Hadoop主要应用的一馅布式文件系统。它可以运行于便宜的商用服务器上。总的来说,可以将HDFS的主要特点概括为以下几点。(1)处理超大文件这里的超大文件通常是指数百GB,甚至数百TB大小的文件。在Yahoo!,Hadoop集群也已经扩展到了4000个节点,用来存储管理PB(PeteByteS)级的数据。(2)流式地访问数据HDFS的设曲!立在更多地响应一次写入、多次读取"任务的基5眨上。一个瘫集一旦由翔S源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任请求。对HDFS来说,请求读取整个数据集要比读取一记录更加高效。(3)运行于便宜的商用机器集群上Hadoop设计对硬件需求上匕较低,只须运行在便宜的商用硬件集群上,而无须昂贵的高可用性机器上。2、M叩RedUCeMapReduce是一个高性能的批处理分布式计算框架,用于对海量黝g进行并行析和处理。与传统数据仓库和分析技术相比,MapReduce适合处理各种类型的物居,包括结构化、半结构伤口非结构化糊居。M叩RedUCe广泛应用于日志分析、海量数据排序、在海量数据中查找特定模式等场景中。在Hadoop中,MapreducetoE为一jobojob又可以分为两个阶段:M叩阶段和Reudce阶E殳。这两个阶段分别用两个函数三示,即Map函数和Reduce函数。Map函黝妾收一key,value形式的输入,然后同样产生一个Vkey,value,形式的中间输出,HadooP会负责将所有具有相同中间key值得value集合到一趟专递给Reduce函数,Reduce函数接收T如key,(listofVaIUeS)形式的输入,然后对这个value集合进行处理,ybreducejs¾0或者1出,Reduce蹒出也是key,value形3、HBaseHbaSe即HadoopDatabase,是T'高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在便宜PCServer上搭建起大规模结构化存储集群。它介于nosql和RDBMS之间,仅能通过主键(rowkey)和主键的range来检掇据,仅支持单行事务何通过hive支持来实现多表join等复瓣作)。主要用来存储非结构化和睁构的松意与 Hadoop 一样,Hbase目标主要依靠横向扩展,通过不断增加便宜的商用服务器,来增加计算和存储能力。HBase从2022年第一次商用开始,已经被越来越多的在线服务公司所采用。其中最大的是FaCebOOk新上线的整合EmailSNS,Chat和短消息的在线即时消息系统。4、KafkaKafka(Adistributedpublish-subscribemessagingsystem)是Zb消息定阅和发布的系统,Kafka主要用于处理活跃的流式数据,有如下优势和特点:Q)以时间复杂度为OQ)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能。(2)高吞吐率。即使在非常便宜的商用机器上也能做到单机支持每秒100K条消息的传输。(3)西寺KafkaSerVer间的消息分区及分布式消费,同时保证号partition内的消息Jl砺传输。(4)同时支持离线数据处理和实时数据处理。1.1.2.采集平台翔居采集平台采用分布式架构,通过集群化部署提升系统数据采集与数据清)三o在数据采集方面,新-种数据源采用独立暧艇模板与进程,陵现对数据适S睬集的同时,通过进程隔离技术保证采集平台的稳定性,即,在不影响系统正常工作的情况下,可以动态增加对新增黝居源的适配,任何一种数据接口故障将不会影响其他接口的正常工作。1大数据采集平台主要由以下模块组成A数据模板数据通过可视化工具自定义格式榭反,即,针对每一种数据配置定制化模板,J三立起与标准化翔居模板的蝴关系,通过配置自定义模板和字段蝴,快速实现数据的采集和字段适配。A规则引擎从来源端进行抽取、辑奂、加载至目的端规则的集合,通过数据采集规则的定义实现定制化的数据采集过程。A分布式数据清洗数据清洗三务实现待采领据的标准化转换,通过采集控制分发数据清洗规则到多个采集器组的方式实现分布式的数据清洗采集。A集群管理实现雌采集平台集群化部署与管理,实现各个数据采集节点的任务管理、负载均衡、状态管理、异常监控、吞吐量控制等。A数据管道彳髓时高吞吐量的分布式麴S传输高速通道,同时满足在线期周专输和离线数据传输的数据管道。在数据的生成者与消费者之间屏蔽数据类型和来源的差异,实现数据传输的高吞吐量、灵便性和稳定性。1大数据采集平台特点A整合能力强通过配置数据模板和规则就可以实现对新增物S的采集,可以灵便应对各类翔居资源的整合。A稳定性高采用进程隔离技术将不同数据采集接口隔离,防止单接口故障造成对系统的影响。A部署灵便系统采用分布式架构,可以根据前端期居量灵便配置集群节点娄据,动态增加数据采集节点不影响系统正常工作。A传输可靠分布式数据传输通道在实现高数据吞吐量的基础上,通过数据的缓存机制实现期周专输的稳定性。对重要数据进行属性配置防止重要数据在极限情况下溢出、丢失。1.13.平台1平台主要模块如下A分布式文件系统HDFS分布式文件系统采用Hadoop大数据分布式文件系统,适应多种底层硬件,具有高容错性、高吞吐量、批量数据访问等特点,适合超大数据集存储应用。A分布式数据库MPPDB分布式数据库实现关系型翅S的分布式存储与查询,通过数据分片技术提高超大体量数据查询与存储性能。A结构化数据存储Hbase架构化数据存储融合了多种索弓I技术、分布式事物姐全文实时检图辘检索技术等多种NoSQL实时姐三技术,引寺面向应用的在线OLTP,高并发OLAP和批处I里等。A云存储PFS云存储用于存储视频和图片文件的专业云存储系统,基于对视频文件进行的流化索引姐三,可以为应用层提供快J辅准的视顷检索和定位三务,对图片等小文件的打包整合,有效提升了对海量小文件的访问效率。A数据仓库DW数据仓库实现多维度的辘信息提取、数据聚类以及助居的预处理,形成与业务应用相关的基础J车、内存数据库和专题库等,是系统多种数据资源提取与预处理结果的集合。A资源调度管理YarnZKeeper资源调度管理采用分布式资源管理、作业调窗口应用程序协调调用框架,实现!整个应用集群在TI勿理集群的运行,经过优化后,可实现多任务按照时间、数据量变化等灵便触发运行。A离线计算MR分布式批处理计算廨,将输入的数据集切分成块后并行处理、排序再归集的整个过程,支持PB级数据的离线处理。A内存计算Spark内存计算基于APaCheSPark开辟的专用分布式计算引擎,不仅提高了计算性能,而且解决了Spark自身诸多的稳定性问题,在海量小数据比对、关系分析等应用方面性能有明显提升。A实时计算Streaming实时流数据计算处理模块基于TwitterStorm技术,具备流数据计算处理能力不噫杂的业务应用逻辑。通过在集群内将实时献强组成运算姐里流水线,依次完成信息提取、数据分析、规则判断等数据计算,实现高吞口域据的实时并发处理。A图计算NPGraPh+图计算模块基于图论"基5岐现对t元素关系的抽象姐 ,通过对数据节点、边和权重等数据分析处理,建立数据实体之间的关联性,支持TB级数据间甥居关系查询、关系网络分析等应用。A机器学习SparkMLIib机器学习模块基于SparkMLIib技术,是海量数据平台的分布式机器学习计算引擎。通过Spark分布式计算框架以及MapReduce分布式计算框架,面向上层应用,集成统计算法、分类算法、聚类算法、回归算法、时序分析、关系图推理等算法,实现基于海量数据的数据规律挖掘和特定类数据规律的自学习。A数据检索Search的特帚版Z用特点,整合优化HbaSe翔居查询、日asticSearch辍据查询技术,实现高效的数据醐查询、条件且合查询和信息全文检索,性能可实现千亿级数据查询秒级返回。A数据分析SparkSQL基于公安大数据平台业务应用对数据模型的定义,将特定数据分析场景进行规则配置和执行优化,实现多SQL的关联执行。A视频数据分析Poseidon面向视频X数据分析应用的Poseidon平台,主要实现对车辆轨迹数据、人颤拍辘和视频行为数据等的综合应用,支持车辆轨迹研判、人脸与其他数据并轨分郴口视频行为关联分析等应用,实现视频据资源与其他数据资源的关联应用。A视频云计算PCC视顷云计算是专门针对海量视频运算处理的网格化运算架构,视频云计算专注解决视频应用中梯据量并行算、实时计算与海量视频数据检索问题,能过极大限度利用计算资源,提供高效率的视频运算处理服务。A业务调度引擎SFE业务调度引擎实现应用层对大数据平台能力的调用,将业务应用功能转化为平台模块业务逻辑,通过对底层能力模块的调用、组合,向应用层提供业务操作即时响应和各类数据的灵便展现。