海量数据处理技术金融应用研究报告2024.docx
《海量数据处理技术金融应用研究报告2024.docx》由会员分享,可在线阅读,更多相关《海量数据处理技术金融应用研究报告2024.docx(108页珍藏版)》请在课桌文档上搜索。
1、一、发展概况2(一) 法律法规和政策环境2(二) 技术发展阶段及特征5(三)技术框架与形态9(一)平台建设应用情况15(一)技术应用情况20%tAft28(一)数据存储的挑战28(一)数据计算的挑战29(三)云化计算的挑战31(四) 融合计算的挑战32(五) 研发运营一体化的挑战33四、关键技术与建设思路36(一)云数一体化36(二)存算分离化44(三)数据湖仓化50(四)计算融合化59(五)研发运营一体化68五、发展趋势和展望78(一)生成式人工智能驱动数据技术方面79(一)实时数据湖仓方面81(三)数据网格方面90(四)数据编织方面93六、实践案例95摘要:海量数据处理是金融业大数据技术领
2、域的关键难点,对金融业海量数据进行高效的存储、计算、分析和运营,将有效帮助金融机构深度挖掘数据的潜在业务价值,实现降本增效。现阶段,金融业在海量数据处理方面呈现出“五化”的技术趋势,即云数一体化、存算分离化、湖仓一体化、计算融合化与研发运营一体化。其中一些新的关键技术已在部分金融机构进行了较深入的实践应用,取得了可观的成果。但是,作为一项复杂的课题,海量数据处理还面临着技术、产品、应用等多方面的挑战和痛点,且这些难题当前尚未进行全面的研究和分析。因此,本报告对海量数据处理的技术、应用、建设等方面进行系统的分析,从行业发展、应用情况、落地痛点以及关键技术等多个维度展开研究,结合我国金融业多个典型
3、案例,论证这些关键技术和实施路径的有效性和可行性,并对一些诸如人工智能、数据湖仓、数据网格等前沿数据技术应用进行初步分析,探讨金融业未来的数据技术发展趋势。兴业数字金融服务(上海)股份有限公司为本报告的编制提供了支持。中信建投证券股份有限公司、上海汽车集团财务有限责任公司为报告编制提供了行业案例。一、发展概况(一)法律法规和政策环境在金融业早期阶段,数据处理主要集中在银行和证券公司的业务数据处理,以及金融管理部门的监管工作中。相关法律法规和政策主要包括1983年12月8日第六届全国人民代表大会常务委员会第三次会议通过的中华人民共和国统计法,以及1994年2月18日中华人民共和国国务院令第147
4、号发布的中华人民共和国计算机信息系统安全保护条例等。这些法规为金融数据处理提供了基础的法律保障,确保了数据的准确性和安全性。在信息化阶段,随着信息技术的不断发展,金融业数据处理技术逐渐成熟。在这一阶段,金融业开始将数据处理技术应用于更多的领域,如互联网金融、金融风险控制等。相关法律法规和政策主要包括十二届全国人大常委会通过的中华人民共和国网络安全法,以及中国人民银行等十部委发布的关于促进互联网金融健康发展的指导意见(银发(2015)221号)等。这些法规促进了金融业的信息化进程,为金融业的快速发展提供了有力的支持。在数字化转型阶段,金融业开始迈向全面数字化。在这一阶段,金融业数据处理技术得到了
5、更广泛的应用。相关法律法规和政策主要包括关于推进金融科技创新发展的指导意见(银发(2019)202号)、国务院印发的关于促进大数据发展的行动纲要(国发(2015)50号)等。这些法规推动了金融业的数字化转型,使金融业能够更好地适应现代经济的发展需求。智能化发展阶段,是金融业数据处理技术发展的最新阶段。在这一阶段,金融业开始采用人工智能等先进技术进行数据处理。相关法律法规和政策主要包括2021年6月10日第十三届全国人民代表大会常务委员会第二十九次会议通过的中华人民共和国数据安全法、2021年8月20日第十三届全国人民代表大会常务委员会第三十次会议通过的中华人民共和国个人信息保护法、中央深改委发
6、布的关于促进人工智能和实体经济深度融合的指导意见(工信部联科(2019)222号)、科技部等六部门发布的关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见(国科发规(2022)199号)等。进一步法规明确了数据使用的安全合规和保护要求,为金融业数据处理技术的发展提供了良好的法律环境,促进数据处理技术的健康发展。相关政策为金融业的智能化发展提供了有力的支持,推动了金融业的创新和发展。此外,全国金融标准化技术委员会近年陆续发布了个人金融信息保护技术规范(JR/T01712020)、金融数据安全数据安全分级指南(JR/T01972020)、金融数据安全数据生命周期安全规范(JR/T02
7、232021)、金融大数据术语(JR/T02362021)、金融大数据平台总体技术要求(JR/T0237-2021)等金融行业标准,为金融数据的处理提供了标准指引。除了国内的法律法规和政策文件,国际上的法规和政策也对金融业数据处理技术的发展产生了重要影响。例如,2018年5月25日欧洲联盟出台的通用数据保护条例(GDPR)和2022年6月3日美国参议院和众议院发布的美国数据隐私和保护法等,这些法规对金融业的数据处理提出了更高的要求,促使金融业不断提高数据处理的标准和质量。过去一年,全球金融数据处理市场从疫情中逐步恢复,重新进入平稳增长态势,也呈现出一些新的特点:一是从区域发展来看,北美地区仍保
8、持发展优势,东南亚及拉美地区的发展速度最快;二是从业务领域来看,数字货币、绿色普惠、数据安全等是全球各国共同关注的热点,金融基础设施的数字化升级也要求金融科技监管的国际合作水平不断提升;三是从市场主体来看,大型互联网科技企业持续强化金融数据处理市场布局,传统金融机构不断加大数字化转型投入,重回快速增长轨道。在政策、市场和技术等多种因素影响下,国内外金融数据处理技术发展环境和产业生态都在发生着深刻变化。中国金融数据处理市场在审慎稳妥的监管环境下,市场格局也正在发生改变,传统金融机构在金融科技战略定位上正在从“科技赋能”逐步向“科技引领”转型。大型互联网平台公司金融数据处理业务在监管政策环境下,更
9、加注重科技服务与类金融业务的隔离,类金融业务加快获取金融牌照步伐,并不断强化自身科技属性,推进核心技术持续演进,推进金融数据处理关键技术与热点应用的规模和范围不断扩展。(二)技术发展阶段及特征随着技术的发展,数据的处理从最开始的纸质票据和邮件寄送,到后来的传统数据库、小型机与大型机,到如今的中大型分布式数据存储与计算集群;从依靠掌柜和经理人的经验,到如今分析师和数据科学家们基于数据、算法与算力开展协同工作,实现在风控、反洗钱,反欺诈、反社工,以及信贷、借款、用户画像、网络安全等各个场景的数据价值。1.从传统数据库到大数据体系的变革随着数据在金融行业中的深度应用,数据规模的不断扩大,数据类型也不
10、再局限于关系型数据。传统数据库开始在数据处理方面力不从心,业务使用的复杂性增高、数据管理的复杂性变大、海量数据处理的时效性差、成本高。于是,为了应对上述挑战,大规模并行处理MPP(MassivelyParallelProcessing,MPP)数据处理技术开始被使用,以解决数据规模带来的复杂性问题。但是数据规模持续增长、数据表达维度增多、数据类型进一步多元化等问题所带来的复杂性挑战远远超过了预期,数据处理成本高昂和数据类型支持有限变成了新的困难。于是,行业内开始采用Haek)OP及其衍生技术作为经典大数据方案来应对新的数据处理挑战,并取得了很好的效果。2 .从处理海量文本到高价值、多维度、多类
11、型特征的转变随着数据的价值不断被证明,数据工具的利用也从数据科学和数据分析等专业的技术团队逐步延展到业务团队,业务分析与挖掘的需求也更加旺盛。随着需求所对应的数据类型增加,原本仅面向海量文本及结构化类型的数据特性渐渐无法满足业务需求;最终,在保持海量数据处理能力的前提下,逐步向满足高价值、多维度和多类型的数据特征快速演进。HadOe)P体系诞生自互联,是沙中淘金的过程。随着金融业数字化转型的发展,在线业务通常采用SDK等方式进行埋点,数据清洗的无效计算量大大降低;通过数据压缩等方式,在性能影响微乎其微的前提下减少了70%以上的存储空间浪费,但互联网用户仍旧是“沙中淘金”的思路。可转换到行业领域
12、,尤其是金融业,原本的数据纯度就较高,是“金中炼金”的过程,处理过程中更多解决的是单节点无法完成计算的问题,亦或是处理速度不高的挑战;数据之“大”不再是单纯的存储规模,更是计算参与的维度之“多”。3 .存算分离需求的萌芽数据规模与价值挖掘所需的资源之间,随着时间的推移表现出不同的关系。海量数据处理平台建设之初,所有存储的数据都会参与计算。随着数据价值的变化,参与计算的数据会逐步稳定在一定的比例,更多的数据因为合规或其他需要存储在服务器上但并不会持续参与计算。诚然,这个比例随着场景和策略的不同而有所不同,例如对于离线数仓的场景来说,3年以上的存储周期,参与计算的数据占总数据存储量的比例大致约为2
13、3%左右。随着关联度和热度的降低,这部分数据的计算参与度也会随之降低。而对于行为特征类的数据,热度降低效应则会更加明显。因此,会出现存储和计算所需资源不匹配的情况。传统的海量数据处理方案也尝试过解决存算分离的挑战,通过将提供存储能力和计算能力的相关组件角色分别部署在不同服务器节点,获得初步的存储和计算分离能力。但这样的方案引入了集群灵活性不足、运维要求高、业务应用容易造成资源耗尽等各类衍生问题与风险,并不适合作为生产环境的最佳实践。4 ,易用性优化推动使用难度进一步降低传统数据库向海量数据处理体系迁移的过程中,遇到的最大挑战便是初代数据处理体系的技术方案中,需要高级编程语言而非SQL语言来操作
14、,这对方案的普适性推广造成了障碍。当SQL语言被全方面地融入海量数据处理体系中后,成本更低,使用更灵活和易用的技术平台才被广泛推入生产环境使用。如今,海量数据处理平台已深度融入金融业的数据处理过程中,并从分担传统数据库OLAP(On-LineAnalyticalProcessing,OLAP)压力的旁路辅助角色,升级为数据中心中基础设施的核心,作为金融数字化的关键,处理近乎全量数据。而在数据开发与治理的交互方面,在满足高级编程语言支持的同时,尽可能实现支持类SQL兼容语法,以满足从业者快速上手和新旧技术栈快速迁移的需求,这进一步降低了使用海量数据处理技术的难度,提高易用性,最大程度地帮助从业者
15、发现并利用数据价值。5 .行级别的海量数据近实时更新能力需求初代海量数据处理体系的技术方案中,为了满足大规模数据规模和读写性能需求,在底层实现中采用了“追加写”的方式,即:无论是数据新增、修改还是删除,在底层技术实现上均表现为写入一条新的数据,在后续构建离线数仓时,再进行有效的数据整理与合并,这样的方案初步解决了传统方案无法处理海量数据的挑战。随着数据的应用场景越来越丰富、数据价值越来越重要,对数据的时效性要求也越来越高。曾经基于全量数据定时构建离线数据仓库的方式不但资源消耗巨大,在满足时效性方面也越来越受到挑战。因此需要更高效的数据组织方式,将早期方案中粗犷的数据使用与资源利用模式进行深度优
16、化,以应对挑战。数据湖和数据仓库的融合将构筑数据湖仓化,带来的行级别更新能力支持是很好的实践路径。通过有效的数据组织格式,基于行级别更新能力的支持,使得之前需要全量数据参与才能实现的数据更新时效性提升到了近实时,并极大减少了资源消耗,提升了资源利用效率。数据湖和数据仓库融合形成的数据湖仓一体架构,消除了数据湖和数据仓库之间的数据壁垒,实现了数据的自由流动,降低了数据冗余,同时也实现了数据湖和数据仓库之间的优势互补。数据不必再进行湖仓之间的传递,极大优化了数据处理的时间。海量数据规模条件下的近实时数据更新能力,将为业务提供更高效的数据处理支持,更好地实现业务价值。(三)技术框架与形态在不同的领域
17、和行业中,对于海量数据的定义有所不同。一般来说,“海量数据”(MassiveData)是指数据量大到用传统的数据管理和处理技术难以有效存储、管理和分析的数据集合。而海量数据处理技术,并非特指某一项技术,而是为了满足业务和行业实际需求的综合性解决方案技术栈,帮助金融机构充分利用数据,更加轻松地挖掘分析数据价值。1.海量数据处理技术基本形态从外部形态上,海量数据处理技术需具备类SQL交互语言支持、Python语言支持、常用如FlinkSpark等计算引擎支持,保持标准开放性,主要支持从TB至百PB级别的数据处理能力,延展至EB级数据能力规模,以应对当下和未来的持续挑战,支持存算分离,以实现按需配置
18、,最终实现性能、需求、成本、易用性、灵活性的平衡等。如图1是一个典型的海量数据处理技术架构:图1典型的海量数据处理架构2 .分布式存储框架海量数据的存储通常基于分布式文件存储或对象存储,支持水平扩容,支持多种存储数据类型,提供结构化、半结构化、非结构化数据的存储解决方案。目前常用的存储框架,主要以文件存储、列式存储、对象存储三大类为主,属于图1的“分布式存储管理”模块,基本覆盖包括金融业在内的主要存储场景,这三者存储类型同属于大数据技术栈的底层存储层,但满足的是不同场景的存储需求,是金融业海量数据处理环节中的第一步。HDFS(HadpDistributedF11eSysteHDFS)是面向PB
19、级数据存储的分布式文件系统,可以存储任意类型与格式的数据文件,包括结构化的数据以及非结构化的数据。HDFS将导入的大数据文件切割成小数据块,均匀分布到服务器集群中的各个节点,并且每个数据块多副本冗余存储,保证了数据的可靠性。HDFS还提供专有的接口API,用以存储与获取文件内容。OZOne是大数据场景中融合文件系统和对象存储的较佳解决方案,能有效解决用户在使用过程中各类存储需求,并延续Hadoop开源存储项目的存储成本优势。生态方面支持Hade)OP文件系统、对象存储/S3、本地路径挂载和K8SCSI等多种访问方式。OZOne与Hadoop生态融合,如ApacheHive、ApacheSpar
20、k等无缝对接。OZOne支持HadOOPCompatibleFileSystemAPI(akaOzoneFS)o通过OZOneFS,Hive,Spark等应用不需要做修改,就可以运行在OZone上。除此之外,OZone还同时支持数据本地化,使得计算能够尽可能地靠近数据。HBase是一个构建在HDFS上的分布式存储系统,主要用于海量结构化数据存储。从逻辑上讲,HBase将数据按照表、行和列进行存储。与HDFS一样,HBase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。一方面,HBase能够支持灵活的列字段定义;另一方面,HBase利用LSM(Log-Structur
21、edMerge-Tree,LSM)数据结构模型,将数据的随机访问转换成对磁盘的顺序读写,从而实现高性能的数据随机访问。HDFS节点主要负责HBaSe底层存储,HDFS保证了HBaSe的高可靠性。HDFS为RegionSerVer和MaSter节点提供分布式存储服务,同时保证数据的可靠性。HBase的架构如图2所示:计算框架(Fiink/Spark.)表格式(TableFiannat)数据义件数据文件(ORC/Parquet.).(ORC/Parquet.)文件系统(HDFS/S3)I图2HBase分布式存储架构3 .数据组织方式与分析技术框架核心Iceberg是一个面向海量数据分析场景的开放表
22、格式(TableFormat),有时也被认为是新一代的数据湖仓组件。定义中所说的表格式(TableFormat),可以理解为元数据以及数据文件的一种组织方式,处于计算框架(Flink,Spark.)之下,数据文件之上。表格式(TabI6Format)属于数据库系统在实现层面上的一个抽象概念,一般表格式会定义出一些表元数据信息以及APl接口,比如表中包含哪些字段,表下面文件的组织形式、表索引信息、统计信息以及上层查询引擎读取、写入表中文件的接口。4 .数据编排与缓存加速核心AllUXiO被认为是一种数据编排技术。它为数据驱动型应用和存储系统构建了桥梁,将数据从存储层移动到距离数据驱动型应用更近的
23、位置从而能够更容易被访问。在海量数据处理生态系统中,AlIUXiO位于数据驱动框架或应用(如APaCheSpark)和各种持久化存储系统(如HDFS)之间。Alluxio统一了存储在这些不同系统中的数据,为其上层数据驱动型应用提供统一的客户端APl和全局命名空间。5 .消息队列消息队列支持亿级的消息接收、中转和推送服务,可弹性扩展,无并发限制,高性能具备低延迟、高并发、高可用、高可靠等特性,可支撑亿级数据洪峰的分布式消息中间件,无缝迁移,更安全、更可靠、更易运维。6 .分布式计算框架与分析引擎Hive把存储在HDFS之上的结构化数据抽象成关系型数据表,并提供SQL接口对数据表做查询操作。因此,
24、用户能够以传统关系型数据库的方式来查询大数据存储系统,可以通过HiVe来实现SQL查询分析。Flink提供高吞吐量、低延迟的流数据引擎以及对“事件-时间”处理和状态管理的支持。Flink应用程序在发生机器故障时具有容错能力,并且支持exactly-once语义。程序可以用Java、Scala.PythC)n和SQL等语言编写,并自动编译和优化集群或云环境中运行的数据流程序。此外,Flink的运行时本身也支持迭代算法的执行。Tez是一种支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能,相对于原始的MaPRedUCe框架,Tez可以一次MaP读取,多
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 海量 数据处理 技术 金融 应用 研究 报告 2024
链接地址:https://www.desk33.com/p-1122597.html