海量数据处理技术金融应用研究报告2024.docx
一、发展概况2(一) 法律法规和政策环境2(二) 技术发展阶段及特征5(三)技术框架与形态9(一)平台建设应用情况15(一)技术应用情况20%tAft28(一)数据存储的挑战28(一)数据计算的挑战29(三)云化计算的挑战31(四) 融合计算的挑战32(五) 研发运营一体化的挑战33四、关键技术与建设思路36(一)云数一体化36(二)存算分离化44(三)数据湖仓化50(四)计算融合化59(五)研发运营一体化68五、发展趋势和展望78(一)生成式人工智能驱动数据技术方面79(一)实时数据湖仓方面81(三)数据网格方面90(四)数据编织方面93六、实践案例95摘要:海量数据处理是金融业大数据技术领域的关键难点,对金融业海量数据进行高效的存储、计算、分析和运营,将有效帮助金融机构深度挖掘数据的潜在业务价值,实现降本增效。现阶段,金融业在海量数据处理方面呈现出“五化”的技术趋势,即云数一体化、存算分离化、湖仓一体化、计算融合化与研发运营一体化。其中一些新的关键技术已在部分金融机构进行了较深入的实践应用,取得了可观的成果。但是,作为一项复杂的课题,海量数据处理还面临着技术、产品、应用等多方面的挑战和痛点,且这些难题当前尚未进行全面的研究和分析。因此,本报告对海量数据处理的技术、应用、建设等方面进行系统的分析,从行业发展、应用情况、落地痛点以及关键技术等多个维度展开研究,结合我国金融业多个典型案例,论证这些关键技术和实施路径的有效性和可行性,并对一些诸如人工智能、数据湖仓、数据网格等前沿数据技术应用进行初步分析,探讨金融业未来的数据技术发展趋势。兴业数字金融服务(上海)股份有限公司为本报告的编制提供了支持。中信建投证券股份有限公司、上海汽车集团财务有限责任公司为报告编制提供了行业案例。一、发展概况(一)法律法规和政策环境在金融业早期阶段,数据处理主要集中在银行和证券公司的业务数据处理,以及金融管理部门的监管工作中。相关法律法规和政策主要包括1983年12月8日第六届全国人民代表大会常务委员会第三次会议通过的中华人民共和国统计法,以及1994年2月18日中华人民共和国国务院令第147号发布的中华人民共和国计算机信息系统安全保护条例等。这些法规为金融数据处理提供了基础的法律保障,确保了数据的准确性和安全性。在信息化阶段,随着信息技术的不断发展,金融业数据处理技术逐渐成熟。在这一阶段,金融业开始将数据处理技术应用于更多的领域,如互联网金融、金融风险控制等。相关法律法规和政策主要包括十二届全国人大常委会通过的中华人民共和国网络安全法,以及中国人民银行等十部委发布的关于促进互联网金融健康发展的指导意见(银发(2015)221号)等。这些法规促进了金融业的信息化进程,为金融业的快速发展提供了有力的支持。在数字化转型阶段,金融业开始迈向全面数字化。在这一阶段,金融业数据处理技术得到了更广泛的应用。相关法律法规和政策主要包括关于推进金融科技创新发展的指导意见(银发(2019)202号)、国务院印发的关于促进大数据发展的行动纲要(国发(2015)50号)等。这些法规推动了金融业的数字化转型,使金融业能够更好地适应现代经济的发展需求。智能化发展阶段,是金融业数据处理技术发展的最新阶段。在这一阶段,金融业开始采用人工智能等先进技术进行数据处理。相关法律法规和政策主要包括2021年6月10日第十三届全国人民代表大会常务委员会第二十九次会议通过的中华人民共和国数据安全法、2021年8月20日第十三届全国人民代表大会常务委员会第三十次会议通过的中华人民共和国个人信息保护法、中央深改委发布的关于促进人工智能和实体经济深度融合的指导意见(工信部联科(2019)222号)、科技部等六部门发布的关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见(国科发规(2022)199号)等。进一步法规明确了数据使用的安全合规和保护要求,为金融业数据处理技术的发展提供了良好的法律环境,促进数据处理技术的健康发展。相关政策为金融业的智能化发展提供了有力的支持,推动了金融业的创新和发展。此外,全国金融标准化技术委员会近年陆续发布了个人金融信息保护技术规范(JR/T01712020)、金融数据安全数据安全分级指南(JR/T01972020)、金融数据安全数据生命周期安全规范(JR/T02232021)、金融大数据术语(JR/T02362021)、金融大数据平台总体技术要求(JR/T0237-2021)等金融行业标准,为金融数据的处理提供了标准指引。除了国内的法律法规和政策文件,国际上的法规和政策也对金融业数据处理技术的发展产生了重要影响。例如,2018年5月25日欧洲联盟出台的通用数据保护条例(GDPR)和2022年6月3日美国参议院和众议院发布的美国数据隐私和保护法等,这些法规对金融业的数据处理提出了更高的要求,促使金融业不断提高数据处理的标准和质量。过去一年,全球金融数据处理市场从疫情中逐步恢复,重新进入平稳增长态势,也呈现出一些新的特点:一是从区域发展来看,北美地区仍保持发展优势,东南亚及拉美地区的发展速度最快;二是从业务领域来看,数字货币、绿色普惠、数据安全等是全球各国共同关注的热点,金融基础设施的数字化升级也要求金融科技监管的国际合作水平不断提升;三是从市场主体来看,大型互联网科技企业持续强化金融数据处理市场布局,传统金融机构不断加大数字化转型投入,重回快速增长轨道。在政策、市场和技术等多种因素影响下,国内外金融数据处理技术发展环境和产业生态都在发生着深刻变化。中国金融数据处理市场在审慎稳妥的监管环境下,市场格局也正在发生改变,传统金融机构在金融科技战略定位上正在从“科技赋能”逐步向“科技引领”转型。大型互联网平台公司金融数据处理业务在监管政策环境下,更加注重科技服务与类金融业务的隔离,类金融业务加快获取金融牌照步伐,并不断强化自身科技属性,推进核心技术持续演进,推进金融数据处理关键技术与热点应用的规模和范围不断扩展。(二)技术发展阶段及特征随着技术的发展,数据的处理从最开始的纸质票据和邮件寄送,到后来的传统数据库、小型机与大型机,到如今的中大型分布式数据存储与计算集群;从依靠掌柜和经理人的经验,到如今分析师和数据科学家们基于数据、算法与算力开展协同工作,实现在风控、反洗钱,反欺诈、反社工,以及信贷、借款、用户画像、网络安全等各个场景的数据价值。1.从传统数据库到大数据体系的变革随着数据在金融行业中的深度应用,数据规模的不断扩大,数据类型也不再局限于关系型数据。传统数据库开始在数据处理方面力不从心,业务使用的复杂性增高、数据管理的复杂性变大、海量数据处理的时效性差、成本高。于是,为了应对上述挑战,大规模并行处理MPP(MassivelyParallelProcessing,MPP)数据处理技术开始被使用,以解决数据规模带来的复杂性问题。但是数据规模持续增长、数据表达维度增多、数据类型进一步多元化等问题所带来的复杂性挑战远远超过了预期,数据处理成本高昂和数据类型支持有限变成了新的困难。于是,行业内开始采用Haek)OP及其衍生技术作为经典大数据方案来应对新的数据处理挑战,并取得了很好的效果。2 .从处理海量文本到高价值、多维度、多类型特征的转变随着数据的价值不断被证明,数据工具的利用也从数据科学和数据分析等专业的技术团队逐步延展到业务团队,业务分析与挖掘的需求也更加旺盛。随着需求所对应的数据类型增加,原本仅面向海量文本及结构化类型的数据特性渐渐无法满足业务需求;最终,在保持海量数据处理能力的前提下,逐步向满足高价值、多维度和多类型的数据特征快速演进。HadOe)P体系诞生自互联,是沙中淘金的过程。随着金融业数字化转型的发展,在线业务通常采用SDK等方式进行埋点,数据清洗的无效计算量大大降低;通过数据压缩等方式,在性能影响微乎其微的前提下减少了70%以上的存储空间浪费,但互联网用户仍旧是“沙中淘金”的思路。可转换到行业领域,尤其是金融业,原本的数据纯度就较高,是“金中炼金”的过程,处理过程中更多解决的是单节点无法完成计算的问题,亦或是处理速度不高的挑战;数据之“大”不再是单纯的存储规模,更是计算参与的维度之“多”。3 .存算分离需求的萌芽数据规模与价值挖掘所需的资源之间,随着时间的推移表现出不同的关系。海量数据处理平台建设之初,所有存储的数据都会参与计算。随着数据价值的变化,参与计算的数据会逐步稳定在一定的比例,更多的数据因为合规或其他需要存储在服务器上但并不会持续参与计算。诚然,这个比例随着场景和策略的不同而有所不同,例如对于离线数仓的场景来说,3年以上的存储周期,参与计算的数据占总数据存储量的比例大致约为23%左右。随着关联度和热度的降低,这部分数据的计算参与度也会随之降低。而对于行为特征类的数据,热度降低效应则会更加明显。因此,会出现存储和计算所需资源不匹配的情况。传统的海量数据处理方案也尝试过解决存算分离的挑战,通过将提供存储能力和计算能力的相关组件角色分别部署在不同服务器节点,获得初步的存储和计算分离能力。但这样的方案引入了集群灵活性不足、运维要求高、业务应用容易造成资源耗尽等各类衍生问题与风险,并不适合作为生产环境的最佳实践。4 ,易用性优化推动使用难度进一步降低传统数据库向海量数据处理体系迁移的过程中,遇到的最大挑战便是初代数据处理体系的技术方案中,需要高级编程语言而非SQL语言来操作,这对方案的普适性推广造成了障碍。当SQL语言被全方面地融入海量数据处理体系中后,成本更低,使用更灵活和易用的技术平台才被广泛推入生产环境使用。如今,海量数据处理平台已深度融入金融业的数据处理过程中,并从分担传统数据库OLAP(On-LineAnalyticalProcessing,OLAP)压力的旁路辅助角色,升级为数据中心中基础设施的核心,作为金融数字化的关键,处理近乎全量数据。而在数据开发与治理的交互方面,在满足高级编程语言支持的同时,尽可能实现支持类SQL兼容语法,以满足从业者快速上手和新旧技术栈快速迁移的需求,这进一步降低了使用海量数据处理技术的难度,提高易用性,最大程度地帮助从业者发现并利用数据价值。5 .行级别的海量数据近实时更新能力需求初代海量数据处理体系的技术方案中,为了满足大规模数据规模和读写性能需求,在底层实现中采用了“追加写”的方式,即:无论是数据新增、修改还是删除,在底层技术实现上均表现为写入一条新的数据,在后续构建离线数仓时,再进行有效的数据整理与合并,这样的方案初步解决了传统方案无法处理海量数据的挑战。随着数据的应用场景越来越丰富、数据价值越来越重要,对数据的时效性要求也越来越高。曾经基于全量数据定时构建离线数据仓库的方式不但资源消耗巨大,在满足时效性方面也越来越受到挑战。因此需要更高效的数据组织方式,将早期方案中粗犷的数据使用与资源利用模式进行深度优化,以应对挑战。数据湖和数据仓库的融合将构筑数据湖仓化,带来的行级别更新能力支持是很好的实践路径。通过有效的数据组织格式,基于行级别更新能力的支持,使得之前需要全量数据参与才能实现的数据更新时效性提升到了近实时,并极大减少了资源消耗,提升了资源利用效率。数据湖和数据仓库融合形成的数据湖仓一体架构,消除了数据湖和数据仓库之间的数据壁垒,实现了数据的自由流动,降低了数据冗余,同时也实现了数据湖和数据仓库之间的优势互补。数据不必再进行湖仓之间的传递,极大优化了数据处理的时间。海量数据规模条件下的近实时数据更新能力,将为业务提供更高效的数据处理支持,更好地实现业务价值。(三)技术框架与形态在不同的领域和行业中,对于海量数据的定义有所不同。一般来说,“海量数据”(MassiveData)是指数据量大到用传统的数据管理和处理技术难以有效存储、管理和分析的数据集合。而海量数据处理技术,并非特指某一项技术,而是为了满足业务和行业实际需求的综合性解决方案技术栈,帮助金融机构充分利用数据,更加轻松地挖掘分析数据价值。1.海量数据处理技术基本形态从外部形态上,海量数据处理技术需具备类SQL交互语言支持、Python语言支持、常用如Flink>Spark等计算引擎支持,保持标准开放性,主要支持从TB至百PB级别的数据处理能力,延展至EB级数据能力规模,以应对当下和未来的持续挑战,支持存算分离,以实现按需配置,最终实现性能、需求、成本、易用性、灵活性的平衡等。如图1是一个典型的海量数据处理技术架构:图1典型的海量数据处理架构2 .分布式存储框架海量数据的存储通常基于分布式文件存储或对象存储,支持水平扩容,支持多种存储数据类型,提供结构化、半结构化、非结构化数据的存储解决方案。目前常用的存储框架,主要以文件存储、列式存储、对象存储三大类为主,属于图1的“分布式存储管理”模块,基本覆盖包括金融业在内的主要存储场景,这三者存储类型同属于大数据技术栈的底层存储层,但满足的是不同场景的存储需求,是金融业海量数据处理环节中的第一步。HDFS(HadpDistributedF11eSysteHDFS)是面向PB级数据存储的分布式文件系统,可以存储任意类型与格式的数据文件,包括结构化的数据以及非结构化的数据。HDFS将导入的大数据文件切割成小数据块,均匀分布到服务器集群中的各个节点,并且每个数据块多副本冗余存储,保证了数据的可靠性。HDFS还提供专有的接口API,用以存储与获取文件内容。OZOne是大数据场景中融合文件系统和对象存储的较佳解决方案,能有效解决用户在使用过程中各类存储需求,并延续Hadoop开源存储项目的存储成本优势。生态方面支持Hade)OP文件系统、对象存储/S3、本地路径挂载和K8SCSI等多种访问方式。OZOne与Hadoop生态融合,如ApacheHive、ApacheSpark等无缝对接。OZOne支持HadOOPCompatibleFileSystemAPI(akaOzoneFS)o通过OZOneFS,Hive,Spark等应用不需要做修改,就可以运行在OZone上。除此之外,OZone还同时支持数据本地化,使得计算能够尽可能地靠近数据。HBase是一个构建在HDFS上的分布式存储系统,主要用于海量结构化数据存储。从逻辑上讲,HBase将数据按照表、行和列进行存储。与HDFS一样,HBase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。一方面,HBase能够支持灵活的列字段定义;另一方面,HBase利用LSM(Log-StructuredMerge-Tree,LSM)数据结构模型,将数据的随机访问转换成对磁盘的顺序读写,从而实现高性能的数据随机访问。HDFS节点主要负责HBaSe底层存储,HDFS保证了HBaSe的高可靠性。HDFS为RegionSerVer和MaSter节点提供分布式存储服务,同时保证数据的可靠性。HBase的架构如图2所示:计算框架(Fiink/Spark.)表格式(TableFiannat)数据义件数据文件(ORC/Parquet.).(ORC/Parquet.)文件系统(HDFS/S3)I图2HBase分布式存储架构3 .数据组织方式与分析技术框架核心Iceberg是一个面向海量数据分析场景的开放表格式(TableFormat),有时也被认为是新一代的数据湖仓组件。定义中所说的表格式(TableFormat),可以理解为元数据以及数据文件的一种组织方式,处于计算框架(Flink,Spark.)之下,数据文件之上。表格式(TabI6Format)属于数据库系统在实现层面上的一个抽象概念,一般表格式会定义出一些表元数据信息以及APl接口,比如表中包含哪些字段,表下面文件的组织形式、表索引信息、统计信息以及上层查询引擎读取、写入表中文件的接口。4 .数据编排与缓存加速核心AllUXiO被认为是一种数据编排技术。它为数据驱动型应用和存储系统构建了桥梁,将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。在海量数据处理生态系统中,AlIUXiO位于数据驱动框架或应用(如APaCheSpark)和各种持久化存储系统(如HDFS)之间。Alluxio统一了存储在这些不同系统中的数据,为其上层数据驱动型应用提供统一的客户端APl和全局命名空间。5 .消息队列消息队列支持亿级的消息接收、中转和推送服务,可弹性扩展,无并发限制,高性能具备低延迟、高并发、高可用、高可靠等特性,可支撑亿级数据洪峰的分布式消息中间件,无缝迁移,更安全、更可靠、更易运维。6 .分布式计算框架与分析引擎Hive把存储在HDFS之上的结构化数据抽象成关系型数据表,并提供SQL接口对数据表做查询操作。因此,用户能够以传统关系型数据库的方式来查询大数据存储系统,可以通过HiVe来实现SQL查询分析。Flink提供高吞吐量、低延迟的流数据引擎以及对“事件-时间”处理和状态管理的支持。Flink应用程序在发生机器故障时具有容错能力,并且支持exactly-once语义。程序可以用Java、Scala.PythC)n和SQL等语言编写,并自动编译和优化集群或云环境中运行的数据流程序。此外,Flink的运行时本身也支持迭代算法的执行。Tez是一种支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能,相对于原始的MaPRedUCe框架,Tez可以一次MaP读取,多次reduce操作而中间不用进行IO操作,从而降低频繁的文件IO和网络10,相对MaPRedUce,使用TEZ做计算引擎性能能提高很多。Spark是一种海量数据并行计算框架,充分利用集群的内存资源来分布数据集,大幅提高计算性能。SPark包含丰富的计算生态,包括SParkSQL、MLlib等。SPark支持丰富的编程语言如:Scala>Python>R、Java等等。Presto是一个分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto的设计和编写主要是为了解决PB规模的海量数据交互式分析和处理问题。同时,Presto支持多种数据源,比如Accumulo,HDFS,Redis,PostgreSQL,MySQL等,支持多数据源JOlN查询。二、应用情况(一)平台建设应用情况1.技术平台上云情况金融业海量数据处理平台上云已经成为一个不可逆转的趋势。这一趋势的出现主要是由于云计算技术的不断发展和进步,提供了更高的计算能力、更大的存储能力和更好的灵活性。因此,金融机构正在逐渐将他们的数据、应用和计算资源迁移到云计算平台上,以实现更高效、灵活和低成本的数据管理和处理。金融业海量数据处理平台因其涵盖交易、客户信息等高敏感数据,一般采用私有云部署,部署模式的发展历程可以分为以下几个阶段:第一阶段是物理机部署,使用传统的硬件和软件资源构建管理数据处理平台。第二阶段是虚拟化部署,通过虚拟化技术将服务器、存储和网络等资源进行虚拟化,以提高资源利用率和管理效率。第三阶段是云化部署,将数据、应用和计算资源迁移到私有云平台上,以实现更高效、灵活和低成本的数据管理和处理。第四阶段是多云部署,将数据、应用和计算资源分散部署在多个不同的云平台上,以实现更好的容灾、备份和安全性。据不完全统计,目前部分中等规模以上的金融机构已进入第三阶段云化部署。对于云化部署的范围,金融行业内也有多种不同观点,主要如表1所示:表1云化部署的范围序号名称观点内容1浅上云仅将非核心或外围系统迁移到私有云,核心系统仍采用物理机部署2核心上云将核心系统都迁移到私有云3以云为主保留部分传统物理机部署,但将大部分业务迁移至私有云平台,并借助云平台提供的技术创新推动业务发展4深上云将所有业务迁移到私有云平台,借助云平台提供的先进技术推动业务深度创新2.技术平台规模情况在金融业中,海量数据涵盖了交易、用户行为、市场、客户信息、风险评估、反欺诈检测等多个方面,具有极高的复杂性、多样性和处理速度要求。在金融行业,海量数据通常通过以下指标来定义,如表2所示:表2海量数据通定义指标序号指标指标解释1数据规模海量数据具有非常大的数据量,通常以TB甚至PB为单位2数据速度海量数据的产生和接收速度极快,需要实时处理和分析3数据多样性海量数据包括各种类型的数据,如结构化数据、非结构化数据、实时数据等4数据价值尽管海量数据规模庞大,但其中包含的有价值信息可能非常有限,需要进行深入的数据挖掘和分析。通过对海量数据进行深入挖掘和分析,可以为金融企业提供更好的业务决策支持为了有效管理和分析这些海量数据,需要采用新的数据处理和分析技术,以提高数据处理和分析效率,为金融业务提供更准确、更快速的数据支持,从而提高金融业务的竞争力和效率。因此,金融业海量数据处理平台一般采用多样化的技术栈构建。近年来,随着互联网金融及第三方支付业务的快速发展,金融行业各机构的业务量也出现了大幅度的增长,产生的数据量也越来越大,底层平台规模也随之越来越庞大。如何评价一个组织的海量数据规模有很多维度,但基本上以数据总量和机器节点数量两个主要维度来判断一个组织的海量数据规模。在平台整体节点规模方面,体量较大的金融机构,典型如国有大行(工商银行、中国银行、建设银行等)已超过8000台,并计划在2023年扩容超过IoOOO台;体量较小的也已超过2000台。在单集群节点规模方面,Hadoop集群已有超过2000台,MPPDB集群最大已超过500台。在数据总量规模方面,体量较大的海量数据平台已超过单副本80PB。这些数据反映了金融行业海量数据处理平台的规模和实力,以及金融行业在数据处理方面的挑战和发展趋势。3.研发运营一体化应用情况DataOps的概念最早在2014年由国外学者提出,随后业界逐步对其内涵进行补充。在2018年DataoPS正式被纳入Gartner的数据管理技术成熟度曲线当中,由此进入了国际的视野当中。2022年中国信通院正式牵头成立了DataOPS能力标准工作组,以此为基础推动我国大数据产业的多元化发展,助力企业完成数智化升级。不同组织对于DataOPS的定义如表3所示:表3DataOPS的定义机构定义GartnerDataOps是一种协作性的数据管理实践,专注于改善整个组织的数据管理者和消费者之间的沟通、整合和数据流的自动化IBMIBM将DataOPS定义为DataOPS是人员、流程和技术的有机结合,用于快速向数据公民提供可信的高质量数据维基百科DataOps是一套实践、流程和技术,它将综合的、面向流程的数据观点与敏捷软件工程中的自动化和方法相结合,以提高质量、速度和协作,促进数据分析领域的持续改进文化研发运营一体化是国内对DataOPS理念的一种理解,是一种新兴的数据处理方法论和管理能力。这种技术旨在提高数据分析、数据工程和数据科学团队的生产效率和质量。它借鉴了数据研发、数据运营等方面在实践中的优劣点,强调数据工程中的自动化、协作、持续集成和持续交付,以便更快地从数据中获取价值,与DataOps的理念具有很多相似处。研发运营一体化的核心理念是将数据处理过程视为数据产品的生产线,通过改进数据流程、工具和团队协作,实现数据产品的快速、可靠和高质量交付。在金融行业,研发运营一体化的作用具有许多意义,比如通过研发运营一体化,可以提高数据质量。金融行业对数据的准确性和完整性要求很高,因为数据质量直接影响到风险管理、投资决策和客户服务。研发运营一体化通过自动化数据清洗、验证和转换过程,确保数据质量得到有效控制。此外,还可以加速数据分析和决策,因为金融行业需要快速响应市场变化,做出及时的决策,通过自动化数据处理和分析过程,缩短了数据准备时间,使数据科学家和分析师能够更快地获得洞察力和建议。最后,研发运营一体化可以促进跨部门协作,由于金融行业的数据分析涉及多个部门,如风险管理、营销和客户服务。研发运营一体化实现之后,可鼓励跨部门协作,共享数据和知识,实现业务目标的一致性。总结来看,研发运营一体化在金融行业的作用和发展主要体现在提高数据质量、加速数据分析和决策、降低数据安全风险、促进跨部门协作和支持创新和实验等方面,金融机构可以更好地利用数据,实现业务价值的最大化。(二)技术应用情况1.存储技术应用情况金融业目前主流的数据存储技术中,HDFS,对象存储是常见的存储选型,它们各自有不同的应用情况:HDFS用于存储大规模数据的分布式文件系统。它将数据划分为较小的块并分布在多台机器上,提供高可用性、容错性和可扩展性。HDFS适用于批处理工作负载,如MaPRedUCe任务,但对于随机读写性能较差。对象存储:对象存储是一种数据存储模型,将数据存储为对象,每个对象包含数据本身以及元数据(例如文件名、时间戳等)。对象存储不使用传统的文件系统层次结构,而是通过统一的APl进行访问。这种存储方式不仅适合存储传统结构化数据,也适用存储大规模的半结构化、非结构化数据,如图像、音频、视频等。因此,随着大数据上云成为新的技术趋势,业界普遍将云上对象存储作为新一代的数据湖存储。流行的对象存储解决方案包括AlnaZonS3、AzureBlobStorage等。据统计,金融行业中,当前以IIDFS存储为核心的Hadoop技术广泛应用于构建企业的统一数据湖。随着大数据上云成为新的技术趋势,业界普遍趋向于将云上文件存储、对象存储等作为新一代的数据湖存储。2 .计算技术应用情况金融业对计算技术的要求越来越高,而且由于金融的计算处理非常复杂,所使用的计算技术也较为繁杂,目前使用的主要计算技术包括:批计算引擎HiVe/Spark、流处理引擎Flink、交互式分析引擎PreSto。ApacheSpark是一个通用的大数据处理框架,支持多种计算模式,其中批处理模式是其最常见的用法之一。在SPark批处理中,数据被划分为小块,称为RDD(ResilientDistributedDatasets,RDD),并且可以通过一系列的转换和操作进行处理。SPark批处理适用于对离线数据进行分析和处理,例如数据清洗、ETL(Extract-Transform-Load,ETD、批量计算等。它的优点包括快速数据处理、容错性和丰富的API。ApacheFlink是一个开源的流式处理框架,专注于支持实时流数据的处理和计算。与SPark的批处理模式不同,Flink专注于实时数据的流式处理。Flink支持事件时间处理、窗口操作、状态管理等功能,使得用户可以实时处理和分析数据流。Flink适用于需要实时响应的应用,如实时监控、实时分析、事件驱动型应用等。Presto是一款开源的分布式SQL查询引擎,专注于实时分析和大规模数据查询。其独特之处在于高速的查询能力和弹性的分布式架构,适用于需要快速响应和复杂分析的场景。其出色的查询性能、灵活的数据源连接方式以及高度可扩展的架构,使其成为处理各种数据分析挑战的首选工具。Presto适用于数据探索、BI报表等领域,能够处理大量数据并支持复杂查询操作,是处理实时数据分析的强大工具。不同的计算技术适用不同的业务场景。在金融机构中,选择适当的计算模式取决于业务需求、数据特点和性能要求。金融行业普遍使用Hive/SPark引擎用于海量数据的批量加工,比如标签加工、指标加工,FIink引擎广泛应用于金融行业的实时营销、实时风控等场景中,Presto应用于面向数据分析师的数据探索业务,以及Bl报表对应。为了发挥计算技术的最大优势,在构建数据处理平台时还会采用计算与存储一体的数据库技术,在专项领域达到更优的性价比,如:HBaSe、时序数据库、图数据库、CliCkHOuse、MPPDB等。HBaSe是一个适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式数据库。HBaSe适合需要高吞吐量、低延迟、大规模数据存储和实时查询的业务场景。其分布式、可伸缩的架构适用于大数据应用,如实时分析、日志处理、社交网络、物联网数据管理等。同时,HBase的数据模型类似于分布式哈希表,适合需要快速存取、随机读写的场景。时序数据库具备高效的时序数据存储和查询能力,适用于需要处理大规模、高频率时间序列数据的场景。支持复杂查询、聚合分析以及数据压缩,能够满足设备监控、智能城市、工业生产等领域的需求。时序数据库的优势在于可扩展性、低延迟读写以及对大量设备生成的实时数据的强大支持,在金融场景中可以用于处理大量的实时数据,如股票价格、汇率、交易信息等。时序数据库还非常适合金融的风险管理,实时交易监控等领域,在金融行业越来越受到重视。图数据库是用于图谱数据的存储和分析的数据库。客观世界的事物可以抽象成事物实体和事物之间的联系,将实体抽象成点,将实体之间的关系抽象成边,则客观的世界可以抽象成由点和边组成的图谱。用图谱的表示方式很多时候能更客观直接地描述事物的规律,针对图谱数据的分析也能更高效地发现事物直接的规律。图数据库就是专门针对这类抽象为点和边的图谱数据的分析组件。日志存储和搜索引擎以ElaStiCSearCh为例,它是一个基于ApacheLucene的分布式搜索和分析引擎,它主要用于搜索和数据分析场景。它允许用户构建实时搜索引擎、日志分析、指标监控和推荐系统等各种应用。日志存储和搜索引擎工具在金融业使用非常广泛,比如在金融的实时搜索和分析场景中因为涉及大量文本数据,如交易记录、报告、研究论文等,Elasticsearch的实时搜索和分析功能可以帮助金融企业快速查找相关信息,提高工作效率。另外金融的风险控制、合规、反洗钱(AML)和客户识别,甚至金融数据挖掘和分析等各个场景下,都需要日志存储和搜索引擎这一类的工具,对金融业具有重要意义。ClickHouse是面向联机分析(OLAP)处理的列式数据库,适合大规模并行分析、交互式分析应用场景。支持通过分布负载到多个数据库服务器主机,实现存储和处理大规模数据,具有完全的伸缩性、高可用、高性能、资源共享等特征。支持基于SQL的查询、统计、分析,且性能好,特别是基于大宽表的聚合分析查询、分析性能非常优异。ClickHouse完全使用SQL作为查询语言,提供了标准协议的SQL查询接口,具备基于SQL的数据查询、统计、分析等能力。使得现有的第三方分析可视化系统可以轻松与它集成对接。MPPDB是一种面向数据分析的分布式并行运算数据库,通过将查询和计算分布在多个计算节点上来实现高性能分析。MPPDB数据库针对复杂数据查询和大规模数据分析进行了优化,具有并行性、高性能和高吞吐量等优势,适合实时和交互式分析。各类计算与存储一体的数据库技术都在金融业不同的场景中发挥着重要作用,如:HBaSe广泛应用于金融机构的明细高并发查询场景中(如交易流水查询、账单查询),MPP则应用于构建数据仓库支持大规模数据集的存储和查询场景;部分金融机构已将时序数据库应用于量化交易、智能化运维等场景中,将图数据库应用于知识图谱、反欺诈等业务场景中,将ClickHouse应用于贷款、营销等场景的实时SQL统计分析,以及构建标签管理系统。而日志存储和搜索引擎则长期都是金融业处理海量日志以及实时搜索的必要工具。3 .数据湖仓技术应用情况数据湖仓技术是指将数据湖(DataLake)和数据仓库(DataWarehouse)两种数据存储和管理模式结合起来的方法,旨在实现更灵活、高效和综合的数据处理和分析。这种方法可以让企业在一个统一的平台上同时享受数据湖和数据仓库的优势。目前主流的数据湖仓技术为湖仓一体技术,该技术在数据湖构建和管理方面有着不同方法和策略,近几年深受金融行业的青睐。Iceberg和Hudi(HadoopUpsertsDeletesandIncrementals)是两种流行的数据湖仓LakehOUSe组件,常被用来构建湖仓一体技术架构,它们提供了类似事务性操作、数据版本控制、分区管理等功能。通过在数据湖中引入Hudi或ICeberg等技术来实现增量数据存储、数据更新和删除操作的支持,实现了数据湖和数据仓库的融合。数据湖不仅承载原始数据,还负责承担数据仓库的职责,包括数据的清洗、转换、加工和分析。这种集成的方法不仅简化了数据架构,还提高了数据的可访问性和灵活性,使得金融机构能够更好地应对实时分析和复杂业务需求,从而实现更智能的决策制定和业务创新。随着湖仓一体技术的兴起,金融机构也逐步将传统的数据湖和数据仓库升级到湖仓一体。目前头部的金融机构已经开始探索湖仓一体技术,并在生产业务中落地部分业务。随着未来时间的推移,湖仓一体将逐步成为金融行业的主流形态。4 .数据架构应用情况当前金融行业已经从传统的数据仓库体系、大数据体系升级演进到数据中台体系。这一演进是为了更好地整合企业内部的数据资源,提高数据的使用效率,以及满足金融行业日益增长的数据需求。在这种背景下,金融行业的数据中台体系下的数据架构往往做了数据分层。典型的数据分层如下:(1)贴源层:直接对接各个数据源,如交易系统、核心业务系统、外部数据接口等。通常保持数据的原始状态不做过多处理。(2)明细层:存储经过初步清洗和转换的详细事务数据,为后续的数据分析和报表提供了基础数据。保留了数据的细节,允许对数据进行深入的分析。(3)汇总层:基于明细层的数据,进行进一步的加工和汇总,生成对应的汇总数据、聚合数据或预计算的度量数据,以支撑快速查询和报告。(4)应用层:为终端用户或者应用系统提供数据访问服务。这一层通常包括为特定业务或功能定制的数据集,例如数据看板、报表、数据产品或APl接口。数据架构的技术落地上,数据贴源层普遍基于数据湖技术构建,如HadoOp、DeltaLake或AWSS3等。数据湖为后续的数据分析、机器学习和报表提供了一个灵活的、原始的数据基础。明细层和汇总层部分金融机构会基于MPPDB构建,对于领先的金融机构而言,则通常使用大数据技术构建。最上层的应用层一般基于高并发的OLAP数据库和各类大数据技术组件比如HBase.ElasticSearh>Redis等构建。领先的金融机构已经实现完全基于开放大数据技术栈来构建整个数据架构,从而确保数据处理的高效、灵活和可扩展性。三、主要挑战(一)数据存储的挑战近年来,金融业的数据呈现爆发增长的趋势,金融机构的数据存储面临多种问题和挑战,这些数据存储的痛点包括以下几个方面:一是数据内容爆炸问题,金融机构每天都产生大量交易、市场和客户数据,导致数据量急剧增长,挑战存储基础设施的容量和扩展性。此外数据多样性也存在较大挑战,数据来自不同业务源、格式和结构,如交易记录、文本、图像等,需要适应多样化的数据存储和处理需求。二是数据利用率和弹性伸缩问题,随着数据规模增长,传统的大数据处理系统由于存储和计算资源往往是紧密耦合的,这可能导致资源利用率低下,存储的弹性拓展性能也表现不佳,在这种情况下,如果可以把存储和计算分离出来将有效地解决这些问题。三是性能问题,数据规模一旦增长,数据存储性能非常容易遭受瓶颈问题,目前传统大数据平台架构,任意节点在数据膨胀后极可能会出现I/O瓶颈,影响系统性能。四是数据安全与高可用。金融数据涉及敏感信息,需要严格的安全措施,以保护客户隐私和