浅谈HTAP混合技术和金融业应用场景.docx
近年来,随着大数据应用场景的快速普及与多样化发展,传统的数据处理方案己愈发难以满足海量数据实时分析的数据处理需求。针对上述挑战,混合事务/分析处理(HybridTransactionandAnalyticalProcess,HTAP)架构的出现为打破事务和分析之间的“隔阂”提供了可行方案,根据Gartner提出的概念,HTAP架构的目的是在单一数据上不加区分地处理事务和分析任务。从发展历程来看,相比于联机事务处理(OLTP)型数据库、联机多维分析处理(OLAP)型数据库,HTAP具有明显的技术优势,可以有效避免频繁的数据搬运操作,减轻系统额外负担,并降低数据的重复存储成本。一、HTAP特性及架构简介在大数据业务领域,事务(TranSaCtion)和分析(Analysis)具有强相关性,人们为了进行海量数据的实时分析,发明了TA融合这一技术,而HTAP则是在存储、计算等方面具有极佳的线性扩展能力,能够更好地解决海量数据的容量问题。具体而言,HTAP的典型特性如下:一是支持TP与AP混合的事务处理和分析过程。二是具有水平扩展能力,通过简单增加新节点即可按需实现TIDB的水平扩展,进而轻松满足高并发、海量数据场景需要。三是支持SQL请求在不同节点自由调度,少量工作节点宕机并不影响业务连续性,且在不丢失大多数副本的前提下,还可以实现故障自动恢复。四是支持两地多中心高可用架构部署,包括同城两机房双活及异地机房的实时切换。五是支持强一致分布式事务以及标准的ACID事务。六是可高度兼容MySQL协议和常用的功能及语法。七是可对数据库服务集群环境和数据库各进程以及运行SQL进行实时监控和告警。八是可根据请求SQL的特性,自动决定触发TP事务引擎还是AP分析引擎。九是具有独立的TP和AP引擎来支撑存储和计算需求。十是支持公有云、私有云和混合云,可实现自动化运维,简化部署、配置工作。二、HTAP在金融业的典型应用场景案例聚焦金融领域,HTAP可高效支持高并发交易拼接加工、大批量交易加工、批量文件生成和推送等众多业务场景。举例来说,联机应用程序可实时对接收的交易数据进行拼接和加工,即通过关联方式对数据进行属性补齐,在夜间将每日批量交易中需要补齐、补漏的数据批量转联再进行加工;同时,还可每日批量对大数据量的交易进行加工,以及对交易明细进行月度、年度统计分析(至少可跨越10年);此外,基于交易明细的实时分析查询结果,还可对交易明细按照交易类型、时间等维度进行统计并实时返回结果。TA类型对应的金融业务应用场景见表1,IITAP混合特性与金融典型场景应用的映射关系见表2o表ITA类型对应的金融业务应用场景TA类型特点金融应用场景TP支持实时、高并发的OLTP类交易(查询、写入、更新、删除),特点是单次占用资源少但并发量大、响应时间要求高交易明细查询、交易明细下载推送、交易拼接加工、业务签约等AP支持海量数据的批量加工处理,特点是批量加工任务涉及数据量大、硬件资源占用多报表指标分析、决策支持、报告单加工、金融日历、年月度账单TP+AP(联机中)继续明细数据的高并发查询中带有多维汇总聚合各应用App针对个人收支的实时分析TP+AP(纯批量)支持联机实时、批量写入以及联机、批量的读操作交易明细查询、交易明细下载推送、交易拼接加工、业务签约,以及报表指标分析、决策支持、报告单加工、金融日历、年月度账单等表2HTAP混合特性与金融典型场景应用的映射关系HTAP特性高并发数据接收高并发交易拼接加工大批量交易加工交易查询批量文件生成和推送基于交易明细分析杳询TP、AP事务混合TP能力AP能力扩展性高可用性容灾能力强一致分布式事务SQL兼容性集群监控管理7智能优化器TP、AP资源隔离实时性三、HTAP数据库未来展望当前,HTAP数据库通常在TP和AP领域各有侧重,还无法做到同时支持TP、AP场景。对此,笔者团队建议在应用设计上可将非实时的海量、复杂、多维度数据加工场景,即重型批量处理操作放到MPP类、AP类或者大数据平台实施;而对联机高并发、有实时聚合分析和轻量批量加工的场景则用HTAP来支撑。此外,在数据库设计和使用上尽量应用标准SQL,以规避不完善特性带来的应用风险,并在应用侧通过分库路由策略来应对跨库数据访问,同时搭载数据同步工具来支撑数据库集群之间的数据交换。展望未来,多元化需求场景决定了HTAP数据库不能是OLTP和OLAP的简单叠加,如果通过OLTP架构外扩实现OLAP,显然只能算权宜之计,而基于当前对分布式数据库与大数据技术相互融合的需求,HTAP或将成为数字化时代的一种普遍形态。同时,结合开源生态来看,HTAP数据库未来仍需要在成百上千的业务场景中不断打磨,即将开源作为核心战略、构建高度活跃的开源社区将会是HTAP数据库的长远目标。最后,HTAP数据库的发展还需能支持云原生架构,即在充分发挥云原生技术轻量化、松耦合、灵活度高等优势的同时,努力实现跨云与多云部署。