分布式存储架构发展及技术分析与分布式存储典型问题解读.docx
《分布式存储架构发展及技术分析与分布式存储典型问题解读.docx》由会员分享,可在线阅读,更多相关《分布式存储架构发展及技术分析与分布式存储典型问题解读.docx(22页珍藏版)》请在课桌文档上搜索。
1、分布式存储架构发展及技术分析存储域 SerVerServer z Scncr 国分布式施基于新型极简共享存储的DiCkSS架彻底座从云和互联网的业务场景来看,其存储域主要采用基于服务器部署分布式存储服务的融合方式,它面临如下挑战:1 .数据保存周期与服务器更新周期不匹配。大数据、人工智能等新兴业务催生出海量数据,大量数据需按照其生命周期策略(例如810年)进行保存。2 .性能可靠与资源利用率难以兼得。支撑业务的分布式存储系统大致可以分为性能型存储和容量型存储,它们均无法同时实现高性能可靠与高资源利用率。具体地,性能型存储主要运行数据库、虚拟化等关键业务,通常采用三副本或两副本并配合独立冗余磁盘
2、阵列卡模式;这类方案虽兼顾了性能和可靠性,但其大约30%的空间利用率却是对存储资源的极大浪费。容量型系统为了提升空间利用率,采用纠删码(EraSUreCode,EC)方式,然而,EC计算过程中的读写、重构等会消耗大量网络资源,导致系统重构效率低下、重构时间长,给系统可靠性带来风险(如图1所示)。云和互联网分布式存储系统性能可靠性影响大EC计算过程中读写、重构等消耗大量网络资源,系统存储资源利用率低常采用多副本方式保证可靠性不同系统烟囱式构建存储.无法跨系统池化存储重构效率低下、重构时间长图1分布式存储资源利用率3 .新型分布式应用的极简高效共享存储诉求。以无服务器(SerVerleSS)应用为
3、代表的新型分布式应用在近些年涌现,这类应用从无状态化向有状态化扩展,比如数据库、消息总线等组件纷纷容器化,数据共享访问的诉求不断增多。与此同时,人工智能和机器学习等应用需要大量异构算力协同,甚至产生共享内存访问的诉求,它们关注高带宽、低时延的访问能力,仅需要轻量、便捷的共享存储系统即可,不需要搭载具有复杂企业特性的传统存储。4 .数据中心税导致数据密集型应用效率低下。面向数据密集型场景,在基于以CPU为中心的服务器架构下,应用为获取数据所缴纳的“数据中心税”(datacentertax)日益加重。例如,服务器内的CPU为处理网络及存储IC)请求,需要消耗高达30%的算力3;此外,由于通用CPU
4、并不擅长数据处理运算,导致其能效比低下。传统存算分离架构将算力资源和存储资源(机械硬盘、固态硬盘等)分离至彼此独立的计算域和存储域,并通过以太网或专用存储网络(例如光纤通道)将二者互连,实现了存储资源的灵活扩展和高效共享(如图2左侧所示);该架构主要为复杂的传统企业特性设计,难以应对上述挑战,为了让云和互联网存储域服务兼顾资源利用率、可靠性、性能、效率等众多诉求,亟须基于新型软硬件技术构建新型存算分离架构。ECSI存储域 Server计算域 Server计Il无盘化直建存储模组 Mr. Nk V NOF似Mtn化M业务 Oia化 v9 三景YW 3y Bh 卜、Wl 2” KVanlaMnlJ
5、T内朗酝、J JsLUScncr分的W仓am出容凰FSfO分布式EC.和IHiS布JS 6. Hxk r RftMAtHMmt务M内在拉远谢匕大内存加速应用X、.*u.(1MMCSl(SI基于新型极筒共享存储的DiSIdeSS架构底座高通.数据总我名总线、弊总鼻11M机OPriealJe弊)图2传统存算分离架构与新型存算分离架构时比一、硬件技术趋势面对数据中心在容量利用率、存力效率等方面的挑战,近年来,专用数据处理器、新型网络等技术快速发展,为数据中心基础设施的重构提供了技术基础。首先,为取代服务器本地盘,很多厂商推出以太网闪存簇(EthemetBUnChOfFlash,EBOF)高性能盘框(
6、例如,近期陆续发布的西数OPenFlex、VaStDataCereS高性能盘框等)。这类盘框不再具有复杂企业特性,而是注重采用新型的数据访问标准,比如支持NOF(NvMExpressoverFabric)等接口,以提供高性能存储实现对本地盘的替换。NoF协议由NVMExpress(NVMe)标准组织在2016年发布,提供了NVMe命令到多种网络传输协议的映射,使一台计算机能够访问另一台计算机的块存储设备。同时,一些研究机构进一步探索远程内存池化技术,例如,韩国KAIST实验室实现了基于FPGA的CXL(ComputeExpressLink)互连协议;CXL为英特尔于2019年3月在Interc
7、onnectDay2019上推出的一种开放性互联协议,能够让CPU与GPU、FPGA或其他加速器之间实现高速高效互联,从而满足高性能异构计算的要求。其次,业界涌现出整来越多的数据处理单元(DataProcessingUnit,DPU)和基础设施处理单元(InfrastructureProcessingUnit,IPU)专用芯片,在数据流处理路径上取代通用处理器,提升算力能效比。同时,基于可编程交换机的网存协同也是研究热点,例如在网数据缓存的NetCacheKV-Direct,在网数据协调的NetLockSwitchTx,在网数据聚合的SwitchML.NetEC,在网数据调度的FLAIR、Al
8、NiCO等。最后,数据访问网络标准也在持续增强,比如CXL协议新版本加强了内存池化方向的技术特性,同时吸收了Gen-Z(由AMD、ARM、HPE等公司发起定义的面向内存语义的技术)、OpenCAP(OpenCoherentAcceleratorProcessorlnterface,最早由IBM提出的异构计算接口)等技术的成果,正逐步成为业界主流高速互联标准。NVMe2.0也在向着语义统一、Fabric统一和介质统一方向演进。这些新型存储、计算和网络硬件为构建面向云和互联网场景的新型存算分离架构带来了诸多机遇,譬如使用DPU等专用芯片能够打破传统以CPU为中心的服务器架构,由此提升数据密集型应用
9、的效率。二、新型存算分离架构的特征随着远程直接内存访问(RemoteDireCtMemOryACCess,RDMA)CXL可编程网络设备、高性能NVMeSSD、持久性内存等新型硬件技术的发展,需要构建新型存算分离架构,以确保云和互联网存储域服务能够兼顾资源利用率、可靠性、性能、效率等众多诉求。相较于传统架构,新型存算分离架构最为显著的区别在于:(I)更为彻底的存算解耦,该架构不再局限于将CPU和外存解耦,而是彻底打破各类存算硬件资源的边界,将其组建为彼此独立的硬件资源池(例如处理器池、内存池、机械硬盘(HDD)/固态硬盘(SSD)池等),从真正意义上实现各类硬件的独立扩展及灵活共享;(2)更为
10、细粒度的处理分工,即打破了传统以通用CPU为中心的处理逻辑,使数据处理、聚合等原本CPU不擅长的任务被专用加速器、DPU等替代,从全局角度实现硬件资源的最优组合,进而提供极致的能效比。总结来说,新型存算分离架构具有如下特征:1 .无盘化的服务器。新型存算分离架构将服务器本地盘拉远构成无盘化(diskless)服务器和远端存储池,同时还通过远程内存池扩展本地内存,实现了真正意义上的存算解耦,可极大提升存储资源利用率。业务使用时.,可根据应用需求选择配置不同性能、容量的虚拟盘及池化内存空间,这样一方面可以避免由于不同服务器本地存储空间利用率过低导致超配造成的浪费;另一方面,当服务器出现故障或者更新
11、换代时,也不影响数据的保存,不需要额外的数据迁移。2 .多样化的网络协议。连接计算和存储间的网络协议从当前的IP或光纤通道(FibreChanneLFC)协议扩展到CXL+NoF+IP协议组合。CXL协议使得网络时延降低到亚微秒级别,有助于内存型介质的池化;NoF协议加速SSD池化;IP协议可满足HDD等慢速介质访问诉求。通过这几类协议组合构建的高通量网络,满足了多种场景池化接入诉求。3 .专用化的数据处理器。数据存储、访问等操作不再由通用处理器负责,而是卸载到专用数据处理器。此外,特定的数据操作可由专用硬件加速器进行进一步加速,如纠删码、加密压缩、网络通信等。通过专用数据处理器,可以释放通用
12、处理器算力,用于服务更适合的场景,显著提升系统整体能效比。4 .极高存力密度的存储系统。分离式存储系统(disaggregatestorage)是新型架构的重要组件,作为持久化数据的底座,在存储介质的集约化管理基础上,结合芯片、介质的深度协同设计,整合当前系统、盘两级的空间管理,通过大比例纠删码算法减少冗余资源开销比例。此外,还可通过基于芯片加速的场景化数据缩减技术提供更多的数据可用空间。三、面向云和互联网场景的存算分离架构新型存算分离架构意在解决前文所提的当前架构面临的几大痛点挑战,通过将原有架构的多级分层资源进行彻底解耦池化和重组整合,形成新的三大简化分层:存储模组、总线网络和算力模组,从
13、而提供服务器本地存储拉远池化、新型网络灵活组装、以数据为中心的多元处理、高容量极简盘框等几大新兴能力。1、存储模组面向云和互联网数据中心,需要以更专业的存储能力重新定义云和互联网的存储架构。新型存算分离架构中,存储型模组主要以EBOF,以太网内存簇(EthemetBunchofMemory,EBOM)以太网磁盘簇(EthernetBUnChofDisk,EBOD)等新型盘框形态存在,RAID/EC/压缩等传统存储能力下沉到新型盘框中,构成“盘即存储”的大盘技术,对外通过NoF等高速共享网络提供块、文件等标准存储服务。这一类新型盘框将传统磁盘阵列的冗余池化技术和数据缩减技术进行了高度集约化和小型
14、化。场景 存储模组替换计H/存储的本地SSD/HDD 盘RAIDBlock:、E tM) lll)lftHma tt、泣IrMe IHWMtMM.m.H ll*kV KVS R M m1/Mnonjtg图4网络技术发展时间线存算分离架构中,网络技术非常重要,它决定了系统的响应速度以及吞吐能力,也决定了系统资源池化的能力范围。过去10年,万兆IP网络促使HDD池化,基于IP网络发展了支持块、文件、对象共享的访问协议。当前,面向热数据处理,NVMeZRoCE(RDMAoverConvergedEthernet9RDMA融合以太网)促使SSD池化;并且,NVMe协议快速发展使其开始收编烟囱式协议规范
15、。下一步,面向极热数据处理,内存型网络(例如CXLFabriC)将促使内存资源池化,为业务提供更大的共享内存空间(如图4所示)。涉及分布式存储选型、架构、运维等。1、分布式存储当前主要的应用场景有哪些?简单来说,就是存储设备分布在不同的地理位置,数据就近存储,将数据分散在多个存储节点上,各个节点通过网络相连,对这些节点的资源进行统一的管理,从而大大缓解带宽压力,同时也解决了传统的本地文件系统在文件大小、文件数量等方面的限制。对于分布式存储,应用场景就很多了,如果你有以下需求:数据量大、高吞吐量、高性能、高扩展,那就推荐分布式存储。主要的应用场景:1)块存储类似传统存储IPSan形式提供iSCS
16、I接口,作为虚拟化后端存储2)对象存储视频,音频,图片类的存储,归档存储等,例如保险行业的“双录”系统,电子保单系统3)文件存储作为NFS,GPFS之类集群文件系统的替代品1、分布式块存储:(1)云平台,私有云建设,分布式存储非常适合云平台的场景,传统集中式存储,一一般都是标准iscsi协议挂载卷到。PenStaCk端,每个Iun都需要单独挂载。配置MPIO等。而分布式存储是通过rbd协议挂载存储池给OpenStack,OPenStaCk端直接在存储里划分和创建卷,调用快照等高级功能,分布式存储和OpenStack是天生适配,更加合适OPenStaCk的私有云的发展。(2)容器场景:2018年
17、12月发布KUberneteSl.13版本,用于容器编排引擎的标准存储接口containerstorageinterface(CSI)已普遍可用。在这些产品中,容器本地数据服务的需求对于支持微服务结构变得非常重要,这些需求包括硬件不可知性、APl驱动、基于分布式架构,能够支持边缘、核心或公共云部署等。超过70%的容器应用需要有状态数据持久化保存,SDS可以解决:需要敏捷的数据迁移、从多个应用容器同时访问数据的需求。所以容器场景的弹性灵活的需求也是非常适合分布式存储。2、分布式文件存储:分布式文件适合大容量文件存储场景,横向扩展灵活,性能优于双控存储,例如非线编,共享NAS,高性能计算等等都非常
18、适合,文件存储也是现阶段三种存储中市场使用最高的,但有些也在慢慢转对象存储,对象存储接口协议在逐步开发中,会有一个过渡阶段。3、分布式对象存储:海量小文件需求,检索需求,大数据方向,金融的影像平台,有互联网传输需求,和公有云整合,企业高校的网盘,监控等等非结构化场景都适合,包括一些医疗的PACS也在逐步过渡到对象存储,未来最有爆发潜力的存储。文件和对象都针对的非结构化场景,文件往对象转是大势所趋,在于对象S3接口的逐步推广,对象存储支持文件和对象互操作(文件协议写入,对象方式读出,反之亦然)也是顺应市场需求的产物。金融行业:影像系统、档案系统、容器、私有云、备份医疗行业:超融合、PACS影像存
19、储安防行业:监控集中存储、智能安防教育行业:私有云、校园网盘除了OLTP单一业务极限K)PS需求,和极低时延(微秒),大部分业务场景都可以通过SDS满足,金融领域的开发测试,容器云,电子影像,双录,广电领域的媒资,CDN,等等,都是当前SDS能够应对的场景,简单来讲,SDS本身是分布式架构,通过ScaleUp和ScaleOut对标准化服务器和网络的排列组合,可以获得业务希望获得的存储能力。2、和传统存储相比,分布式存储在哪些应用场景比较有优势?分布式存储适用于虚拟化、云平台对接场景,海量非结构化数据保存场景(如图片、影音等)。数据量大、高吞吐量、高性能、高扩展等场景。分布式在整体架构设计上,可
20、按需配置,灵活扩展;分布式存储性能上限高,传统存储传输接口数量受限制有天花板;分布式存储容量上限高,横向扩展能力强;分布式存储硬件节点做替换对应用影响小;综上所述,在私有云部署,海量非结构化数据,高性能计算,流媒体和视频监控场景有比较大的优势。3、传统存储架构的局限性和分布式存储的优点?传统SAN存储设备一般采用双控制器架构,两者互为备份,配置两台交换机与前端的服务器进行连接,这种双控制器架构方式会有以下两个方面的缺点:1 .网络带宽容易变成整个存储性能的瓶颈;2 .如果一个控制器损坏,系统的性能将大幅下降,影响存储的正常使用。传统存储架构的局限性主要体现在以下几个方面:1、横向扩展性较差受限
21、于前端控制器的对外服务能力,纵向扩展磁盘数量无法有效提升存储设备对外提供服务的能力。同时,前端控制器横向扩展能力非常有限,业界最多仅能实现几个控制器的横向。因此,前端控制器成为整个存储性能的瓶颈。2、不同厂家传统存储之间的差异性带来的管理问题不同厂商设备的管理和使用方式各有不同,由于软硬件紧耦合、管理接口不统一等限制因素无法做到资源的统一管理和弹性调度,也会带来存储利用率较低的现象。因此,不同存储的存在影响了存储使用的便利性和利用率。分布式存储往往采用分布式的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息。它不但提高了系统的可靠性、可用性和存取效率,还易于扩展,将通用硬件
22、引入的不稳定因素降到最低。优点如下:1 .高性能一个具有高性能的分布式存户通常能够高效地管理读缓存和写缓存,并且支持自动的分级存储。分布式存储通过将热点区域内数据映射到高速存储中,来提高系统响应速度;一旦这些区域不再是热点,那么存储系统会将它们移出高速存储。而写缓存技术则可使配合高速存储来明显改变整体存储的性能,按照一定的策略,先将数据写入高速存储,再在适当的时间进行同步落盘。2 .弹性扩展得益于合理的分布式架构,分布式存储可预估并且弹性扩展计算、存储容量和性能。分布式存储的水平扩展有以下几个特性:1)节点扩展后,旧数据会自动迁移到新节点,实现负载均衡,避免单点过热的情况出现;2)水平扩展只需
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分布式 存储 架构 发展 技术 分析 典型 问题 解读
链接地址:https://www.desk33.com/p-1090122.html