分布式存储产业方阵:分布式存储发展白皮书(2023).docx
《分布式存储产业方阵:分布式存储发展白皮书(2023).docx》由会员分享,可在线阅读,更多相关《分布式存储产业方阵:分布式存储发展白皮书(2023).docx(45页珍藏版)》请在课桌文档上搜索。
1、版权声明1一、数据智能,引领分布式存储创新发展I(一)大模型快速崛起,开启海量数据应用新时代1(二)算力发展需要互联互通,加速数据流动需求2二、产业解析,纵观分布式存储产业进展4(一)步入稳定增长阶段,筑稳非结构化数据底座4(一)供需应用更加多元,上下游生态合作更加紧密7(三)介质协议加速升级,全闪与融合形态快速发展IO三、场景解读,指引分布式存储新兴应用12(一)Al大模型12(二)大数据湖仓一体15(三)数字化病理18(四)生物信息分析21(五)量化交易23(六)边缘计算25(七)数据网络28四、技术透视,展望分布式存储发展趋势31(一)架构方面,向融合负载、更高密度、更快网络发展31(二
2、)功能方面,向场景化无损压缩、多活容灾发展34(三)硬件方面,向全闪存化、高效节能发展36(四)生态方面,向云存开放对接、存储直通发展38五、共建共赢,推进分布式存储生态发展42图目录图120192022年分布式存储市场规模4图22022年中国各省市新增分布式存储容量5图3分布式存储垂直行业增长表现6图4分布式存储典型应用场景7图5分布式存储产业生态图景9图6分布式存储在AI大模型场景应用13图7大数据进入湖仓一体新阶段15图8分布式存储在数字化病理场景应用19图9分布式存储在生信分析场景应用22图10分布式存储在量化交易场景应用24图11单框多节点架构示意32图12传统TCP/IP数据传输过
3、程33图13RDMA数据传输过程34图14分布式液冷存储示意图38图15GPU直通存储示意40一、数据智能,引领分布式存储创新发展(一)大模型快速崛起,开启海量数据应用新时代大模型的快速发展让大模型的训练效率引起了业界的广泛关注,大模型训练一方面对互联带宽提出了新的挑战,另一方面也对数据存储、流动的效率提出了更高的需求。从2018年谷歌发布BERT开始,业界开启了预训练大模型之路。2023年出现了第一个杀手级应用ChatGPT,由OPenA公司在2022年11月推出,到2023年1月已经达到1亿月活用户。2023年3月英伟达在GTC大会上也表示A的iPhone时刻已经到来,标志着大模型快速崛起
4、,进入应用阶段。大模型在训练过程中所需数据量庞大。模型的深度学习网络层数多、链接多、参数复杂,以及训练所用数据集种类复杂,数据量大。在深度学习算法刚刚诞生时,主流模型只有几百万参数,而BERT发布时模型参数就已经过亿,将深度学习推进到了大模型阶段。到了ChatGPT阶段,主流模型已经有几千亿参数,甚至业界已经开始规划万亿模型。几年时间里,A模型的参数提升几千倍,如此庞大的数据与模型都需要进行存储,这就成了大模型爆发给存储的第一大考验。大模型的另一个显著特点是对非结构化数据的高度依赖。目前会泛提到A大模型采用了全新的模型结构,因此对非结构化数据会有更好的吸收效果与鲁棒性,这对于A最终效果非常重要
5、,但也带来一个衍生问题:如何妥善处理存储和调用海量的非结构化数据。比如,2023年9月OPenA宣布ChatGPT开启多模态输出模式,ChatGPT在升级后加入了识图、语音识别等多模态能力,因此其训练数据也需要在文本基础上加入大量图片、语音,再比如自动驾驶车辆,每天要将大量实地测试视频存储起来作为模型训练依据。这些非结构化数据,带来了A相关数据的海量增长,也带来了存储和处理这些数据的难题。据统计,当前全球新增数据有80%都是非结构化数据,年复合增长率达到38%,应对多元化的数据激增,已经成为大模型时代必须克服的困难。大模型对存储的性能安全性也提出了更高的要求。大模型往往需要频繁读取和调用数据,
6、ChatGPT的数据访问使用量达到单月17.6亿次,平均响应速度在10秒以内,并且A模型的工作流程包括采集、准备、训练、推理四部分,每个阶段需要读写不同类型的数据。因此,大模型对存储性能也带来了要求。此外,围绕ChatGPT展开的一系列数据主权、数据保护争议,也提醒我们A大模型带来了数据安全方面新的风险。试想一下,如果不法分子攻击数据库,从而令大语言模型生成错误信息欺骗用户,其危害结果既严重且隐蔽。(二)算力发展需要互联互通,加速数据流动需求2023年10月,工信部等六部门联合印发算力基础设施高质量发展行动计划,行动计划提出到2025年,我国存储总量将超过1800EB,为我国数据存储产业提供了
7、巨大的增长空间。行动计划重点任务部署强调探索构建我国算力互联网,促进海量数据要素高效流动。在此背景下,实现算力统一调度和高速互联已经成为刚需,算力发展进入互联互通时代,数据流动作为算力互联互通的关键组成部分,是释放算力资源价值的基础,也是解决数算协同问题的关键环节。面对数据搬运成本高、数据安全合规、跨云跨域数据流动难等挑战,信通院联合用户和产业单位共同启动数据流动标准研究工作,期望通过标准建设助力构建开放、互联互通的算力生态系统,推动算力的协同和整合,为我国数字经济发展和创新提供更大的助力。算力互联网快速发展,数据流动是支撑算力互联互通的关键能力。云和存储对接、多云数据流动需求迸发,促进分布式
8、存储向支撑上层多云数据管理方向演进。二、产业解析,纵观分布式存储产业进展(一)步入稳定增长阶段,筑稳非结构化数据底座分布式存储市场呈现稳健增长,软硬一体比重持续上升。2022年,经过中国信息通信研究院与分布式存储产业方阵的深入分析,中国的分布式存储市场规模预计为205亿元,年复合增长率达到15%,随着经济回暖,市场增速未来将持续保持增长。其中,软硬一体的存储解决方案占据了市场的91.3%,厂商如华为、新华三及曙光等纷纷推出相应的新产品,旨在满足Al大型模型和大数据湖等场景下的非结构化数据需求。分布式存储纯软件分布式存储一体机分布式存储整体一纯软件占比来源:IDC、中国信息通信研究院图12019
9、2022年分布式存储市场规模中东部数字经济发达,分布式存储发展强劲。从2022年各省新增分布式存储容量规模可以看出,我国分布式存储的发展与各区域数字经济发展呈正相关。区域集中度较高,北京、广东、上海、山东、江苏、浙江六省市作为数据生产大省,容量规模新增5.6EB,占全国新增一半以上。其中,北上广新增达3.9EB,约占全国新增容量规模的38%。东部、中部地区城市分布式存储发展势头强劲。区域规模柱图图例规模(PB)区域图例 4150150-200 200-500 500缺失值来臬IDG中国信息通信研究院图22022年中国各省市新增分布式存储容量随着各行业数字化转型的持续推进,应用规模持续增长。根据
10、2021年和2022年的数据对分布式存储在各行业的市场空间进行的观察,中国分布式存储市场的前五大应用行业为政府、电信、金融、教育和制造。2022年,这五大行业在市场中的份额已占据了69%,特别是在电信、金融、教育、传媒和交通等数字化进展较快的行业,其增长态势尤为显著。来源:IDC、中国信息通信研究院图3分布式存储垂直行业增长表现新兴场景应用已渐成规模,分布式存储典型应用场景规模逐步均衡。根据中国信息通信研究院和分布式存储产业方阵的市场调研及分析,分布式存储应用场景发展迅速,已经由过去典型的五个传统场景向更多的新兴应用场景发展。虚拟化/云计算、电子票据影像、医疗影像、非线性编辑、视频监控五个传统
11、应用场景正随着分布式存储技术创新应用稳步增长。同时随着非结构化高价值数据快速增长,非结构化数据分析、数据挖掘成为生产决策流程,Al大模型、高性能计算、大数据分析、海量数据备份归档、工业互联网等新兴场景应用已经逐渐成规模,并快速扩大应用。虚拟化/云计算视频监控高性能计算大数据分析医疗影像海量数据备份归档电子票据影像Al大模型非线性编辑工业互联网其他来源:IDC、中国信息通信研究院图4分布式存储典型应用场景(一)供需应用更加多元,上下游生态合作更加紧密2022年2月,分布式存储产业方阵联合产、学、研、用各界共同发起编制国内首个分布式存储产业生态图景,2022年6月,产业生态图景(VLO)完成编制工
12、作。2023年10月产业生态图景(V2.0)刷新,生态图景共有五个维度,自下而上分别是:关键部件、产品形态、服务类型、应用场景、应用行业,旨在为分布式存储产业链企业及最终用户提供清晰的分布式存储生态图景,梳理产业发展脉络,呈现不同领域的典型企业,展现分布式存储生态格局。从分布式存储全产业链发展的角度来看,无论是位于上游的IT基础设施提供商、存储关键部件提供商,还是面向客户和行业的解决方案提供商、系统集成商,在以分布式存储为核心的生态圈中均呈现规模增长。与此同时,不同企业在提供产品或服务时,基于各家战略定位、商业决策以及运营模式的差异化,最终面向市场用户的产品形态及服务类型呈现多元化态势。此外,
13、分布式存储的细分赛道发展及不同行业的实际落地情况是分布式存储产业生态成熟的标志,不同领域生态伙伴的密切合作将成为连接产业供需双方的重要纽带。B5S集W+三if M:?:“出*g Um工stti-TMypg11s :*/WaINOCA=Wl一三1KJ二金孽:U:UOIaPIUJXS#:*产:-ttMNH-U5,UdBnS::三Mn心li*llFHO,卷产:SS笑宾察言副n.J11三RTPrzlJD生务U史O二、SiIlaffia根谶Xxso11-H自X?!要,MmJ3wqvr.%Sw_MK-s,iRp:*卜.*SBS如於施更柒工SX-川*Ss欣:工UF6nsB*11BMUKWCQ-JJBIBUo
14、装备学X*4maS*舌&uxudQHDa.之*软:SH.S:3rXhfaTqg!三2sRu-ffl&i%hln5uUmn.1Jo*uo6ns:99讴DeItaLake等开放格式,具备数据仓的事务一致性,同时面对各种应用场景,具备对接大数据计算引擎,如:APaChe的SPark、FlinkPrestoHiVe等,实现对各种数据的访问,实现开放的数据访问。 存储与计算分离:存储和计算使用单独的集群,按需分别扩展,保证湖仓一体的整体系统能够支持更多的用户并发和更大的数据量,同时最大程度地利用资源,从而实现对大规模数据进行查询和高效分析。 支持多种工作负载:面向前端丰富的数据场景,需支持包括数据科学、
15、机器学习、流批处理以及SQL和分析的前端需求,通过同一数据存储,适配多种工具来支持这些工作负载。 Bl支持:支持直接在源数据上使用B工具,以提高数据新鲜度,减少等待时间,减少必须同时在数据湖和数据仓库中操作多个数据副本的存储成本。分布式存储优势及发展建议:湖仓一体技术推动数据湖、数仓场景基础设施走向融合,数据基础设施架构从应用为中心走向以数据为中心。在数据湖、数仓数据共享架构下,统一数据存储层、统一元数据层、缓存加速、统一计算调度等成为湖仓一体大数据架构的趋势。 统一数据存储层:在统一存储层,利用HDFS、S3协议实现对接,既能解决海量数据存储的扩展性问题,又能更好的支撑数仓对数据访问的需求,
16、适配已有的数据访问习惯,因此计算侧无需开发新的业务流程,减少对接适配。 统一元数据层:实现统一元数据信息管理,统一权限管控,支持计算热插拔,减少数据搬迁,保证数据时效性及一致性。对统一元数据的选择,目前国内较多的选择HUdi、cebergDeltaLake技术,围绕统一元数据技术,各厂商做了适配,未来一段时期,统一元数据技术将保持各自独立的发展。 缓存加速:湖仓一体的数据缓存层,为计算提供按需的数据缓存能力,减少数据访问的O,从而提升数据访问性能,在实践中,需要构建更细粒度的缓存策略,通过优化数据架构提升缓存命中率,以减少缓存资源的占用。统一计算调度:基于统一存储,构建离线数仓、融合数仓、实时
17、查询数仓、应用分析数仓计算生态,支撑多业务场景。(三)数字化病理通俗来讲,数字化病理是指通过扫描技术对病理数据进行数字化采集(将传统病理的物理切片转换成高分辨数字图像),医生通过数字化切片生成的信息进行病理诊断以及病理数据管理。海量的数字化病理图片数据快速存储访问为分布式存储带来了应用机会,随着国内各大医院数字化升级,这个应用场景的规模正快速增长。病理学诊断是疾病诊断的金标准。数字化技术的出现给病理科业务标准化带来了希望。一方面,将物理切片数字化,使得病理医生能够通过显示器阅片,同时也会打破会诊切片传输过程中的时空限制。另一方面,数字化将流程和记录工作无纸化,提高了病理科的运营效率。集成的数字
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分布式 存储 产业 方阵 发展 白皮书 2023

链接地址:https://www.desk33.com/p-1014207.html