网络管控大模型白皮书-6GANA.docx
《网络管控大模型白皮书-6GANA.docx》由会员分享,可在线阅读,更多相关《网络管控大模型白皮书-6GANA.docx(27页珍藏版)》请在课桌文档上搜索。
1、网络管控大惮自皮港NetworkManagemennControlFoundationalModels2023/12网络管控大模型网络管控大模型目录目录L引言12. 网络管控需求与挑战43. 通信网络引入大模型的必要性74. 网络多模态数据的时空表征大模型学习105. 网络知识与不完备意图精炼156. 知识表征共享的多任务目标网络管控决策187. 网络管控研究现状217.1 通信网络智能管控21(1)3GPP网络/管理效据分析功能(NWDAF/MDAF)21(2) ETSI体验式网络智能(ENl)22(3) TMF网络操作、管理和维护(OA&M)227.2 意图驱动网络管控23(1)意图飘动网
2、络23(2)管控策略生成24参考文献26缩略语30文档作者列表31网络管控大模型引言1.引言2023年9月20日在丹麦哥本哈根举办自智网络全球产业峰会,国际电信管理论坛TMForum与66家产业伙伴撰写的自智网络赋能数字化转型-从L2/L3向L4级自智演进白皮书5.0(简称自智网络白皮书)口。这标志着通信网络将拥有全生命周期的自动化和智能化运维能力,也就是说通信网络本身将能够实现“自服务、自愈合、自优化”的功能。通信人工智能的进一步应用将推动网络运维向主动式和预防式升级,加速实现电信运营商的数智化转型。目标是在2025年达到L4级高级别自智网络水平,这将为行业带来显著的变革和提升。2018年网
3、络顶级会议SIGCOMM举办了自动驾驶网络研讨会(SeIf-DrivingNetwork,SelfDN)121,对自动驾驶网络进行了全面的系统分析,并提出了相关的用例。除此之外,文献3,41详细讨论了如何将机器学习、数据驱动、软件定义网络等技术结合应用。通过智能化实现网络的自治管控,简称自智网络。通信国际标准组织TMF、ETSk3GPP也对自智网络的发展成熟度进行LeVel分级,大致都分为Ll到L5五个阶段。自智网络的发展无法一蹴而就,需循序渐进:首先是初步实现网络运维的自动化;接着是对网络环境和状态进行主动感知,并利用机器学习做出不断优化的决策;然后是从网络感知逐步向认知发展,认知用户意图,
4、构建闭环的认知学习网络;最终实现从感知、到认知再到预知的闭环自智网络,不断自我优化和演进9。这种渐进的发展路径将自治网络管理和优化逐渐提升到一个全新的水平,为网络架构和运维带来了前所未有的变革和发展机遇。云计算和人工智能作为构建未来网络智能管控生态系统的兽出,近年来受到学术界和产业界的广泛关注,综述文献可参见1r。然而,总体来看,目前的研究碱逋临着难以解决海母;特征多变的云网络管控需求的S&Ko由于云网络具有高度动态性、多层次性和强依赖性等特点,很难挖掘出云网络资源节点间潜在的关联特征。同时,缺乏对智能策略生成和行为验证的系统性考量,使得云网络故障管控面临着巨大的机遇和挑战,如图1所示。本文聚
5、焦云化核心网的自动化、智能化、意图化管控为目标,以故障修复为典型场景,研究新的云网络智能管控理论。不再局限于基于单个协议的封闭式分析优化,而是利用意图驱动、通信网络专属的机器学习模型,并以高级策略为目标,同时结合以底层组件的整体视图,实现“故障定位-策略生成-策略验证”的自智闭环。与传统智能运维中的辅助人工决策不同,本文基于时空表征学习,对网络运行状态进行知识推理和检测。这样的方法可以实现故障恢复和多任务管控策略的自动化生成与验证,支持通过迂回路由、资源编排等手段来保证业务带宽和网络性能。最终,根据学习结果自动处理修复故障,推进意图驱动的自智网络闭环。这种方法有望为云网络管理和故障处理带来创新
6、,利用机器学习和智能化技术,从而提高网络的稳定性和效率,实现更智能化和自主化的网络管控。图1意图驱动的多层云网络自智摩大模型具备强大的自然语言处理能力,在多个领域已经取得了显著成果。通信领域的大模型将能够充分利用其所蕴含的丰富语义知识,能够针对子邻域的特殊性进行领域适应,进一步提高网络管控能力。如图2所示,基于生成式、多轮网络管控大模型.吉对话、多模态的原生能力,通信领域大模型的能力集将涵盖方案生成、智能问答、数据自服务、多维解析、意图理解等多个方面,促生通信专家、专属多模态、高效意图引擎、缜密逻辑链、数字挛生等场景的应用。大模型原生能力通信领域大模型 能力集 mrat博大而精深的通信50识
7、MM日志/柘扑/码流/性能 ,陶EflB引簟自智网络流程串接 mom诊断分析与工具导航I 堂字李生实景规划仿真建模通信领域大模型生成I多轮对话I;多模态:图2通信领域大模型能力集网络管控大模型网络管控需求与挑战2 .网络管控需求与挑战在服务、计算、资源和管理高度融合的背景下,业界提出了一系列新技术,如服务计算、算为网络和通感算融合。其中,算力网络以网络为平台,连接多方、异构的算力资源,将算力从局部资源转变为全局资源。相对应的,云网络着重于以云为平台,从网络视角出发,强调资源的协作和调度,形成统一、敏捷、弹性的网络功能供给体系。这种思路向下基于多域云化资源,包含边缘云和核心云,支持资源的弹性分配
8、和资源;向上提供网络云化服务,例如5G虚拟专网和切片,实现云网络业务的统一交付。云网络是云和网络相互融合的产物,网络因云的出现而发生了变革,具备了云的特性,未来的网络有着演进成为云网络的趋势。随着容器、微服务、DevOps等云原生技术的引入,轻量级虚拟化技术逐渐普及,云网络正朝着CIoUdNative的方向发展。这种发展趋势致力于满足云原生服务中网络节点和服务间互通性、负载均衡的要求,以及不同云网络间的互联能力。同时,它还向边缘延伸、更好地支撑物联网设备上云地需求,即万物上云。随着云网络功能的细化和逻辑复杂化,其可靠性和稳定性变得尤为关键。在云网络智能管控方面,确实面临着巨大夕防鬼近期的Art
9、ificialIntelligenceforITOperations(AlOps)研究9通过从多个数据源(例如服务器、传感器等)采集大量数据(例如运行曰志、系统数据、业务数据等),进一步抽象出系统或业务的关键性能指标(KPI)(例如CPU利用率、业务办理成功率等),或者根据数据之间的内部联系建立拓扑图。然后,基于原始日志数据和提取的KPI数据,AlOps能够判断当前系统是否出现故障,并在一定程度上定位故障的原因,例如服务级另IKIo)和虚拟机级别)的工作。除了构建智能模型哪砧戈,AlOPS的重点在于增强人类的故障恢复处理能力,但它还不能自动化地完成故障自愈。云网络具有虚拟化、多服务、多租户、弹
10、性服务、集中控制等特点(1,管控网络管梓需求与挑战系统的设计需要解决云网络中产生的新问题,并在此基础上进行管理决策。不同于传统网络,设计面向L4/L5级云网络的智能管控系统需要克服如下挑战:(1)如何处理海异构的高动态时空数据,保证系统的时效性?云网络流量巨大、配置复杂、设备资源异构,例如一个复杂的云网络业务链路动辄涉及数百个微服务,一旦出现故障,需要运维工程师尽快发现并解决问题。因此,云网络管控系统需要利用灵活的数据特征提取与精准关联特征挖掘,基于底层调用分析和容器资源监控建立网络关键指标的可靠关联关系,进行故障根因的快速定位,克服云网络高动态环境下海量异构时空数据带来的处理和计算压力。(2
11、)如何适配云网络功能的多层次性,提高多管控任务的通用性?云网络具有多层独立视图和多管控任务并发性,通过多层虚拟机/容器/微服务调用链等的OVerlay技术构建专属网络平面,并进行灵活的按需调度,上下层之间以不同资源粒度交互关联。传统管控以单独一层的视角,并没有将故障传播过程当作整体进行建模,目管控任务割裂。因此,有必要在数据采集、处理乃至管控任务方面统一规划、部署和移植,实现经验知识在具体管控任务之间有效传递。(3)如何适应云网络配置间的强依颇性,实现管控系统的适变性?SDN和NFV技术赋予了云网络的弹性特性,SDN配置的频繁改动以及业务需求的更换都会带来网络模型的变化。云网络众多功能模块的关
12、联多,共享环境中配置之间具有强依赖性,这意味着云网络的行为模式和业务特征是相当不可预测和复杂的。管控系统需要具有跨域能力和全局视角,持续的模型更新和在线学习,能够适应动态扩缩容的云网络环境,这对管控系统提出可扩展性和可适变性要求。(4)如何实现意图操作精炼与管控策略建模,提高云网络的易用性?用户期望用接近自然语言描述对网络的意图,但通常是抽象的高层次策略,例如“专线会议有马赛克,处理一下”,需要对意图进行转译解析,拆分成不同的网络任6GANATG55网络管梓需求与挑战务执行.精炼(Refinement)为低层次策略,最后转化为网络应执行的一系列操作,极大的简化了用户对云网络运维的复杂度。涉及跨
13、抽象层的策略建模,作为意图精炼和策略生成的参考信息,还需要保证与现有策略的一致性和兼容性。(5)如何保证自动化系统的稳定性,增强云网络策略下发的可靠性?自智网络应自动化地获取分析数据、学习知识、做出判断、管理资源、优化运行策略等,但一条错误下发的策略会严重危害网络可靠性。为避免网络安全隐患基至网络瘫痪,策略应在下发前进行严格验证。传统依靠手工判断策略可行性的方法冗杂、缓慢,已不适用,需要设计行而有效的策略验证方法,用以应对庞大且实时更新的云网络,从而实现网络自检测、自优化、自管理,即成为可靠的自智网络。3 .通信网络引入大模型的必要性针对网络的复杂性、异构性和对可靠性的需求,RyanW.Tho
14、mas教授等人提出并定义了认知网络121,旨在创造能够感知和理解网络环境,并做出相应决策的智能网络。然而,Mestres等人(13)的观点指出,尽管追求网络自动化和智能化的概念已经存在很久,但由于网络作为分布式系统的本质特点,机器学习等技术在网络控制与管理方面面临一些挑战。在网络控制与管理中,存在一些固有的限制导致信息获取局限于特定局部范围。这种局部性会导致算法学习的复杂性增加,限制了在实践层面将相关技术应用到网络管理中。换句话说,尽管理论上我们期望网络能够智能地感知、决策和行动,但实际应用中,由于信息获取的局部性,使得智能算法在学习和适应方面变得更为复杂。这种情况导致了网络管理研究更多停留在
15、理论层面,难以实现在实际网络环境中的高度智能化和自动化。这也可能意味着需要更多的创新来克服网络分布式特性对算法学习的限制,以更好地应用机器学习等技术来提升网络管理的智能化水平。随着深度学习、深度强化学习(DeePReinforcementLearning,DRL)方法应用到网络智能化领域,诸多任务均需要对网络相关的高维度数据进行有效表征。2020年12月,诺基亚贝尔实验室与德国慕尼黑大学的学者在IEEENetWork发表的论文指出114),非常有必要通过学习获得网络状态通用、一致的抽象描述,以便为特定情境提供合适的策略。面对目前云网络智能管控的困境迫切需要更为通立表征模型并优化云网络资源管控任
16、务,以维持网络的动态特性所需要的可靠且智能的管控机制。利用深度强化学习进行边缘节点能量管理时,中山大学陈旭教授团队(15)考虑了节点拓扑、移N流量、基站休眠等网络环境状态,设计了基于卷积与时序神经网络的表征网络GSTTN以提取流量特征。车联网拓扑结构与资源需求等随时间频繁变化,状态空间表征输入则包括节点拓扑、任务数据量等,用的网络表征学习方法,以从海的网维中抽取隐含的关联特征和规则,建涌信网络引入大模型的必要忤并通过对计算、缓存和频谱资源建模,对动作空间进行表征116。此外,信道增益和节点主频等,也可输入全连接深度神经网络进行表征学习171。考虑到网络数据具有不同类别的属性,研究者们已探索了很
17、多多模态联合表征的方法,2019年SIGC0MM发表重要工作Deeima(18),使用图神经网络对任务调度环境进行了丰富有效的表征,输出三种向量:单节点表征捕捉从节点关键路径的汇总信息,单计算任务表征提取有向无环图信息,最后全局表征则将所有任务嵌入的信息合并成整个集群级的摘要表示。节点拓扑连接、计算资源、网络流量、业务属性等是网络智能管控的通用特征来源。网络管控任务以竖井型的方式孤立地进行训练与部署,多次重复进行上述通用特征提取,对网络资源与数据造成巨大浪费。诺基亚贝尔实验室的StePhenS-Mxvanje学者团队19提出认知自主网络,利用自适应认知函数,从配置、性能、故障、业务等多个数据源
18、抽象网络状态,为切换控制、拥塞管理等管控任务提供一致的表征。然而,云网络管控涉及任务众多,目前尚无基于时空表征学习对云网络统一的智能管控方法。而且,云网络弹性资源高动态变化、加虚拟网络多层次关联,众多模块配置彼此强依赖性。传统“集成服务”的方式必然带来云网络资源与管控效果上的挑战。为此,亟待基于时空表征学习对云网络管控理论进行专项研究。在现有表征学习理论基础上,探索多模态数据特征互补、知识表征共享以及多目标任务的超图构建等方式,发现数据、场景与任务策略相关的内在映射机理与规律,解决技术瓶颈背后的核心科学问题。意图翻译技术正朝着标准化迈进。互联网工程任务组(IETF)的简化策略抽象(SUPA)小
19、组在2018年以其RFC8328I20架构设立了基调,为未来与意图相关的网络支持奠定了基础。同时,TMF的分析网络过程(ANP)项目发布了IG1253(211,定义了意图并详细说明了使用资源描述框架模式(RDFS)将自然语言转换为形式86GANATG5化意图的翻译过程。3GPP的SA5进一步贡献了TS28.3121221,为移动网络中基于意图的管理建立了框架。对于意图翻译来满足复杂网络需求,持续不断的完善是必要的。意图策略多阶段翻译是一个关键的进展,根据策略连续体进行意图策略翻译,并结合外部知识图谱。ETSIGSENI033123)在这一领域是一份重要文件,增强了意图策略翻译,并描述了在整个过
20、程中每个阶段的过程、输入、输出和相互作用。ETSIGSENl-O341破供了有关策略本地冲突检测的附加信息。这份GS扩展了GSENlO05第63963条款的工作,以提供额外的要求和程序,以确保新策略不会与同一管理域中当前部署的任何策略发生冲突。网络管控大模型网络多模态数据的时空表诲犬型率为4 .网络多模态数据的时空表征大模型学习探索云网络中高动态异构时空数据的处理方法,抽取多层次节点空间拓扑关系信息,关注云网络关键指标的时序数据。研究云网络节点调用链、日志、性能指标等多模态信息融合理论,探索使用超图的方法对不同层级、不同模态的云网络状态信息进行融合并统一表示,提取云网络的时空特征,学习动态异构
21、图的嵌入表征,识别云网络节点的动态时序指标与拓扑连接的复杂关系。目前智能管控方案中涉及了部分网络指标数据与流量数据信息的表征,但缺少对云节点的连接关系与虚拟资源状态的高度动态性的感知,同时,有待研究如何将文本数据与上述各类数据进行联合表征,以全面抽象网络的基础特征。本文同时考虑云网络的时空特征,对网络特征的时序关键指标集合进行时空编码,提取动态网络资源随时间变化的特征,再利用图卷积神经网络与门控卷积神经网络构建时空联合表征模型。实际网络中,流量数据、文本数据的样本与时空表征的网络指标数据无法对应,难以直接与进行特征融合。由此,采用多模态表征学习,将网络指标数据、流数据与文本数据的多模态信息统一
22、到同一特征空间,利用模态之间的互木M4,应对样本中某些模态数据的缺失问题,弥补不同模态数据之间的语义鸿沟。首先,设计时空编码模型,提取网络拓扑与资源KPl之间的融合特征。将网络拓扑连接定义为图G=(V,E),其中,V表示算力节点集合,E为边的集合,表示云网络节点的链路带宽与时延。由此,可定义云网络节点资源的多层次KPI指标,且每个指标可进步扩展为张量。令X;(t;)表示节点i在t;时刻的关键指标值,则X(t;)=xi(t;),X2(t;),x(t)表示网络中所有节点在t;时刻的关键指标值。基于KPl指标的时序信息及节点拓扑连接关系,可建立网络状态低维度表征,递归神经网络被广泛用于时间序列的异常
23、检测,但云网络的表征模型需要捕捉多层次KPl序列的特征。门控卷积网络的主要结构与卷积网络相似,通过在卷积操作中加入门控机制从而捕获长期记忆。拟采用基于门控卷积神经网络1251对每个时间序列进行编码,如图3所示,门控卷积网络由一个因果卷积网络和经过SigmOid激活因数计算的卷积网络组成。对于图G中滑动窗口为L的KPI时序数据构成的输入XRn*m*L,门控卷积网络可表示为h(x)=(XW+b)O(XV+c)(1)其中,11是云网络节点数量,m是特征维度,L是滑动窗口的长度,表示Sigmoid激活函数,为哈达玛乘积,W与V为权重矩阵,b和C为偏置。通过堆积门控组件,模型可以保留并传递多个时间维度依
24、赖信息。l-*OAOo(B)(C)门控卷积图3云网络时空卷积的编5转型第二,由图卷积神经网络提取云网络的节点拓扑特征。基于谱图论,云网络拓扑图G的空间特征可由拉普拉斯矩阵表示为L=D-Ao其中A表示邻接矩阵,D表示由节点度构成的对角矩阵。拉普拉斯矩阵的特征值分解为L=UAU其中A=diag(A,入2,n)表示由n个特征值组成的对角矩阵,U=(Ul,u2,L,un)是由单位特征向量组成的矩阵。I;时刻n维度向量f=X的傅立叶变换为f=uf逆变换为f=uf。图卷积运算由傅里叶域中的线性算子替代经典卷积算子126,以h为卷积核,图卷积则表示为fch=U(U,hOU,f)=Udiag(h(1),L,h
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 管控大 模型 白皮书 GANA
链接地址:https://www.desk33.com/p-1126333.html