网络管控大模型白皮书-6GANA.docx
网络管控大惮自皮港NetworkManagemennControlFoundationalModels2023/12网络管控大模型网络管控大模型目录目录L引言12. 网络管控需求与挑战43. 通信网络引入大模型的必要性74. 网络多模态数据的时空表征大模型学习105. 网络知识与不完备意图精炼156. 知识表征共享的多任务目标网络管控决策187. 网络管控研究现状217.1 通信网络智能管控21(1)3GPP网络/管理效据分析功能(NWDAF/MDAF)21(2) ETSI体验式网络智能(ENl)22(3) TMF网络操作、管理和维护(OA&M)227.2 意图驱动网络管控23(1)意图飘动网络23(2)管控策略生成24参考文献26缩略语30文档作者列表31网络管控大模型引言1.引言2023年9月20日在丹麦哥本哈根举办自智网络全球产业峰会,国际电信管理论坛TMForum与66家产业伙伴撰写的自智网络赋能数字化转型-从L2/L3向L4级自智演进白皮书5.0(简称自智网络白皮书)口。这标志着通信网络将拥有全生命周期的自动化和智能化运维能力,也就是说通信网络本身将能够实现“自服务、自愈合、自优化”的功能。通信人工智能的进一步应用将推动网络运维向主动式和预防式升级,加速实现电信运营商的数智化转型。目标是在2025年达到L4级高级别自智网络水平,这将为行业带来显著的变革和提升。2018年网络顶级会议SIGCOMM举办了自动驾驶网络研讨会(SeIf-DrivingNetwork,SelfDN)121,对自动驾驶网络进行了全面的系统分析,并提出了相关的用例。除此之外,文献3,41详细讨论了如何将机器学习、数据驱动、软件定义网络等技术结合应用。通过智能化实现网络的自治管控,简称自智网络。通信国际标准组织TMF、ETSk3GPP也对自智网络的发展成熟度进行LeVel分级,大致都分为Ll到L5五个阶段。自智网络的发展无法一蹴而就,需循序渐进:首先是初步实现网络运维的自动化;接着是对网络环境和状态进行主动感知,并利用机器学习做出不断优化的决策;然后是从网络感知逐步向认知发展,认知用户意图,构建闭环的认知学习网络;最终实现从感知、到认知再到预知的闭环自智网络,不断自我优化和演进9。这种渐进的发展路径将自治网络管理和优化逐渐提升到一个全新的水平,为网络架构和运维带来了前所未有的变革和发展机遇。云计算和人工智能作为构建未来网络智能管控生态系统的兽出,近年来受到学术界和产业界的广泛关注,综述文献可参见1r。然而,总体来看,目前的研究碱逋临着难以解决海母;特征多变的云网络管控需求的S&Ko由于云网络具有高度动态性、多层次性和强依赖性等特点,很难挖掘出云网络资源节点间潜在的关联特征。同时,缺乏对智能策略生成和行为验证的系统性考量,使得云网络故障管控面临着巨大的机遇和挑战,如图1所示。本文聚焦云化核心网的自动化、智能化、意图化管控为目标,以故障修复为典型场景,研究新的云网络智能管控理论。不再局限于基于单个协议的封闭式分析优化,而是利用意图驱动、通信网络专属的机器学习模型,并以高级策略为目标,同时结合以底层组件的整体视图,实现“故障定位-策略生成-策略验证”的自智闭环。与传统智能运维中的辅助人工决策不同,本文基于时空表征学习,对网络运行状态进行知识推理和检测。这样的方法可以实现故障恢复和多任务管控策略的自动化生成与验证,支持通过迂回路由、资源编排等手段来保证业务带宽和网络性能。最终,根据学习结果自动处理修复故障,推进意图驱动的自智网络闭环。这种方法有望为云网络管理和故障处理带来创新,利用机器学习和智能化技术,从而提高网络的稳定性和效率,实现更智能化和自主化的网络管控。图1意图驱动的多层云网络自智摩大模型具备强大的自然语言处理能力,在多个领域已经取得了显著成果。通信领域的大模型将能够充分利用其所蕴含的丰富语义知识,能够针对子邻域的特殊性进行领域适应,进一步提高网络管控能力。如图2所示,基于生成式、多轮网络管控大模型.吉对话、多模态的原生能力,通信领域大模型的能力集将涵盖方案生成、智能问答、数据自服务、多维解析、意图理解等多个方面,促生通信专家、专属多模态、高效意图引擎、缜密逻辑链、数字挛生等场景的应用。大模型原生能力通信领域大模型 能力集 mrat博大而精深的通信50识 MM½日志/柘扑/码流/性能 ,陶EflB引簟自智网络流程串接 mom诊断分析与工具导航I 堂字李生实景规划仿真建模通信领域大模型生成I多轮对话I;多模态:图2通信领域大模型能力集网络管控大模型网络管控需求与挑战2 .网络管控需求与挑战在服务、计算、资源和管理高度融合的背景下,业界提出了一系列新技术,如服务计算、算为网络和通感算融合。其中,算力网络以网络为平台,连接多方、异构的算力资源,将算力从局部资源转变为全局资源。相对应的,云网络着重于以云为平台,从网络视角出发,强调资源的协作和调度,形成统一、敏捷、弹性的网络功能供给体系。这种思路向下基于多域云化资源,包含边缘云和核心云,支持资源的弹性分配和资源;向上提供网络云化服务,例如5G虚拟专网和切片,实现云网络业务的统一交付。云网络是云和网络相互融合的产物,网络因云的出现而发生了变革,具备了云的特性,未来的网络有着演进成为云网络的趋势。随着容器、微服务、DevOps等云原生技术的引入,轻量级虚拟化技术逐渐普及,云网络正朝着CIoUdNative的方向发展。这种发展趋势致力于满足云原生服务中网络节点和服务间互通性、负载均衡的要求,以及不同云网络间的互联能力。同时,它还向边缘延伸、更好地支撑物联网设备上云地需求,即万物上云。随着云网络功能的细化和逻辑复杂化,其可靠性和稳定性变得尤为关键。在云网络智能管控方面,确实面临着巨大夕防鬼近期的ArtificialIntelligenceforITOperations(AlOps)研究9通过从多个数据源(例如服务器、传感器等)采集大量数据(例如运行曰志、系统数据、业务数据等),进一步抽象出系统或业务的关键性能指标(KPI)(例如CPU利用率、业务办理成功率等),或者根据数据之间的内部联系建立拓扑图。然后,基于原始日志数据和提取的KPI数据,AlOps能够判断当前系统是否出现故障,并在一定程度上定位故障的原因,例如服务级另IKIo)和虚拟机级别)的工作。除了构建智能模型哪砧戈,AlOPS的重点在于增强人类的故障恢复处理能力,但它还不能自动化地完成故障自愈。云网络具有虚拟化、多服务、多租户、弹性服务、集中控制等特点(1,管控网络管梓需求与挑战系统的设计需要解决云网络中产生的新问题,并在此基础上进行管理决策。不同于传统网络,设计面向L4/L5级云网络的智能管控系统需要克服如下挑战:(1)如何处理海异构的高动态时空数据,保证系统的时效性?云网络流量巨大、配置复杂、设备资源异构,例如一个复杂的云网络业务链路动辄涉及数百个微服务,一旦出现故障,需要运维工程师尽快发现并解决问题。因此,云网络管控系统需要利用灵活的数据特征提取与精准关联特征挖掘,基于底层调用分析和容器资源监控建立网络关键指标的可靠关联关系,进行故障根因的快速定位,克服云网络高动态环境下海量异构时空数据带来的处理和计算压力。(2)如何适配云网络功能的多层次性,提高多管控任务的通用性?云网络具有多层独立视图和多管控任务并发性,通过多层虚拟机/容器/微服务调用链等的OVerlay技术构建专属网络平面,并进行灵活的按需调度,上下层之间以不同资源粒度交互关联。传统管控以单独一层的视角,并没有将故障传播过程当作整体进行建模,目管控任务割裂。因此,有必要在数据采集、处理乃至管控任务方面统一规划、部署和移植,实现经验知识在具体管控任务之间有效传递。(3)如何适应云网络配置间的强依颇性,实现管控系统的适变性?SDN和NFV技术赋予了云网络的弹性特性,SDN配置的频繁改动以及业务需求的更换都会带来网络模型的变化。云网络众多功能模块的关联多,共享环境中配置之间具有强依赖性,这意味着云网络的行为模式和业务特征是相当不可预测和复杂的。管控系统需要具有跨域能力和全局视角,持续的模型更新和在线学习,能够适应动态扩缩容的云网络环境,这对管控系统提出可扩展性和可适变性要求。(4)如何实现意图操作精炼与管控策略建模,提高云网络的易用性?用户期望用接近自然语言描述对网络的意图,但通常是抽象的高层次策略,例如“专线会议有马赛克,处理一下”,需要对意图进行转译解析,拆分成不同的网络任6GANATG55网络管梓需求与挑战务执行.精炼(Refinement)为低层次策略,最后转化为网络应执行的一系列操作,极大的简化了用户对云网络运维的复杂度。涉及跨抽象层的策略建模,作为意图精炼和策略生成的参考信息,还需要保证与现有策略的一致性和兼容性。(5)如何保证自动化系统的稳定性,增强云网络策略下发的可靠性?自智网络应自动化地获取分析数据、学习知识、做出判断、管理资源、优化运行策略等,但一条错误下发的策略会严重危害网络可靠性。为避免网络安全隐患基至网络瘫痪,策略应在下发前进行严格验证。传统依靠手工判断策略可行性的方法冗杂、缓慢,已不适用,需要设计行而有效的策略验证方法,用以应对庞大且实时更新的云网络,从而实现网络自检测、自优化、自管理,即成为可靠的自智网络。3 .通信网络引入大模型的必要性针对网络的复杂性、异构性和对可靠性的需求,RyanW.Thomas教授等人提出并定义了认知网络121,旨在创造能够感知和理解网络环境,并做出相应决策的智能网络。然而,Mestres等人(13)的观点指出,尽管追求网络自动化和智能化的概念已经存在很久,但由于网络作为分布式系统的本质特点,机器学习等技术在网络控制与管理方面面临一些挑战。在网络控制与管理中,存在一些固有的限制导致信息获取局限于特定局部范围。这种局部性会导致算法学习的复杂性增加,限制了在实践层面将相关技术应用到网络管理中。换句话说,尽管理论上我们期望网络能够智能地感知、决策和行动,但实际应用中,由于信息获取的局部性,使得智能算法在学习和适应方面变得更为复杂。这种情况导致了网络管理研究更多停留在理论层面,难以实现在实际网络环境中的高度智能化和自动化。这也可能意味着需要更多的创新来克服网络分布式特性对算法学习的限制,以更好地应用机器学习等技术来提升网络管理的智能化水平。随着深度学习、深度强化学习(DeePReinforcementLearning,DRL)方法应用到网络智能化领域,诸多任务均需要对网络相关的高维度数据进行有效表征。2020年12月,诺基亚贝尔实验室与德国慕尼黑大学的学者在IEEENetWork发表的论文指出114),非常有必要通过学习获得网络状态通用、一致的抽象描述,以便为特定情境提供合适的策略。面对目前云网络智能管控的困境迫切需要更为通立表征模型并优化云网络资源管控任务,以维持网络的动态特性所需要的可靠且智能的管控机制。利用深度强化学习进行边缘节点能量管理时,中山大学陈旭教授团队(15)考虑了节点拓扑、移N流量、基站休眠等网络环境状态,设计了基于卷积与时序神经网络的表征网络GSTTN以提取流量特征。车联网拓扑结构与资源需求等随时间频繁变化,状态空间表征输入则包括节点拓扑、任务数据量等,用的网络表征学习方法,以从海的网维中抽取隐含的关联特征和规则,建涌信网络引入大模型的必要忤并通过对计算、缓存和频谱资源建模,对动作空间进行表征116。此外,信道增益和节点主频等,也可输入全连接深度神经网络进行表征学习171。考虑到网络数据具有不同类别的属性,研究者们已探索了很多多模态联合表征的方法,2019年SIGC0MM发表重要工作Deeima(18),使用图神经网络对任务调度环境进行了丰富有效的表征,输出三种向量:单节点表征捕捉从节点关键路径的汇总信息,单计算任务表征提取有向无环图信息,最后全局表征则将所有任务嵌入的信息合并成整个集群级的摘要表示。节点拓扑连接、计算资源、网络流量、业务属性等是网络智能管控的通用特征来源。网络管控任务以竖井型的方式孤立地进行训练与部署,多次重复进行上述通用特征提取,对网络资源与数据造成巨大浪费。诺基亚贝尔实验室的StePhenS-Mxvanje学者团队19提出认知自主网络,利用自适应认知函数,从配置、性能、故障、业务等多个数据源抽象网络状态,为切换控制、拥塞管理等管控任务提供一致的表征。然而,云网络管控涉及任务众多,目前尚无基于时空表征学习对云网络统一的智能管控方法。而且,云网络弹性资源高动态变化、加虚拟网络多层次关联,众多模块配置彼此强依赖性。传统“集成服务”的方式必然带来云网络资源与管控效果上的挑战。为此,亟待基于时空表征学习对云网络管控理论进行专项研究。在现有表征学习理论基础上,探索多模态数据特征互补、知识表征共享以及多目标任务的超图构建等方式,发现数据、场景与任务策略相关的内在映射机理与规律,解决技术瓶颈背后的核心科学问题。意图翻译技术正朝着标准化迈进。互联网工程任务组(IETF)的简化策略抽象(SUPA)小组在2018年以其RFC8328I20架构设立了基调,为未来与意图相关的网络支持奠定了基础。同时,TMF的分析网络过程(ANP)项目发布了IG1253(211,定义了意图并详细说明了使用资源描述框架模式(RDFS)将自然语言转换为形式86GANATG5化意图的翻译过程。3GPP的SA5进一步贡献了TS28.3121221,为移动网络中基于意图的管理建立了框架。对于意图翻译来满足复杂网络需求,持续不断的完善是必要的。意图策略多阶段翻译是一个关键的进展,根据策略连续体进行意图策略翻译,并结合外部知识图谱。ETSIGSENI033123)在这一领域是一份重要文件,增强了意图策略翻译,并描述了在整个过程中每个阶段的过程、输入、输出和相互作用。ETSIGSENl-O341破供了有关策略本地冲突检测的附加信息。这份GS扩展了GSENlO05第63963条款的工作,以提供额外的要求和程序,以确保新策略不会与同一管理域中当前部署的任何策略发生冲突。网络管控大模型网络多模态数据的时空表诲犬型率为4 .网络多模态数据的时空表征大模型学习探索云网络中高动态异构时空数据的处理方法,抽取多层次节点空间拓扑关系信息,关注云网络关键指标的时序数据。研究云网络节点调用链、日志、性能指标等多模态信息融合理论,探索使用超图的方法对不同层级、不同模态的云网络状态信息进行融合并统一表示,提取云网络的时空特征,学习动态异构图的嵌入表征,识别云网络节点的动态时序指标与拓扑连接的复杂关系。目前智能管控方案中涉及了部分网络指标数据与流量数据信息的表征,但缺少对云节点的连接关系与虚拟资源状态的高度动态性的感知,同时,有待研究如何将文本数据与上述各类数据进行联合表征,以全面抽象网络的基础特征。本文同时考虑云网络的时空特征,对网络特征的时序关键指标集合进行时空编码,提取动态网络资源随时间变化的特征,再利用图卷积神经网络与门控卷积神经网络构建时空联合表征模型。实际网络中,流量数据、文本数据的样本与时空表征的网络指标数据无法对应,难以直接与进行特征融合。由此,采用多模态表征学习,将网络指标数据、流数据与文本数据的多模态信息统一到同一特征空间,利用模态之间的互木M4,应对样本中某些模态数据的缺失问题,弥补不同模态数据之间的语义鸿沟。首先,设计时空编码模型,提取网络拓扑与资源KPl之间的融合特征。将网络拓扑连接定义为图G=(V,E),其中,V表示算力节点集合,E为边的集合,表示云网络节点的链路带宽与时延。由此,可定义云网络节点资源的多层次KPI指标,且每个指标可进步扩展为张量。令X;(t;)表示节点i在t;时刻的关键指标值,则X(t;)=xi(t;),X2(t;),x(t)表示网络中所有节点在t;时刻的关键指标值。基于KPl指标的时序信息及节点拓扑连接关系,可建立网络状态低维度表征,递归神经网络被广泛用于时间序列的异常检测,但云网络的表征模型需要捕捉多层次KPl序列的特征。门控卷积网络的主要结构与卷积网络相似,通过在卷积操作中加入门控机制从而捕获长期记忆。拟采用基于门控卷积神经网络1251对每个时间序列进行编码,如图3所示,门控卷积网络由一个因果卷积网络和经过SigmOid激活因数计算的卷积网络组成。对于图G中滑动窗口为L的KPI时序数据构成的输入XRn*m*L,门控卷积网络可表示为h(x)=(XW+b)O(XV+c)(1)其中,11是云网络节点数量,m是特征维度,L是滑动窗口的长度,表示Sigmoid激活函数,为哈达玛乘积,W与V为权重矩阵,b和C为偏置。通过堆积门控组件,模型可以保留并传递多个时间维度依赖信息。l-*OAOo(B)(C)门控卷积图3云网络时空卷积的编5转型第二,由图卷积神经网络提取云网络的节点拓扑特征。基于谱图论,云网络拓扑图G的空间特征可由拉普拉斯矩阵表示为L=D-Ao其中A表示邻接矩阵,D表示由节点度构成的对角矩阵。拉普拉斯矩阵的特征值分解为L=UAU其中A=diag(A,入2,n)表示由n个特征值组成的对角矩阵,U=(Ul,u2,L,un)是由单位特征向量组成的矩阵。I;时刻n维度向量f=X的傅立叶变换为f=uf逆变换为f=uf。图卷积运算由傅里叶域中的线性算子替代经典卷积算子126,以h为卷积核,图卷积则表示为fch=U(U,hOU,f)=Udiag(h(1),L,h(an)u,f(2)由于矩阵乘积在大规模图运算具有较高计算复杂度,拟使用切比雪夫多项式递归计算卷积核,贝岫=2X=P6T(UAU,),f三2=BTM其中3产;为切比雪夫多项式的系数。图卷积运算后,每个节点通过与其连接的O-(K-I)个邻居的值进行更新。其中,采用超图(HyPergraPh)对云网络及其承载的多层叠加网络进行建模。随着云网络虚拟化的不断演进,云网络管控粒度的不断细化,各个层级的云网络业务应用、网络虚拟资源和网络物理节点与连接的关系也变得更加复杂。使用超图的建模方法,可以将不同层级、不同模态的网络状态信息进行融合并统一表示。如图3(d)所示,例如网络路径信息和不同节点上部署的网络功能这两种模态的信息,可以使用超图进行建模。一旦超图构建完成,还可以灵活的从超图中提取不同的子图,以针对不同的网络管理任务提供基础的图结构信息。超图G可表示为G(V,E),其中V=w,vn表示超图中的n个节点集合,E=E1,Em)表示超图中的m条超边集合,Ea表示超边a是一个无序节点集合。|巳I为超边a的尺寸,即集合中点的个数。当任意超边a均符合IEal=2时,则超图退化为普通图。超图的关联矩阵H定义如下:a-三IJ:oierSse®超图的邻三矩阵A可定义为A4W,其中Aj表示节点i和j共享超边的数量。同时可以定速边矩阵C为C=HTH其中Cag表示超边雨超边联有的节点数量,超图可以通过团式或者星式展开的方法转化为普通的成对图。第三,网络指标数据与流量类型等流量数据以及日志、告警与配置等文本数据的联合表征,对于网络智能控制与运维等十分重要。流量数据与文本数据的样本与时空表征的指标数据无法一一对应,难以直接进行特征融合。拟采用Transfonner模型271的掩码匹配方法学习时空表征、流量数据与文本数据的上下文跨模态联合表示,如图4所示,应对样本中某些模态数据的缺失问题。图4多模态时空特征联合表征学习具体输入如下:网络指标数据由时空表征编码模型获得具有拓扑语义信息的KPl向量P=匕,Pn;将日志或告警的句子表示为词向量集合,则文本嵌入为D=d,dn);流量数据中流量与业务的数值信息可通过全连接神经网络提取特征R=R1,Rw),将其嵌入表示为r;=W,R1+Wpo参考自然语言处理的BERT掩蔽语言建模过程,学习多模态数据的依赖关系。拟将部分的数据元素输入以一定概率分别替换为特殊MASK标记和随机标记。模型输出时则通过TranSfOrmer模块计算隐藏状态被投影到各元素可能性,其中以分类问题的形式预测被掩码标记。设计编码器自注意机制计算如下,A为1层的注意力参数:即=SOftlnaX(f)Vt(4)其中,v=WM-l,Q=M"HkWkH-I,H为1-1层输出,W、用w)均为注意力参数。解码器则同样利用注意力机制将编码器中生成的联合特征映射到同一平面。经过编码器-解码器结构后针对不同的管控任务,将联合特征通过其他深度神经网络结构进行重构,由此加强了不同模态间数据的联系,可完成多场景下云网络资源的智能管控任务。网络管控大模型网络知识与不完备意图精炼5 .网络知识与不完备意图精炼构建全程依赖的网络大模型,支持根据网络故障调整管控意图,建立基于“不完备意图-声明性策略-确定性策略-命令性策略”的精炼流程。根据策略分解关系生成策略树,确定策略顺序。用户意图输入的模糊性和不完整性将引入意图的不完备性,本文通过基础表征共享满足多管控任务目标,利用全程依赖的网络知识弥补用户意图的不完备性,并通过意图逐层精炼(Refinement)转化为低级别可执行操作。提出云网络管控意图精炼通用工作流,将意图由高层次到低层次逐步精炼为“不完备意图-声明性策略-确定性策略-命令性策略”,构建全程依赖的网络知识库,作为意图精炼过程的参考。定义统一策略模型表示各层次、各类型的策略,支撑策略间的关系分析,构建基于自然语言理解的意图转译模型,提出策略分解方法并生成策略树,直至分解到可供设备执行的若干命令性策略,最终执行增量更新。定义适应于不同抽象级别的分级策略表示,由高至低分别为“不完备意图-声明性策略-确定性策略-命令性策略”。作为策略生成框架的核心支撑,全程依赖的网络知识库由网络本体知识、网络监控数据、策略存储库三部分组成。这一抽象知识的形成,可分为如下三步:(1)解析并理解专有领域的自然语言意图强烈依赖于领域知识,基于专家经验和技术手册构建网络本体知识,明确领域术语和服务,可有效提高解析准确性和完整性,解决不完备性难题。(2)意图精炼过程受多种信息约束,利用定义的监控器从网络环境中采集维护事件和遥测数据,包含网络指标数据、流量数据与文本数据类型,经过处理的网络监控数据分为两部分:状态信息包括时间信息(服务起始时间、持续时间)和空间信息(网络拓扑网络管控大模型网络知识与不完备意图精炼图、流表、接口状态),资源信息包括物理资源和虚拟资源。(3)为给后续的意图精炼过程提供参考,还需维护一个策略存储库,包括不同抽象级别的策略。聚焦于输入意图的不完备性和增量更新难题,拟提出逐抽象级别精炼的管控策略生成框架。构建网络知识库、策略信息模型、策略关系模型作为底层支撑,四级策略表示逐级精炼,层层推进。不完备意图基于自然语言理解方法解析,对解析结果执行完整性和一致性分析得到声明性策略;分解声明性策略并检测冲突得到确定性策略;确定性策略继续分解并规划解决方案生成若干命令性策略,最终执行增量更新。为明确意图精炼过程,提出一种根据策略分解关系生成的结构表示,称为策略树,根据策略树可以清晰确定策略先后顺序。其中,理解自然语言意图是策略精炼过程的首要任务和难点,例如“给A公司的20个新同事配置网络”,需要利用自然语言理解的方法将其转换为机器可读的高级别意图(即声明性策略),并在此基础上进行精炼过程,例如“新增一个VLAM配置VLAN间路由和ACL、配置AAA、新增账户、配置有线和无线访问策略等。为此,提出一种基于网络本体知识的意图转译模型,该模型包括意图分类和信息抽取两个过程:意图分类有助于明确特定的服务领域,限制策略精炼范围;信息抽取为分析和规划过程提供细节和需求约束。将信息抽取建模为序列标记问题,建立基于BiLSTMYRF(BidireCtiOnaILongShort-TermMemory-ConditionalRandomField)的学习模型,提取意图实体。BiLSTM考虑了过去和未来的特征,可获得整个序列的信息,因此能够充分利用意图序列的上下文信息。CRF则是一种从隐马尔科夫模型(HiddenMarkovModelS,HMM)推广得到的转移概率模型,给定观测序列X,与之相应的标记序列记为y,条件概率被定义为P(y|x) = Z«p网络管控大模型网络知识与不完备意图精炼-其中,t(Yi+l,Yi,i)是定义在观测序列的两个相邻标记位置上的转移特征函数(transitionfeaturefunction),用于刻画相邻!祀变量之间的相关关系以及观测序列对它们的款向,sr(yi,x,i)是定义在观测序列的标记位置i上的状态特征函数(statusfeaturefunction),用于刻画规则序列对标记变量的影响,环口k为参数,Z为规范化因子,用于确保上式是正确定义的概率。基于BiLSTM-CRF的学习模型在输出层面上分离相关性,并在预测标记时充分考虑上下文相关性,从训练数据中学习约束性的规则,保证预测的标签合法,进而得到准确的实体识别结果。然而,传统实体抽取模型仅能识别时间、机构名、地点等,不能满足网络信息相关的抽取需求。为此,拟提出应用网络本体知识生成预定义类别,模型识别出意图中具有特定意义的网络实体字符串边界,并归类到特殊预定义类别,完成意图抽取,实现非结构化的不完备自然语言意图到结构化的声明性策略的转化O6 .知识表征共享的多任务目标网络管控决策基于云网络的时空表征模型,通过基础共享表征以及表征模型组合,实现经验知识以表征信息的抽象形式在多管控任务之间有效传递。云网络资源管控任务之间可共享表征模型,但是其管控决策的优化目标有不同侧重。为了实现高效学习,可同时学习多个相关任务间的共享知识,利用知识迁移性,减少了训练个体任务模型所需的训练实例数量。云网络节点执行业务的效果与节点状态、业务特点和用户移动性等因素紧密相关,本文设计知识表征共享框架.满足资源迁回路由、资源编排、虚机迁移等实时、静态与动态多种管控任务需求,如图5所示。任务1:迂回路由监督学习低时延图5基于知识表征共享的云网络管控多任务框架将云网络的智能管控分解为两个阶段,即表征学习与任务学习,以表征模型为基础,具体依据场景需求,组合任务学习相关的其他模型,最终完成整体智能化管控。具体实现,可将模型封装为容器,通过模型间组合和调用。与传统孤立的智能管控方案相比,该方法中基础表征作为知识与经验共享层,可充分利用不同管控任务策略优化目标的相关性,减少云网络的多种管控任务训练成本,在任务训练样本较少的条件下,实现高准确率。具体的,(i)S础表征:基于云网络的时空表征模型,对云网络的拓扑连接、节点算力、内存、带宽、覆盖范围、网络流量等进行编码,构建基础表征。从不同任务的不同侧面提取云网络环境的通用内在特征,完成高维度、连续状态的拟合;(2)任务表征:根据具体管控任务特点,采用不同的解码器对邕出表征进行解码,形成任务表征向量(伍fz,f3),任务表征向量可进一步作为抽象的低维特征输入具体管控任务的智能模型。例如,资源编排任务具有多种优化目标,包括低时延、移动性和负载均衡等多个方面,不同优化目标的资源编排方案共享部分相同的状态特征;(3)表征组合:实现多种表征模型的复用,例如,虚机迁移任务需要加入复杂业务的拓扑结构、业务需求等表征信息,通过表征组合输入深度强化学习模型,由目标函数生成的回报指导模型得到长期最优的管控策略。由于任务相关数据可能非常嘈杂、数据量有限且高维,解码模型可能难以区分相关与不相关的特征。任务相关的表征解码器可利用且注意力机制,招表征解码集中于共享模型的重要特征。输入到自注意力网络中,学习生成权重向量,分别表示不同表征状态在该任务解码器中的权重,将权重向量与基出表征的输出相乘,结果输入到全连接层构成的输出层中,输出该任务表征向量。基础表征模型作为共享知识的通用性是该框架的关键,兼顾具体管控任务目标的分层次表征训练过程。可将多个任务输出的资源管控方案与相应目标的标注数据或强化学习的经验池回放数据进行比较,由各自损失函数计算平均错误值,并利用多个标签数据的损失函数计算全局损失函数。假设管控任务的数据集为Y,以优化目标i作为样本监督或反馈信号,f;为输入数据到目标i的映射。O为基出知识表征共享的多任务目标网络管控决策表征的深度神经网络模型参数,0;为任务表征模型的神经元参数。全局损失函数L可由N个管控任务的损失函数计算,公式(12)将多个目标分类的损失因数以w;力哝计算全局损失函数,并采用随蟠度下降方法更新参数:9=argfibii网络管控大模型网络管控研究现状7 .网络管控研究现状71通信网络智能管控当前通信网络智能管控领域的产业发展,从3GPP、ETSl和TMF三个国际标准化组织的进展给予描述。3(3平网络管功能(NWDAFMAF)由于人工智能/大数据能力在5G核心网(5Gcore,5GC)的引入,网络策略管控变得更加智能化,而不在采用以前PCRF(PoliCyaneIChargingRulesFunction)基于专家系统或者规则配置功能的方式。通过网络数据分析功能(NetworkDataAnalyticsFUnCtion,NWDAF)28和PCFPCF+(PolicyControlFunction)的融合,可以很容易地实现智能化的切片体验管理、智能化质量保障等功能。三AF作为核心网的AI网元,将具备增强的网络性能优化与用户体验优化能力,在域内实现自治和智能化服务。随着与5GC网元接口全面互通以及数据软采集能力实现,NwDAF将可以全面实时地参与核心网控制面的决策控制。例如NWDAF与NSSF(NetworkSliSelectionFunction)和PCF合作,PC阿根据NWDAF的切片级分析结果做出策略执行决策,NSSF可根据NwDAF的负载分析做出切片选择129。3GPPSA5在R16开始定义管理智能化功能,管理数据分析功能(ManagementDataAnalyticFUnCtiOn,MDAF)通过进行数据分析(30),帮助管理系统设置合理的网络拓扑参数进行网络配置,保障服务质量。网络根据MDAF提供的分析结果进行合理配置后,控制面和用户面可做进一步参数调整,提高用户体验。然而,MDAF在R16的标准(例如接口、采集的数据信息定义、流程等定义)均不完善,较难在当前的5G网络中应用及部署。针对R16的问题以及新场景,3GPP开始在R17网络管脚研究现状对MDAF进行增强,除了完善R16的功能外,对覆盖增强、资源优化、故障检测、移动性管理、节能、寻呼性能管理等场景也进行定义与完善。皿AF目前在中美运营商的5G网络管理系统中都还没有实现商用部署。(2)ETSI体验式网络智能(ENl)ETSl于2017年定义了体验式网络智能(ExperientialNetworkedIntelIigence,END系统(31),作为一个独立的人工智能引擎为网络管控提供智能服务。ENI工作组定义了基于“观察-判断-决策-行动”模型的感知网络管控架构,包含上下文感知、知识管理、认知处理、情境感知、模型驱动和策略管理等。通过数据处理和正则化对原始数据进行清理和特征处理,然后通过内在的Al模块处理后,向运营管理、用户、系统应用、编排器、基础设施等服务对象提供相关的策略或者指令。目前,ETSIENl还在持续演进ENI的功能,定义更多高级的应用32,例如基于意图网络的节能、数据机制、ENT与运营商系统的匹配等。现有的ENI系统仅定义了功能架构,对接口的具体定义尚未开始,也尚未作为一个单独的人工智能系统或者网元在5G网络或者网管系统中部署,但其定义的具体功能用例,以解耦的形式已在全球运营商的网管体系内开始应用。F网络操作、管理和维护(OPerationS,AdministrationandManagement,OA&M)需要耗费大量的人力,运用网络分析服务和端到端的系统OA&M等方式,人工的被动式OA&M将演变为零接触的主动式OA&M.电信运营商已经对其网络及其应用进行智能管控,运用人工智能在故障诊断、根因分析、性能预测等领域开始尝试和应用。2019年TMF在FUtUreOSS的研究报告33中定义了未来OA&M由226GANATG5网络管控大模型网络管押机穷现状“数据驱动”,依赖人工智能、机器学习、自动化、微服务、业务优化紧耦合,具备敏捷、自动化、主动性、预测性、可编程性的特征。在定义未来OA&M最重要的10个因素中,其中有四项和人工智能紧空相关:自动闭环服务开通与保障、自动闭环网络优化、Al驱动的客户参与、Al驱动的网络优化。因此,主流运营商也在面向5G演进的OA&M中逐渐嵌入了Al平台或者功能模块以期待OA&M实现智能化演进34,通过智能分析管理与编排业务、网络、资源,并实现自智闭环。中国运营商在面向5G0A&M的系统构建中,在数据中台与0A&M核心功能模块之间插入一个新的平台或组件,命名为网络Al中台或者智能中台,以数据中台的网络大数据为主要燃料,围绕网络生命周期中的规划、建设、优化、运维等场景,不断构建、推理、发布、沉淀出网络Al算法模型,为4G/5G网络提供包括异常检测、容量预测、网络优化、根因分析、告警预测、故障自愈、业务编排、感知优化等网络AI功能,全面提升5G网络自动化与智能化能力。7.2意图驱动网络管控U)意图驱动网络自智网络的目标是尽可能减少网络运行过程中的人工操作,3GPP和ETSI等开始定义基于意图的网络(Intent-BasedNetwork,IBN)351,也称为意图3区动网络(Intent-DrivenNetWork,IDN),均旨在定义更智能的网络自动化管理机制。IBN允许操作人员指定高级策略,这些策略指示网络应该如何运行,而无需考虑如何将它们转换为网络设备中的具体配置命令。IBN的研究提出了几种意图语言、框架和编译器,以在网络设备和中间件中实现基于意图的配置36。这些研究支持高层策略的组合,来辅助网络管理员实现管理行为的抽象。文献137研究提出了指定服务等级协议的语言,文献138开发了用于指定基于头字段及其位置的数据包转换高级语言,这些研究可以让网络管理员从更高层指定流量的转换,并且在运行时将各种操作分发到各个网络组件上。文献R提出了一种利用机器学习和网络管理员的反馈,将自然语言意图转化为网络配置的精炼过程。使用一种名为NiIe的基于意图的结构化语言,利用LSTM模型,将提取的实体转化为高级结构化的网络意图程序,再根据目标网络将提取的意图程序编译成网络策略。可以预计意图驱动的管理服务将在今后十年持续演进和成熟,为运营商进一步减少管理复杂度和对底层设备的知识需求,同时在跨多厂商的场景提升网络管理效率。3GPPSA5.ETSIENl等标准化组织将持续这方面工作30,321,例如定义合理精准的意图表达、自动化机制、意图的生命周期管理等。关于应用场景,预计在网络服务开通、切片资源利用优化、切片性能保障、网络优化、网络容量管理、网络功能部署等方面会逐渐增强和完善