服务水平管理和服务水平协议(SLA).docx
服务水平管理和服务水平协议(SLA)本文描述面向高可用性网络的服务水平管理与服务水平协议(SLA).它包含服务水平管理的成功因素与帮您评估成功与否的性能指标。本文以一个国际性的网络全面描述遵从高可用性业务工作组确定的最佳方案指导原则的SLA0服务水平管理概述网络公司一直以来都通过构建坚实的网络基础设施及主动处理每个业务问题来满足不断扩展的网络要求。当业务特殊中断时,公司将构建新流程、管理功能或者基础设施来防止此类故障再次发生。然而,由于快速变更及日益增长的可用性要求,我们现在需要改进模式来预先防止意外故障并快速修复网络。许多服务供应商与企业一直都试图更好地定义服务水平以便实现商业目标。关键成功因素SLA的关键成功因素用来定义支持成功构建可获得的服务水平及保护SLA的要紧要素。要成为合格的关键成功因素,流程或者流程步骤务必能够改进SLA质量并从整体上提高网络的可用性。关键成功因素还应具备可测量性,以便使企业能够推断:与定义的程序相比,它所取得的成功程度。性能指标性能指标提供了公司测量关键成功因素的机制。您通常需要每月审查一次,以确保服务水平定义或者SLA运行良好。网络运行小组及必要的工具组可实施下列测量标准。注意:关于没有SLA的公司,我们建议您同时实施服务水平定义、服务水平审核及测量标准。性能指标包含: 记录的服务水平定义或者SLA,包含可用性、性能、主动业务应答时间、排障目标及问题升级等。 月度网络服务水平审核会议,审核对服务水平的执行情况并实施改进。 性能指标测量标准,包含可用性、性能、按优先级划分的业务应答时间、按优先级划分的排障时间与其他可测量的SLA参数。服务水平管理流程面向服务水平管理的高级别流程要紧包含两组:1 .定义网络服务水平2 .创建并保护SLA实施服务水平管理实施服务水平管理包含十六步,分为下列两个要紧范畴: 定义网络服务水平一步骤1-6 创建并保护SLA一步骤7-16定义网络服务水平网络管理人员需要定义支持、管理并测量网络的要紧规则。服务水平为所有网络人员提供目标并可用作整体业务质量的测量标准。您也可将服务水平定义用作网络资源预算工具与投资于更高服务质量的证据。它们还提供评估供应商及运营商的表现的方法。假如没有服务水平定义与测量,公司不可能制定明确的目标.服务是否满意由用户决定,在应用、服务器/客户机运行或者网络支持方面并无明显差距。由于企业对最终结果没有把握,因此很难作预算。最终,网络公司在提高网络及支持模式方面都趋向于选择被动应答,而非主动预防的方式。我们建议采取卜.列步骤来构建并支持服务水平模式: 分析技术目标及限制因素。 确定可用性预算。 创建全面记录关键应用网络特征的应用资料库。 定义可用性、性能衡量标准及通用术语。 创建服务水平定义,包含可用性、性能、业务应答时间、排障平均时、故障检测、升级门限及上报途径。 收集测量标准并监控服务水平定义。第1步:分析技术目标及限制因素开始分析技术目标与限制因素的最佳方式是集体讨论或者研究技术目标与要求。由于这些人都有特定的业务目标,因此有的时候这有助于要求其他IT技术人员参与讨论。技术目标包含可用性级别、吞吐量、抖动、延迟、应答时间、可用性要求、新特性的推出、新应用的推出、安全性、可管理性及成本等。随后,公司应研究限制因素,以便使用可用资源实现这些目标。您可为每个目标创建带有对限制因素解释的工作表。最初看似大多数目标都无法实现。随后划分目标的优先级或者降低对仍可满足商业要求的目标的期望值。比如,您制定的可用性级别可能是99.999%,或者每年5分钟的故障停机时间。实现这一目标存在大量限制因素,如硬件的单点故障、远程位置中的故障硬件的平均修更时间(MnR)、运营商可靠性、预先故障检测、高变更率及当前网络容量限制等。因此,您需要将这个目标调节到更加易于实现的级别。下个章节中介绍的可用性模式可帮您制定现实的目标。您可能也考虑在限制因素相对较少的网络领域提供可用性。当网络公司公布业务的可用性标准时,公司中的各业务部门可能发现无法同意这个级别的可用性。这自然而然引发对SLA的讨论,或者为可满足商业要求的模式进行投资/做预算。确定所有限制因素或者风险的工作包含要实现技术目标。根据实现理想目标的最大风险或者影响方面划分限制因素的优先级。这可帮助公司确定网络改进计划的优先顺序,并确定解决限制因素的难易程度。限制因素分三类: 网络技术、故障恢复能力与配置 生命周期方案,包含:规划、设计、实施与运行 当前的话务负载或者应用行为网络技术、故障恢复能力及配置限制因素是指与当前技术、硬件、链路、设计或者配置有关的任何限制因素或者风险。技术限制因素指技术本身造成的任何限制。比如,当前没有一种技术同意冗余网络环境中实现少于1秒的聚合时间,而这恰恰是维持整个网络上的话音连接的关键。另一个例子是数据通过地面链路时的原始速度,大约是100英里/亳秒。网络硬件故障恢复能力风险调查应集中在硬件拓扑、分级体系、模块化、冗余、MTBF及定义的路径这几方面。网络链路限制因素应强调企业网络链路及运行商连接。链路限制因索可能包含链路冗余与多样性、媒介限制、布线基础设施、本地环路连接性与长距离连接性。设计限制因素与网络的物理或者逻辑设计有关,包含从为设备可用空间到路由协议实施的可扩展性等各个方面。您应在配置、可用性、可扩展性、性能及容量方面考虑所有协议与媒介设计。动态主机配置协议(DHCP),域名系统(DNS)、防火墙、协议转换及网络地址转换等网络业务限制因素也应列入考虑之列。生命周期方案定义用于实现解决方案的统一部署、检测与修复故障、防止容量或者性能问题与配置一致性与模块化的网络流程与管理.您需要认真考虑这个领域,由于专业技术与流程通常是导致不可用性的最大影响因素。网络生命周期指规划、设计、实施与运行周期。在每个阶段中,您都务必熟悉性能管理、配置管理、故障管理及安全性等网络管理功能。思科NSA高可用性服务部(HAS)提供网络生命周期评估服务,确定与网络生命周期方案有关的当前网络可用性限制因素。当前的话务量或者应用限制因素只是指当前话务与应用的影响。不幸的是,许多应用都带有大量需要慎重管理的限制因素。当前应用的抖动、延迟、吞吐量及带宽要求通常带有许多限制因素。编写应用的方式也可能产生一些限制因素。汇编应用资料库可帮您更好地熟悉这些问题;下文将介绍这一特性。研究当前的可用性、话务、容量及性能还可帮助网络管理人员熟悉当前的服务水平目标及风险。这一工作常通过名为网络基准制定的流程来完成,该流程可帮您定义规定时段内(通常是一个月)的平均网络性能、可用性或者容量。这些信息通常用于容量规划与趋势分析,但也可用来熟悉服务水平问题。下面的工作表使用了上述目标/限制因素方法来实现防止安全性攻击或者拒绝服务攻击(DoS)的目标。您也可使用该工作表来决定可最大限度地减少安全性攻击的业务范围。风险或者限制因素限制因素类型潜在影响可用的DOS检测工具无法检测出全部DoS攻击类型。技术/故障恢复能力高不具备对告警做出相应所需的人员与流程。生命周期方案高当前网络接入策略未加执行。生命周期方案通常假如利用带宽拥塞来发动攻击,则当前的低带宽互联网连H网络容量接成为限制因素。通常帮助防止攻击的当前安全性配置不完善。技术/故障恢复能力通常第2步:确定可用性预算可用性预算是期望在定义的两点间出现的、理论上的网络可用性。准确的理论信息可在多个方面发挥作用: 公司可将其视为内部可用性目标,同时能够立刻定义偏离并进行补救。 网络规划人员可使用这些信息来确定系统的可用性,以确保设计满足商业要求。造成不可用性或者故障停机的因素包含软硬件故障、电源与环境问题、链路或者运营商故障、网络设计、人为错误或者缺乏流程等。在评估网络的整体可用性预算时,您务必严格评估上述的所有参数。假如公司目前正在测量可用性,则可能不需要可用性预算。用可用性测量标准作为基准来评估服务水平定义使用的当前服务水平。然而,您可将二者进行对比,以便熟悉潜在的理论可用性与实际测量结果间的差距。可用性指产品或者业务在需要时投入运行的可能性。参见下列定义:a.可用性,1-(总的连接中断时间)/(总服务连接时间)-1-总与(业务中断期间受影响的连接数量X业务中断时间)/(运行的连接数量X运行时间)b.不可用性1-由下列因素造成的可用性或者总的连接中断时间:软硬件故障、电源与环境问题、链路与运营商故障、网络设计、用户错误及流程故障等。c.硬件可用性首先需要研究的领域是潜在硬件故障及其对不可用性的影响。要确定这方面的影响,公司应熟悉所有网络组件的MTBF与MTTR,以确定两点间的路径中所有设备的潜在硬件问题。假如网络使用模块化与分级体系结构,则几乎任意两点间的硬件可用性都是相同的。MTBF信息可用于所有思科组件,同时可根据请求、向本地客户经理提供。CiSCONSAHAS项目还使用一种工具来帮助确定硬件可用性及网络路径,即使在系统中存在模块冗余、机底冗余及路径冗余时也能够使用这种工具。硬件可靠性的一个要紧因素是MnR。公司应评估它们修登故障硬件的速度。假如公司未制定备用方案,只依靠于标准CiSCoSMARTnet?协议,则潜在的评估硬件更换时间为24小时。在带有核心冗余但不带有接入。冗余的典型LAN环境中,适当的可用性是99.99%,平均修复时间是4-小时。d.软件可用性下一个需要研究的领域是软件故障。出于测量的目的,思科将软件故障定义为由软件错误引发的设备冷启动。思科已经开发出许多流程来帮助熟悉软件的可用性;然而,更新的版本尚需一段时间进行测量,同时我们认为它的可用性不及通常的部署软件。IOS11.2版(18)等通常部署软件经测量,证明具备99.9999%的可用性。这个数字是基于修复时间为六分钟(路由重视新装载的时间)的思科路由器的实际冷启动次数来计算的。使用不一致版本的公司,可用性将随着复杂性的增加、互操作性的增强与排障时间的缩短略有降低。使用最新软件版本的公司,不可用性将有所提高。不可用性的分配也相当广泛,这意味着客户将感受到很高的不可用性或者接近通常部署版本的可用性。e.环境与电源的可用性您还务必考虑环境与电源的可用性问题。环境问题,将设备保持在特定的运行温度范围内的冷却系统的故障有关。当温度大大超过技术指标时,许多思科设备只是停止运转,而不可能损害所有硬件。出于可用性预算的目的,您务必将电源考虑在内,由于它是造成本领域中不可用性的要紧原因。尽管电源故障是造成网络不可用性的重要原因,但对它的讨论还是受到限制,这是由于无法进行准确的、理论上的电源分析。企业务必基于所在地区的经验、电源备份功能与实施的流程,对其设备的电源可用性的大约测量结果进行评估,以确保为所有设备提供具备一致质量的电源。基于保守的估计,我们能够认为配备了备用发电机、不间断供电电源(UPS)系统并使用合格电源实施流程的企业,可实现高达六个九(99.9999%)的可用性,而未配备这些系统的企业,其可用性仅为99.99%,或者者说每年有36分钟的故障停机时间。当然,您可根据公司的观察或者实际数据来调整这些数值,使其更真实地反映企业的具体情况,f.链路或者运营商故障链路与运营商故障是影响WAN环境中的可用性的要紧因素。切记:WAN环境只是同企业网络遭遇同样可用性问题的其他网络,包含:软硬件故障、用户错误及电源故障等。许多运营商网络都已经开始对系统进行可用性预算,但获得这些信息并不容易。切记,运营商的可用性保证级别很少基于或者根本不基于实际可用性预算。这些保证级别有的时候只是用来提高运营商知名度的营销与销售方法。在某些情况下,这些网络还公布看似相互突出的可用性统计数据。切记,这些统计数据可能只适用于完全冗余的核心网络,而不作为导致不可用性的因素(不可用性由本地环路接入引起),本地环路接入才是WAN网络中不可用性的要紧因素。对WAN环境进行可用性评估应基于实际的运营商信息与WAN连接的冗余级别。假如公司拥有多个大楼入口设施,冗余本地环路供应商、同步光网络(SONET)本地接入、与分布在多个地区的冗余长途运营商,则WAN的可用性将得到明显增强。电话业务是WAN环境中、非冗余网络连接相当准确的可用性预算。使用类似于本文所描述的可用性预算方法进行测量,电话业务的端到端连接的可用性预算大约为99.94%。这种方法业已成功应用于数据环境中,结果基本相同,目前正被用作服务供应商有线网络中分组有线规程的预算。假如将该数值用于完全冗余的系统,则我们能够假定,WAN可用性会接近99.9999%。当然,由于成本及可用性问题,目前很少有哪家公司部署了分布在多个地区且完全冗余的WAN系统,因此应使用适当的推断方法测定这种功能。1.AN环境中不太可能发生链路故障,然而,规划人员可能希望假定连接器断开或者松动会引发短时间的故障停机。对LAN网络而言,保守的可用性估计约为99.9999%,或者大约30秒故障停机/年。g.网络设计网络设计是影响可用性的另一个要紧因素。不可扩展的设计、设计错误及网络聚合时间都会对可用性产生负面影响。注意:出于本文的目的,我们将在下面的篇幅中描述不可扩展的设计或者设计错误。网络设计被限定在可测量的数值上(基于网络中导致话务重新路由的软硬件故障)。这些数值通常被称作“系统故障切换时间”,同时是系统中自治愈协议功能的影响因素。使用与系统计算相同的方法便可计算可用性。然而,它只有在网络故障切换时间满足网络应用要求时才有效。假如故障切换时间能够同意,则不把它计算在内。假如故障切换时间不能同意,则计算时务必将其考虑在内,比如:估计或者实际的故障切换时间为30秒的环境中下的IP话音(VolP)。在这个例子中,用户只是挂断电话,并有可能重新拨叫。用户确信会将这30秒看作是非可用时段,但在可用性预算时却未加考虑。根据系统故障切换时间来计算不可用性时要着眼于理论的软硬件可用性与冗余路径,由于故障切换将出现在这个领域。您务必熟悉可能发生故障并导致冗余路径中出现故障切换的设备数量,这些设备的MTBF与故障切换时间。一个简单的例子就是,冗余的相同设备中,每台设备的MTBF为35433小时,故障切换时间为30秒。用35,433除以8766(年平均小时数,包含闰年),我们能够看出该设备每四年出现一次故障。假如使用30秒作为故障切换时间,我们便能够假设:由于故障切换,每台设备每年平均停机7.5秒。由于用户可能会跨两条路径,因此需要将此结果乘以2,即:每年15秒。当以秒/每年进行计算时,这个简单系统中由于故障切换引起的可用性的计算结果为99.99999785%0由于可能出现故障切换的网络中的冗余设备数量,在其他环境中,这个数字可能还要略高些。h.用户错误与流程用户错误与流程可用性问题是造成企业与运营商网络中不可用性的要紧原因。约80%的不可用性问题是由于无法检测错误、变化故障及性能问题造成的。公司在制定可用性预算时,不愿意同意用户错误与流程引发的不可用性是其他所有理论上的不可用性的四倍这一实施,然而,各类证据一致说明,这种情况存在于许多环境中。下面我们将全面阐述不可用性的这个方面。由于您无法从理论上计算由用户错误与流程引发的不可用性数量,我们建议您在制定企业力求完美的可用性预算时不将其考虑在内。但企业务必熟悉其流程与专业技术水平中现在所面临的可用性风险。透彻地熟悉了这些风险及抑制因素之后,网络规划人员便有可能将这些问题引发的一定数量的不可用性考虑在内。CiSCONSAHAS项目深入研究了这些问题,并可帮助企业熟悉由于流程、用户错误或者专业技术问题引发的不可用性。i制定最终的可用性预算您可将往常定义的所有领域的可用性相乘来决定整个可用性预算。这种方法通常适用于任意两点间的连接相类似的同机种环境,如:分级体系模块化LAN环境或者分级体系标准WA、环境等。这下面的例子中,为分级体系模块化LAN环境确定了可用性预算。该环境为所有网络组件都配备了备用发电机与UPS系统,并对电源进行适当的管理。企业未使用VoIP,也不希望将软件故障切换时间考虑在内。估算结果如下: 两个端点间的硬件路径可用性=99.99% 使用GD软件可靠性作为基准的软件可用性=99.9999% 带有备用系统的环境与电源可用性=99.999% 考虑LAN环境中的链路故障的可用性=99.9999% 未将系统故障切换时间计算在内的可用性=100% 认为不存在用户错误与流程缺陷的可用性=100%企业希望达到的最终可用性预算是:0.9999X0.999999XO.999999X0.999999=0.999896,或者99.9896%的可用性。假如我们将用户或者流程错误引发的潜在不可用性考虑在内,并假设其引发的不可用性是技术因素引发的可用性的四倍,则最终可用性预算是99.95%。对这个例子的分析使我们熟悉到,LAN可用性在99.95%与99.989%之间。现在,这些数值能够用作网络公司的服务水平目标。能够测量系统中的可用性并确定上述六个领域分别引发的不可用性百分率来计算其他数值。这使公司能够对供应商、运营商、流程与人员进行适当评估。这些数值也可用来设置业务期望值。假如您对99.95%与99.989%之间的可用性不满意,可投资更多资源来获得理想的可用性级别。网络管理人员熟悉每个特定可用性级别的故障停机时间将大有帮助。计算任何可用性级别的年故障停机时间(分钟)的公式如下:故障停机(分钟)/年=525600-(可用性级别X5256)假如可用性级别是99.95%,则结果是525600。(99.95X5256),或者者相当于222.8分钟的故障停机。关于上述可用性定义,这等于网络中所有业务连接的平均故障停机时间。第3步:创建应用资料库应用资料库可帮助网络公司熟悉并定义每个应用的网络服务水平要求。这有助于确保网络支持每个应用要求及整体网络业务。当应用或者服务器组指出网络存在问题时,应用资料库还可用作网络服务支持的书面基准。最后,应用资料库可将性能及可用性等应用要求与真实的网络业务目标或者当前限制因素进行对比,来调节网络业务目标,使其与商业要求保持一致。这不仅对服务水平管理很重要,而且对整个网络设计也相当重要。每次向网络中添加新应用时都应创建应用资料库。您还可能需要在IT应用部门、服务器管理部门与组网部门间达成协议,以便为现有及全新业务创建应用资料库,完成用于商业应用及系统应用的应用资料库。商业应用可能包含电子邮件、文件传输、WCb浏览、医疗图象处理或者制造等。系统应用可能包含软件分发、用户鉴权、网络备份及网络管理等。网络分析员及应用或者服务器支持应用小组应负责创建应用资料库。新应用可能要求使用协议分析程序与具备延迟模拟功能的WAN模拟程序来适当地划分应用要求的特征。这有助于确定必要带宽、应用可用性的最大延迟及抖动要求。只要您具备所需服务器,便可在实验室环境中开展这项工作。在VOIP等其他情况下,包含抖动、延迟及带宽在内的网络要求会很好地公布,且无需再进行实验室测试。应用资料库应包含下列项目: 应用名称 应用类型 新应用 业务重要性 可用性要求 使用的协议与端口 估计的用户带宽(kbps) 用户数量与位置 文件传输要求(包含时间、量及端点) 网络故障停机影响 延迟、抖动及可用性要求应用资料库的目标是熟悉应用的商业要求、业务关键性与带宽、延迟及抖动等网络要求。此外,网络公司还应熟悉网络故障停机的影响。在某些情况下,您可能需要重启应用或者服务器,这将大幅度延长总的应用故障停机时间.完成应用资料库后,您可将所有网络功能进行对比,并帮助调节网络服务水平,使其与商业与应用要求相一致。第4步:定义可用性及性能标准可用性及性能标准为企业制定业务期望值。可根据不一致网络区域或者特定应用进行定义这些标准。还能够确定往返延迟、抖动、最大吞吐量、带宽承诺及总体可扩展性等方面的性能。此外,为了制定业务期望值,企业还应慎重定义每个业务标准,以便使致力于网络工作的用户及IT工作组能够全面熟悉业务标准与他们与应用或者服务器管理要求的关系。用户及IT工作组还应熟悉如何测量业务标准。往常服务水平定义步骤的结果能够帮助制定标准。这时,网络公司应明确熟悉当前网络所面临的风险与限制因素及应用行为,并进行理论上的可用性分析或者制定可用性基准。 定义业务标准适用的地理区域或者应用领域,可能包含园区LAN、本国WAN、外联网及合作伙伴连接等。在某些情况下,企业在相同区域内的服务水平目标可能是完全不一致的。这对企业或者服务器供应商来说并不罕见。这时,它们通常基于各自的业务要求制定不一致的服务水平标准。这些在同一地理区域或者服务区域中的标准有金牌、银牌与铜牌之分。 定义业务标准参数。可用性及往返延迟是最常见的网络业务标准。根据需要,还能够包含最大吞吐量、最低带宽承诺、抖动、同意的错误率与可扩展性功能。当审核用于测量方法的业务参数时要特别慎重。不管参数是否包含在SLA中,公司都应考虑出现问题或者业务不一致性时,如何测量并证明业务参数的可行性。完成对业务领域与业务参数的定义后,您可使用往常步骤获得的信息来构建业务标准图。企业还需要定义可能使用户与IT工作组产生混淆的区域。比如,往返Ping的最长应答时间与在远程位置单击回车键启动特定应用的最长应答时间有很大区别。下表列出了美国使用的性能目标:网络区域可用性目标管理方法平均网络应答时间目标99. 99%受影响的用户时间5受秒内可同意的最常应答时间10亳秒应答时间管理方法往返ping应答WAN99.9%受影响的用户时间100亳秒内(往返Ping)150亳秒往返Ping应答往返ping应答受影响的用户时间100克秒内(往返Ping)150亮秒第5步:定义网络业务这是实现基本的服务水平管理的最后一步;它定义您实施用于实现服务水平目标的被动/主动流程与管理功能。最终文件通常被称作“运行支持计划”。大多数应用支持计划只包含被动支持要求。在高可用性环境中,公司务必考虑使用主动的管理流程,以便在网络故障发生前对其进行隔离并加以处懂得决。总的来说,最终文件应: 描述用于实现服务水平目标的被动与主动流程 介绍业务流程的管理方式 介绍测量业务目标与业务流程的方式本部分将描述许多服务供应商与企业均需考虑的主动与被动业务定义的实例。构建服务水平定义的目标是创建满足可用性及性能目标的业务。为了实现上述目标,公司务必构建业务,并谨记当前的技术限制因素、可用性预算及应用资料库。特别是,公司应定义并构建始终能够在可用性模式规定的时间内快速确定并排除故障的业务。公司还务必定义可快速识别并解决潜在业务问题的业务,假如忽略这些问题,将对可用性及性能产生负面影响。实现理想的服务水平非一朝一夕之事。专业水准低、当前流程限制或者人员不合格等缺点将妨碍公司实现理想的标准或者目标,即使在完成对往常业务步骤的分析后也是如此。没有一种方法可将所需服务水平与理想目标准确匹配。为了习惯现实情况,公司应测量业务标准及用于支持业务标准的业务参数。假如没有达到业务目标,公司应利用业务测量标准来帮助熟悉问题。在许多情况下,可适当增加预算以改进支持业务,并使这些改进功能成为实现理想业务目标的必要条件。企业可能会逐步进行多次调节(包含业务目标或者业务定义),以使网络业务与商业要求保持一致。比如,当目标远远高于99.9%可用性时,企业可能只实现了99%的可用性。在服务及支持测量标准方面,企业代表发现硬件替换约需要24小时,远远高出最初的估计的4小时。此外,企业还发现主动管理功能受到忽视且故障的冗余网络设计没有及时修复。企业发现的问题还有缺乏实施改进的员工等。因此,考虑降低当前服务目标后,企业便投资购买实现理想服务水平所需的其他资源。业务定义应同时包含主动与被动支持定义。被动定义规定企业如何解决根据用户投诉或者网络管理功能中确定已经发生的问题。主动定义描述企业如何确定并解决潜在的网络问题,包含修复故障的“备用”网络组件、错误检测、容量门限问题及升级问题等。下列提供主动与被动服务水平定义实例。被动服务水平定义下列的服务水平领域通常使用帮助台数据库统计数据进行测量并定期审计。下表显示企业故障严重程度的实例。请注意:此表不包含处理新业务请求的方式,这项工作可通过SLA或者其他应用资料库编制及性能假设分析来完成。假如通过相同的支持流程进行处理,新业务请求能够数据严重级别5。严重级别1严重的业务影响LAN用户或者服务器 部分停机严重的WAN站点故障 停机严重级别2严重级别3严重级别4网络功能的丢失或者降级对业务造成严重影响,可能需要运行应变措施某些特定的网络功能丢失或园区LAN故障停机:5-99名用户者降级,如:冗余丢失等对企业无业务影响的受到影响园区LAN性能受到影响LAN功能查询或者故障国内WAN站点故障停机冗余丢失国际附N站点故障停机严重影响性能完成问题严重性级别定义之后,定义或者研究创建业务应答定义的支持流程。总的来说,业务应答定义要求使用分级支持结构,与帮助台软件支持系统来利用故障票跟踪问题。同时还应为每个优先级故障的应答时间与解决时间、按优先级划分的呼叫数量与应答解决质量制定测量标准。定义支持流程可帮助定义公司内部每个支持级别的目标及其任务与责任。这有助于公司熟悉用于每个支持级别的资源要求及专业技术水平。下表举例说明了分级支持结构及其问题解决指导原则。支持级别职责目标专职帮助台支持第1级支持接听支持电话、发放故障票、15分钟内解决问题、记录故解决40%的入局呼叫障票并上报到第2级支持队列监控、网络管理、工作站管理第2级支持为确定的软件故障发放故障票在第2级解决所有呼叫实施接听第1级、供应商的电话,并上报到第3级支持对呼叫负责,直到排障为止F5-务必立刻为第2级提供优先级为1的全部故障所需的支持*'3"又'同意在SLA解决期限内帮助解决所有第2级未排除的故障不且小"'"人F-步是确定业务应答及排障业务定义。它为如何快速排障(包含硬件更换在内)制定了目标。为这个领域制定目标是非常重要的,由于业务应答及恢复时间直会接影响网络的可用性。问题解决时间也要与可用性预算保持一致。假如在制定可用性预算时未将大量高严重级别的故障考虑在内,则公司随后将需开展大量工作来熟悉此类故障的根源及可能的弥补方法。详见下表:问题严重级别帮助台应答第2级应答现场第2级硬件更换解决问题立刻上报到第2级,网络32小时2小时4小时15分钟运行部经理立刻上报到第2级,网络八4小时4小时8小时25分钟运行部经理315分钟2小时12小时24小时36小时415分钟4小时3天3天6天除业务应答及业务排障外,还需制定上报规定。上报表有助于确保将可用资源集中用于解决严重影响业务的问题。总的来说,假如分析员集中精力解决问题时,他们很少重视利用其他资源来解决问题。定义何时需要其他资源有助于促进管理层对问题的认识,并有助于促成未来的主动测量或者预防性测量。详见下表:过去的时间严重级别1严重级别2严重级别3严重级别45分钟网络运行部经理、第3级支持、联网部主管及时通知网络运行部经Q1小时小,a及时通知网络运行部经理、理、第3级支持、联网部,、出山第3级支持、联网部主管主管2小时上报副总裁、及时通知主任及网络运行部经理向副总裁、主管、运行部4小时经理、第3级支持提交根上报副总裁,及时通知主管源分析,向CEO通知未排及网络运行部经理除的故障24小时网络运行部经理5天网络运行部经理迄今为止,服务水平定义始终集中在运行支持部门如何在问题发生后对其采取被动措施上。运行部门多年前便制定出了包含上述相似内容的运行支持计划。然而,该方案中忽略了部门如何识别问题与他们将识别什么故障等内容。比较成熟的网络公司试图制定预先确定的网络问题百分率目标来解决这个问题,而不是通过用户故障报告或者投诉来被动地确定故障。下表列出了公司对主动支持功能与被动支持功能的整体测量目标。网络领域主动故障识别率被动故障识别率1.AN80%20%WAN80%20%这为确定更多的主动支持定义开了一个好头,由于它测量起来很简单、也很容易,特别在主动检测工具可自动生成故障票。这还有助于将网络管理工具/信息集中用于主动排障,而不是在故障发生后被动地查找根源。然而,这种方法的要紧问题在于它无法定义主动支持要求。这通常会造成主动支持管理功能间的差距并导致更大的可用性风险。主动服务水平定义更全面的制定服务水平定义方法包含,更全面地解释如何7X24全天候地监控网络,与运行部门如何7X24全天候对己定义的网络管理站(NMS)门限做出响应。鉴于管理信息站(MIB)数量的不确定性与提供MIB的网络管理信息数量与网络的运行情况有关,因此这看上去是一项无法完成的任务。同时,完成这项任务需大量资源且代价非常高昂。不幸的是,这些缺点大大妨碍了我们对主动业务定义的实施,而这种实施从本质上来说非常简单轻松,且只适用于可用性或者性能风险极大的网络。假如公司随后看到了基本主动业务定义的价值,那么只要使用分阶段实施的方法,就能够逐步添加更多变量,但不可能对业务产生重大影响。所有运行支持方案中均应包含第一个领域的主动业务定义。该业务定义只是简单阐述运行部门如何识别不一致网络区域中的网络或者链路故障并对此做出响应。没有这个定义(或者管理支持),公司可能遇到支持不稳固、无法达到用户期望等问题,最终会降低网络可用性。卜表显示了公司如何针对链路/设备故障制定服务定义。该实例中的企业在每天的不一致时段及网络区域方面有着不一致的通知与响应要求。网络设备或者 链路故障核心LANSNMP设备与 链路轮询陷阱自动向负责LA的NOC创建故障票、人员发出寻呼、 向负责LAN的人LAN负责人员为核员发出寻呼心LAX队列创建故障票自动向负责WA的NOC在15分钟内派立刻研究并排除优先 出LAN分析员、根级1与2的故障、优先 据业务应答定义解级3与4的故障排队等决问题候次日上午排除国内WANSNMP设备与 链路轮询陷阱0C创建故障票、人员发出寻呼、向负责WAN的人 员发出寻呼WAN负责人员为核 心WAX队列创建故 障票NOC在15分钟内派立刻研究并排除优先 出IMN分析员、根级1与2的故障、优先 据业务应答定义排级3与4的故障排队等 障候次日上午排除外联网,几AZ- M)C创建故障票、 SNMP设备与0人匕向负责合作伙伴 链路轮询陷阱MI口心的人员发出寻呼自动向负责合作伙伴的人员发出NOC在15分钟内派立刻研究并排除优先寻呼,合作伙伴负出合作伙伴分析 级1与2的故障、优先责人员为合作伙 员、根据业务应答级3与4的故障排队等伴队列创建故障定义排障 票候次日上午排除其余的主动服务水平定义可分成两类:网络错误与容量/性能问题。只有少数网络公司拥有检测方法5X8通知7X24通知5X8排障7x24排障这两个领域的服务水平定义。因此,这些问题常被忽视或者无法得到统一处理。这对某些网络环境的影响可能不大,但高可用性环境通常都需要一致的主动业务管理。网络公司希望实现主动业务定义的原因很多,要紧是他们尚未基于可用性风险、可用性规划及应用问题对主动业务定义进行要求分析,致使主动业务定义的要求及优势不明确,这要紧是由于需要更多的资源。第二个原因是要平衡能够利用现有及新定义的资源来实施的主动管理数量。但生成这些告警就可能对可用性或者性能产生严重影响。您还务必考虑事件关联管理或者流程,以确保不就同样的问题生成多个主动故障票。最后一个原因在于:创建一组全新的主动告警经常会生成往常未检测出的初始信息流。运行部门务必为解决这些最初问题与增加短期资源做好准备,以便解决这些往常未检测出的问题。第一类主动服务水平定义是网络错误。网络错误还可细分为系统错误(包含软硬件错误)、协议错误、媒介操纵错误、准确性错误及环境警告。制定服务水平定义首先要要大体熟悉如何检测出此类问题、由谁负责解决问题与故障的影响。必要时在服务水平定义中添加特定的信息或者问题。您可能还需要在下列领域开展更多工作以确保成功定义: 第1、2与3级支持的责任 利用运行部门能够有效开展的主动工作量来平衡网络管理信息的优先级 按要求进行培训以便确保支持人员能够有效地处理定义的告警 确定事件关联方法以确保不为同样的问题生成多个故障票 记录特定信息或者告警,以帮助识别属于第1级支持级别的事件卜.表是用于网络错误的服务水平实例,帮助您明确熟悉谁负责发送主动网络故障告警、如何确定故障与故障影响。根据上文所述,公司尚需开展更多工作以确保成功。故障类型检测方法门限采取的行动任何第0、1与2优先级别的 故障的发生发生100多起优先级3(或者 更高)的故障审核问题、创建故障票并在新 问题出现或者问题镭要特别 注意时派出人员解决- 使用系统日志查看程序每环境信息(电源与温八日审核系统日志信息由第2级支持完成 准确度错误(链路输入每五分钟进行一次SNMP任何信息输入或者输出错误错误)轮询对新问题创建故障票并派遣 有关人员解决问题对新问题创建故障票并派出任何链路上、每5分钟出现一第2级支持人员解决问题SS、g每天都使用系统日志查看笠F何优先级°、1与2审查问题、创建故障票并在新上:德入,成的程序审核系统日志信息问题出现或者问题需要特别故障停机)由第2级支持完成誉墨然优先级3(或者注意时派出人员解决更高)的故障硒和',C每天都使用系统日志查看mu与2优先级别的审核问题、创建故障票并在新:但加成的程序审核系统日志信息人、比乂夕由借小金问题出现或者问题需要特别故障停机)发生100多起优先级3(或者由第2级支持完成田一,注意时派遣人员解决更高)的故障U-EHET使用系统日志查看程序每笠F何优先级O'1与2审核问题、创建故障票并在新八UTP日审核系统日志信息问题出现或者问题需要特别路由协以)由第2级支持完成誉詈然第3优先级(或注意时派出人员解决者更高)故障媒介操纵故障(只限使用系统日志查看程序每于FDDI、POS及快速以日审核系统日志信息太网)由第2级支持完成NOC受理的门限事件次错误另一类主动服务水平是性能及容量。真正的性能与容量管理包含例外情况管理、基准制定与趋势分析与假设分析。服务水平定义只定义需要调查或者更新的性能及容量的例外门限与平均门限。随后,能够以某种方式将这些门限应用到三种性能与容量管理流程中。容量及性能服务水平定义可细分成几个类别:网络链路、网络设备、端到端性能及应用性能。制定这些领域的服务水平定义需要具备与设备容量、媒介容量、QoS特征及应用要求的特定领域有关的渊博技术知识。出于这个原因,我们建议网络设计师通过供应商输入的信息制定与性能与容量有关的服务水平定义。与网络错误相似,为容量与性能制定服务水平定义首先应