东华IT运维平台方案(广电).docx
《东华IT运维平台方案(广电).docx》由会员分享,可在线阅读,更多相关《东华IT运维平台方案(广电).docx(41页珍藏版)》请在课桌文档上搜索。
1、东华IT运维管理平台建设方案东华软件股份公司2017年1月3.1.3.2.3.23.23.23.23.23.23.3.3.33.33.33333333.333333333333.333333333IT运维培训IT运维咨询35.1.35.2.35.3.35.4.35.5.35.6.35.7.35.8.服务台348组态图管理20349联动管理203410l1.21配置管理261 .广电IT运维管理概述42 .广电IT运维管理项目背景43 .东华IT运维管理方案建设内容51. 调研和资料收集62. 现状评估和改进建议63. 总体规划64. 体系设计65. 技术实施方案设计66. 后续服务7IT服务综
2、合管理系统71. 统一告警平台72. 综合信息统计分析平台83. 综合监控管理系统83.3.1.网络设备管理93.3.2.安全设备管理133.3.3.服务器管理133.3.4.数据库管理153.3.6.存储管理184.机房环境管理系统18341温湿度监控19342空调的智能监测193.4.3.市电检测、UPS电源、防雷监控193.4.5.红外视频联动管理20346门禁系统监控20自服务台事故管理服务请求管理问题管理变更管理发布管理3.3.5.9.资产管理283.3.5.10.服务级别管理283.3.5.11.服务目录管理293.3.5.12.知识库管理293.3.5.13.任务计划管理303.
3、3.5.14.值班管理313.3.5.15.绩效管理313.3.6.系统自身管理323.3.6.1.用户管理323.3.6.2.数据备份/恢复333.3.6.3.操作日志管理343.3.7.系统数据接口353.3.7.1.接口设计353.3.7.2.接口协议36.74 .东华IT运维管理方案优势381. 1.资产全面化、关联化、统计化384. 2.对外运维统一服务且多样化405. 3.流程高效化、自动化406. 4.经验积累化、共享化417. 5.服务透明化、可量化418. 6.运维成本价值化425 .东华IT运维管理方案收益425. 1.1.平台化产品、模块化功能425.1.2.系统方案全面
4、、数据统一互通,打破系统孤立435.1.3.全面实时掌控IT状态,大大减轻工作量435.1.4.IT员工工作明确,大大提高工作效率435.1.5.全面故障汇总,及时预防故障和定位故障445.1.6.问题解决建设知识库,缩短问题解决事件445.1.7,全面监控数据报告,为IT预算投入和优化提供依据节约成本446.东华软件的优势456.1.公司实力与创新能力优势456.2.集成与运维专业厂家结合优势456.3.本地化技术与研发团队支持466.4.提供咨询、产品与实施一体化服务466.5.医疗行业案例丰富461 .广电IT运维管理概述随着以信息技术为主要标志的科技进步日新月异,以数字化和网络化为主要
5、特征的信息化浪潮正以汹涌之势席卷全球,使得企业对网络需求越来越大。但是传统林散的管理方式显然无法很好适应现有业务发展。为了满足这种需求变化,建立高速、稳定的信息化网络,建设综合运维支撑平台成为当今一个刻不容缓的任务。本次通过建设长沙市广播电视台综合运维支撑平台采用“管理集中、系统集中、系统融合、规范统一、可持续性优化”的发展思路,实现全面的资源监控管理;统一的界面展示;快速直观的故障定位以及实现与其他核心业务系统的集成保障内部的运维统一,减少工作量,提供工作效率,预防故障发生缩短故障恢复时间,从而整体提高IT运维水平,保障IT业务不间断高效稳定运行并遵循PDCA管理模式,实现IT管理的持续性改
6、进.2 .广电IT运维管理项目背景长沙市广播电视台伴随着现代化企业信息化的迅速发展,对网络的稳定性和高效性要求逐步提高,信息化系统在日常的系统运行维护中面临许多问题和挑战。目前台内使用的业务繁多而缺乏统一给IT的维护带来很大的困难,不利于IT管理的全面综合分析以及故障的预警,同时内部的多套监控系统也没有形成统一的管理和联动,从而增大了管理成本,并且也为快速故障的定位带来了阻碍。为降低经营成本,保障业务系统稳定运行,提高企业竞争能力,必须建设综合运维支撑平台,利用统一、可靠、先进的运维管理系统来高效率地维护的设备、服务器等,及时发现并解决网络故障和服务器性能瓶颈,采用SOA思想实现与其他各业务系
7、统的集成,业务系统全面管理.提升服务水平。经过和东华软件的交流,目前同行业的用户已经才是进行此方面的建设,并且成效非常好。例如南京广电,无锡广电,所以此项目也是经过了多方面的考虑结合内部的实际情况提出来的。其中无锡广电和襄阳广电内部的情况十分的相似,很多的业务系统都采用的同一个厂家建设的,所以项目的可行性以及带来的效益非常高。3 .东华IT运维管理方案建设内容3.1. IT运维培训培训ITl1./ITSS/IS020000/IT服务管理精要的基本知识和理论,帮助项目组领导和成员对ITI1.的最佳实践和国际标准IS020000、ITSS有所了解,从而明确本项目的目的,加强认识。3.2.IT运维咨
8、询IT服务流程梳理和咨询采用先进的科学评估体系和业界成熟的规划设计方法论,借鉴IT1.1.最佳实践和实用模型,按照国际标准IS020000的要求,规划设计公司的IT服务体系。3.2.1.调研和资料收集主要将对公司内部和相似的外部企业进行调研,建议分步骤来执行。3.2.2.现状评估和改进建议通过访谈的方式与公司信息部门管理层和相关业务部门进行交流,根据对信息化规划的理解和访谈所得到信息,提出符合该规划的IT部门组织结构和运维体系的模式,并以此确定公司IT服务管理应该达到的目标。3.2.3.总体规划在现状评估和改进建议的基础上,就公司IT服务体系建设提出建设的总体架构、建设目标、内容、方法、步骤与
9、阶段划分等总体规划内容,并就该规划内容在公司信息中心和相关业务部门广泛征求意见,根据反馈意见进一步修改、完善,最终确定规划内容,提交总体规划方案。3.2.4.体系设计为公司设计IT服务体系中的流程体系,重点在于对服务支持流程体系的详细设计。3.2.5.技术实施方案设计在技术实施方案设计时会遵循集中性原则、灵活性和扩展性、实时性和高效性、规范化和标准化建设、有效性、安全性、节省成本性、产品最优组合,以满足公司支撑平台的技术要求。3.2.6.后续服务要求供应商能够定期分析业务需求,持续优化IT服务体系,对管理体系执行情况进行审计和提出改进建议。3.3.IT服务综合管理系统3.3.1.统一告警平台集
10、中的统一告警平台是综合监控管理平台的重要功能,是针对来自信息平台的所有告警信息进行统一展现和管理,包括平台管理类(包括网络设备,服务器,数据库、中间件、存储、备份等)、应用管理类、安全类(包括防火墙、防病毒、IDS、IPS等)、业务管理类和机房环境类的告警。通过告警数据处理,实现“全面监控、准确告警、及时通知、快速解决”的目的,告警管理在保证告警信息准确性的条件下,可通过各种外部接口(界面、声音、邮件、短信、声光、大屏幕)通知指定维护人员,并为服务支持功能部分提供告警数据的双向交互接口,包括对上层的业务服务的接口和对流程管理平台的接口。业务股务接口图告警监管模块功能示意图3.3.2.综合信息统
11、计分析平台对于决策者来说,如何在海量信息数据中快速找到有用的信息成了关键之点,如何根据业务的发展进行信息的统计分析,成为了重中之重。IT服务综合管理系统采用报表工具,进行灵活、强大的查询、统计、分析的功能,用户可以通过多种报表查询到系统的配置数据、性能数据、故障信息、各种性能分析报表、统计报表以及系统管理数据,均可导出并归档到外部数据库,并借助数据仓库工具建模,同时,可结合用户业务系统特点和经验值,进行一些更为复杂高级的自定义统计分析和数据挖掘。3.3.3.综合监控管理系统包括对网络设备、主机服务器、数据库等网络和系统设备的故障、性能和配置信息进行监控和管理。网络及系统管理为用户提供直观、易用
12、的使用界面和策略定义工具,通过这些直观界面,用户可以完成所有的管理功能,包括:资源,拓扑的浏览,事件的捕获,对事件的动作定义,用户及资产的定义,集中的系统参数设置、集中的系统日志管理等等。3. 3.3.1.网络设备管理网络设备管理主要对路由器、交换机等网络设备进行监控和管理,主要实现网络拓扑管理、网络性能管理、网络配置管理、网络故障管理等功能。1)网络拓扑管理网络拓扑管理功能包括:网络拓扑自动发现 网络拓扑发现模块能够通过多种算法进行有条件的拓扑结构自动发现,发现网络设备以及它们之间的拓扑结构关系,支持二层拓扑发现,准确区分端口及V1.AN,自动勾画出设备间的冗余连接、备份连接、均衡负载连接等
13、,并将拓扑图存储在数据库中。 用户可以自定义算法以及轮询间隔进行拓扑发现,支持物理拓扑发现和逻辑拓扑发现。拓扑发现模块可以定时发现网络拓扑的变化,并且可以对于已经发现的一个或几个子网进行再次发现。 能够按照设定的一个或多个条件的拓扑结构自动发现,例如指定网段、指定资源类型等条件。 对于发现的结果能够按照子网的方式显示,并且能够具备拓扑自动刷新功能。网络拓扑展现 网络拓扑展现模块能够提供网络设备的运行状态,网络链路的连接状态,以及网络链路的运行状态,向用户提供一个网络状况的概貌。 可以展现全网拓扑,也可以单独查看一个分院或部门拓扑。 能够根据用户权限进行管理和查看权限的控制,不在其管理范围内的设
14、备在拓扑图中对该用户不可见。 能够通过拓扑图查看设备的当前运行状态、告警信息以及配置信息。 能从不同角度不同层次提供多种表现形式的网络拓扑显示:包括物理拓扑、逻辑拓扑和自定义拓扑视图; 能够进行拓扑图导航、缩放以及定位,包括定义子网,选择单个网元或某个区域等功能。可以进行设备查找。 可以根据需要选择是否显示或隐藏某些类型的网元、网元组(网元显示过滤)。网络拓扑编辑 根据用户权限,允许用户对拓扑图进行编辑。包括,手工添加、修改或删除网元或链路,修改网元位置或名称。 用户可以自定制图例,并修改图例的大小和位置。 用户可以编辑背景地图。2)网络性能管理网络性能管理主要负责各类网络设备的性能综合监测和
15、分析,包括性能监测管理、性能数据上报管理、性能数据管理、性能门限管理、性能分析等子功能。通过管理网络响应时间、网络带宽使用情况、网络流量情况、设备负载情况等,从用户的角度监控网络的性能,并且通过报警、图形化分析、自动报告、性能报表等手段提供端到端的性能管理。它可以帮助用户进行性能分析和容量规划,使得整个网络在最低的成本下能够正常运行。对网络性能进行实时分析或者连续采集,了解网络性能现状并分析发展趋势,及时了解网络瓶颈,保持网络数据传输通畅。 能够采集网络设备中的CPU、缓存、内存的利用率、各个端口的流量、各个端口状态等; 能够采集网络设备中的转包率、丢包率、错包率等指标; 能够采集网络设备的接
16、口流量、带宽利用率等指标; 通过模拟用户行为测试网络服务(HTTP、FTP、DNS、POP3、SMTP等)的实际响应情况和服务状态; 性能TOPN分析:分析当前前N名的线路或端口的总流量、帧流量、广播流量和平均帧长。D网络配置管理网络配置管理能够通过SNMP协议主动采集维护配置信息,通过集成第三方管理工具实现网络设备的远程配置和变更管理,可以通过定义对网络设备配置文件的下载和上传模板,定时对网络设备的配置文件进行下载备份和文件更新; 能够自动发现网络设备的型号、软件版本、IP地址列表、各接列表、CPU、内存、硬盘、配置文件、设备上的板卡、插槽,并形成配置元素之间的关联关系,并可以更新自动发现的
17、结果; 可以发现各种网络服务如HTTP、FTP、DNS、POP3等服务协议; 对设备的软、硬件设置进行管理,能完成配置、查询、登记、版本管理等功能; 可以对平台内部网络的IP地址冲突进行检测;可以对路由信息配置、修改及查询功能,实现对网络路由表的统一管理,设置路由方式及相关参数,查询节点路由信息等。2)网络故障管理对网络故障的监控分为主动轮询和接收Trap方式,可通过相应设置实现所有基于SNMP的网络事件的监控。同时,对于网络设备的故障及各种信息的变更都会记录在syslog中,所以对于syslog的监控也是保证网络正常运行的关键。可对所有SNMP的trap事件进行收集和显示,同时可设置相应的轮
18、询时间对相应网络的连接进行监控和报警; 线路故障的中断报警。 线路达到一定门限值的性能报警。 网络设备板卡、端口的硬件故障报警。 网络设备的CPU、内存、端口流量达到一定门限值的性能报警。 对Syslog进行细化监控,对Syslog的任何变化都可进行跟踪监控,如网络设备的配置变化,接口的状态变化都可进行及时报警3.3.3.2.安全设备管理监控的安全设备类型包括CiSCo、Netscreen天融信、东软、联想等主流安全产品。主要功能包括: 安全日志监视 安全事件查询 监测安全设备的运行状态、板卡状态 监控安全设备的CPU使用率、内存利用率 监控安全设备的会话状态、接口状态、接口流量信息 安全设备
19、流量统计分析、攻击数据包状态。3.3.3.3.服务器管理服务器管理主要对小型机、PC服务器进行监控和管理,主要实现故障管理、配置管理和性能管理等功能。D服务器故障管理对服务器的运行状况进行监控,使运维人员及时了解服务器的重要资源和参数运行状况,出现故障时迅速报警,并可自动采取措施排除故障,保证关键服务器的可用性和可靠性。主要功能包括:监控操作系统运行参数:主要对主机状态、网卡状态、端口状态、Cluseter状态进行监控。监控关键日志文件实时跟踪所有被管理系统的任意日志文件的变化情况,包括syslog日志文件,利用该功能,可跟踪操作系统、数据库及用户应用系统的日志文件,当日志文件中出现的用户所需
20、的特定信息,判断目前系统的运行状况,自动执行用户预定义的动作,从而实现对服务器的动态监控,同时向管理中心产生报警信息。监控应用系统应用日志文件监控应用系统所产生的应用日志文件如:某些应用进程的日志、某些应用程序输出结果等。可以跟踪所有被管理系统上的这些日志文件的变化情况,当日志文件中出现的用户所需的信息时,自动执行用户预定义的动作,同时向管理中心产生报警信息。这样一来用户可灵活定制用户自己的管理策略。监控用户指定的进程可实时跟踪所有被管系统的任意关键进程和服务的运行状态,利用该功能,可跟踪操作系统、数据库及用户应用系统的进程和服务,当这些进程和服务出现故障或停止时,则立即向管理中心产生报警信息
21、并自动执行预定义的动作,如自动恢复进程和服务的运行。例如:当某台WEB服务器上的HTTP进程突然停止了,系统监控到这一信息后,自动向管理中心报警,并执行系统命令重起HTTP进程。2)服务器性能管理服务器管理可以监视管理非常广泛的性能测量指标(如CPU使用率、内存使用率。磁盘空间的占用等),快速辨别并解决系统中现有的和潜在的性能问题,准确地发现系统瓶颈,帮助领导者和系统管理人员制订出正确的解决方案。所监控的主要性能参数包括: CPU利用率; 内存利用率; 磁盘利用率、I/O速率; 文件系统使用率,交换区使用率; 进程占用CPU情况、内存使用情况3)服务器视图管理 通过服务器视图集中监控全部主机服
22、务器,直观展示主机的IP、CPU利用率、内存利用率、磁盘使用情况。 单台服务器提供一个web管理界面,方便的监控和管理主机性能、告警、配置信息,提供telnet/ssh登陆工具。 能够灵活的对监控对象、数据收集间隔等进行配置,并提供管理界面。4)服务器配置管理可以对服务器的配置信息进行监控和管理,包括主机名、IP地址、接口数量、设备厂商、操作系统版本、CPU主频、CPU个数、内存大小、交换区大小等配置信息。3.3.3.4.数据库管理数据库管理主要通过JDBe/ODBC或者代理脚本等采集协议进行数据采集,完成监控管理功能,对数据库的管理活动可分为如下几个方面:1)监控数据库资源和活动,可以从数据
23、库的动态性能表和日志中采集数据,所以数据库的所有资源和活动都可以被该数据库管理模块监控。 可以采集数据库运行状态:如数据库进程、数据库锁、回滚段、数据库日志等; 可以采集数据库资源监控:数据库CPU,数据库CaChe等; 可以采集数据库性能分析,内存、IO性能、碎片、表访问频率、关键表空间增长情况等; 可以采集数据库存储资源监控:数据库文件系统、数据库表空间、数据库表、数据库空间、文件空间等;2)对异常和超过阀值事件的报警和响应通过消息组和消息浏览器观察消息,通过动作窗口定义对事件的响应。维护工作指数据库的规整,消除数据垃圾,表空间碎片整理等提高数据库性能的维护工作。这些工作可以通过数据库管理
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 东华 IT 平台 方案 广电
链接地址:https://www.desk33.com/p-1381314.html