XX银行数据仓库建设项目方案.docx
XX银行EDW/数据仓库工程方案第一章系统总体架构41. 1总体架构设计概述41.1.1 总体架构的设计框架41.1.2 总体架构的设计原则51.1.3 总体架构的设计特点51.2 EDW执行架构61.2.1 执行架构概述61.2.2 执行架构设计原则61.2.3 执行架构框架71.3 EDR'逻辑架构131.3.1 逻辑架构框架131.3.2 数据处理流程181. 4EDW运维架构191.1.1 运维架构概述191.1.2 运维架构的逻辑框架2O1.5 EDH,数据架构251.5.1 数据架构设计原则251.5.2 数据架构分层设计261.6 EDIr应用架构281.6.1 应用架构设计原则281.6.2 数据效劳281.6.3 应用效劳29第二章ET1.体系建设3O2.1ET1.架构概述3O2.2ET1.设计方案312.3ET1.关键设计环节312.3.1 接口层设计谋略312.3.2 StagingArea设计谋略322.3.3 数据加载策略322.3.4 增量ET1.设计谋略332.3.5 异常处理342.3.6 作业调度和监控352.3.7 元数据管理352.3.8 ET1.模块设计352.3.9 ET1.流程设计372.3.10 动态资源分配402.3.11 数据接口设计41第一章系统总体架构1.1 总体架构设计概述1.1.1 总体架构的设计框架XX银行EDW工程的总体架构分为基础技术架构、应用架构和数据架构三个核心局部。这三个局部共同组成了XX银行EDW系统。在基础技术架构中,包括执行架构、逻辑架构、功能组件架构和运维架构四个局部。 执行架构描述系统大的框架和模块区域.以及之间的逻辑关系:是确定生产环境的建设要求及指导原则. 逻辑架构描述EDW各个模块之间的数据的接口、数据流向、工具使用和采用具体的技术实现手段或方式情况,用丁标准本工程最终生产环境的建立。逻辑架构是建立应用架构、执行架构、运维架构的基础,也是建立执行架构、应用架构以及运维架构的原型系统。 功能组件架构描述确定系统各个大的组件组件区域的功能模块框架,以及提供的某种效劳类型. 运维架构是描述EDK'工程的运维架构标准,包括运维架构设计的内容、设计原则、各构成组件的设计考虑因素、约束、要求等。运维架构通过相应的流程和工具实现对逻辑架构、功能组件架构、执行架构、数据架构以及应用架构的运维和管理.而数据架构和应用架构的主要描述: 应用架构是EDW为淌足业务需求所提供的系统应用功能及其蓝图设计,其中业务需求是应用架构设计的基础,最终的应用架构将以应用系统的形式表达在执行架构中,主要包括:应用效劳和数据效劳。 数据架构描述于EDR'系统相关的数据流动策略,即数据在EDW系统的执行架构下的抽取、转换、储存策略以及应采用的流程,包括数据层次和总分行之间的数据分部情况等。数据架构是建立执行架构标准的需求定义。以下图是EDW工程总体架构的框架:基础技术架构应用架构蝌架拘运雉架构数据架构1.功二架构1.1.2 总体架构的设计原则 总体架构在若重考虑实施要求的同时,需要为后续阶段进行规划,以保证工程最终能锅到达目标架构的设计: 总体架构的设计要基石包括XX银行数据现状分析、实施阶段数据源情况分析、第一阶段实施EDW设计建议做为参考; 总体架构设计架构时充分考虑与现有系统兼容,充分利用已有成果,防止重史开发和建设. 总体架构设计过程中应遵守XX银行的IT管理规程,保证最终的系统可以顺利的部署并移交给XX银行的运行维护部门。1.1.3 总体架构的设计特点 权衡功能、性能、可扩展性、易用性、可管理性和性价比。 根据XX银行的数据情况和分析需求,采用多U次的企业EDH1系统架构来保证在存在坡杂的数据种类和关系的海量数据上进行业务分析和查询在业务支持能力和性能等方面的要求。 多级/自动的增属ET1.加载机制,有效提高ET1.并发度、加载效率,降低错误处理的安杂性。 通过用户入口支持用户采用Web浏览器使用查询和分析工具,统一的信息效劳界面,提而系统易用性,减少技术支持工作量. 利用企业信息集成和Web数据效劳,提高系统的数据支持能力和接口的一致性。统一的数据增强平台也减少数据增强的灾杂度.1.2 EDW执行架构执行架构的主要内容是描述EDN工程执行架构的建设要求及指导原则,用于标准本工程最终生产环境的建设。EDW工程的牛.产环境的建立需要参考并遵循执行架构局部提出的要求。1.2.1 执行架构概述执行架构是EDW的概念环境,主要包含:源数据、数据落地区、ET1.,数据准备区、数据存储区EDw、业务应用、用户环境、数据管控、系统平安性以及EDW基础设施平台(包括:效劳器、存储、网络等功能组件.从技术乂面上来说,EDW系统的执行架构应实现多种技术平台及应用之间的无t集成。1.2.2 执行架构设计原则在EDW工程实施的过程中,系统执行架构的建设应遵循以下技术原则:开放性原则:EDW工程的生产环境的建设应基于业界开放标准,对系统中使用的网络协议、硬件接口、数据接口等应进行统一规划,EDW系统应支持主流的应用软件包及其部署的各种硬件平台。灵活性与可犷展性:EDH系统的基础设施平台应能够根据未来系统的开展需要以及应用需求,方便的扩展设备容量和提升设备性能:具备支持多种组件模块、多种物理接口的能力:具符技术升级、设备更新的灵活性:具备支持业务功能的扩展与重构的灵活性。如:系统容量可以随着ET1.系统数据地的扩展以及应用系统的不断扩展、用户量不断扩展而进行平滑的扩展。高性能原则:系统应到达数据处理时间窗口的要求,用户定义的隹询效率、响应时间的要求,满足业务系统的要求:对现有业务系统影响小。自动化原则:EDW工程建设的核心任务之一是数据抽取、转换、清洗和加载(ET1.),在这个过程中应采用自动化的设计原则,防止手工操作。同时对于元数据管理过程应采用无数据管理平台来实现对元数据集中、自动化的管理。平安性原则:EDW工程建设中的数据迁移过程都必须保证数据的平安性,例如:在系统建设过程中应对数据中敏盛宠段进行平安处理、同时整个系统还应采用网络隔离、用户身份认证及访问控制、数据库平安、操作系统平安以及完善的平安审计机制。1.2.3 执行架构框架一三三匚M1.上图是EDW系统执行架构,其中包含EDH系统中涵盖的功能框架以及框架之间的逻辑关系。在以F的内容中将对执行架构中的功能框架以及框架之间的关系进行详细描述,具体内容包括:数据源I包括XX银行的多个业务系统,主要有核心系统、个贷系统,信贷系统、国际业务系统、财务系统和各类渠道系统等。数据落地区:此局部内容说明数据落地的用途,同时时数据落地区应具备的功能进行r标准定义以及数据落地区与其他功能组件之间的关联关系;ET1.:此局部内容描述ET1.系统中数据抽取、转换、加载等功能的需求,同时定义了ET1.系统建设的标准以及ET1.与系统中其他功能组件之间的关系;数据准备区:此局部描述数据准备区应具备的功能,以及数据准备区在建设过程中的标准需求“掾作型存储区:此局部内容描述EDX系统在建设的过程中操作型存储区应遵循的标准以及系统建设过程中应满足的需求:数据仓降存储区:此同部内容描述EDW系统的数据仓库存储区应遵循的标准以及系统建设过程中应满足的需求:业务应用:此局部内容描述B1.应用系统建设的系统需求,包含对应用环境、分析环境、微态报表环境:用户环境:此局部的内容描述用户在EDW系统中应具备运用的能力,包括:利用通用展现平台进行信息展现、驾驶舱应用、报表应用等:时间窗口和性能的定义:此局部描述整个EDW工程中关于时间窗口的定义以及相关系统的性能指标要求:元数据管理:此同部描述在系统执行架构中元数据管理的内容以及元数据管理系统的建设的标准定义:系统平安性:此局部内容主要描述EDw系统中的平安性管理内容,包括应用平安、网络平安、数据平安、系统平安等,同时描述系统平安在建立过程中遵循的原则:基础设施平台(效劳器、网络、存储):此局部内容主要描述生产系统中的硬件资源,包括:效劳活.网络以及存储的资源需求,容员规划应满足的系统指标等内容:1.2.3.1 数据源源数据系统是报表、关键指标、灵活查询、主题分析等应用系统的基础数据来源。在系统建设初期,源数据系统应提供能满足初始业务需要的数据以及业务系统需要提供完整数据的时间窗口,在EDW系统扩展的过程中,各个源数据系统中的数据将逐渐的加载到EDW系统当中。源数据无法满足应用需求时,系统应提供手工方式通过手工数据补入平台将需要的数据补入到E1.)W系统中目前数据源包括总银行的多个业务系统,主要有核心系统、个贷系统、对公信贷系统、国际业务系统、财务系统和各类渠道系统等。1.1.1.1 落地区数据落地区是为了保证多系统对源系统数据抽取的需求,在数据从源数据系统抽取后在统的数据集成环境中整合。数据落地区应建立与各相关源数据系统的接口,将这些系统定期卸载的数据以固定的格式接收、存放到落地区,考虑数据传输和加载的速度,源数据系统应以文本文件格式将数据定期传输给数据落地区进行处理.数据落地区的数据存储格式原则上是与数据源的存储格式保持一致1.2.3.3 数据ET1.架构ET1.是数据的抽取、转换、加载的全部过程,它是数据从数据落地区到ET1.效劳器以及从ET1.效劳版到EDW的数据迁移过程以及数据从EDW向数据集市的数据迁移过程中必须使用的过程和方法,ET1.系统应包括以下三个主要功能: 数据抽取:从数据落地区系统抽取EDw中需要的数据: 数据转换:将从源数据系统获取的数据转换成EDW要求的形式,同时按照业务需求对数据进行转换: 数据加或:将助转换后的数据装载到EDW的物理模型中:1.2.3.4 数据准备区数据准备区是数据存储的临时存储区域,数据在其中只作哲时性保存,数据经转换后导入到EDW的物理模型中。数据准备区的功能包括:格式转换、排序去重/筛选、通用基础清洗、连接/合并/分割、业务转换等1.2.3.5 操作型存储区操作型存储区是数据仓库系统一个重要的环节。该区有着承上启下的作用,从数据形态来看,该区的数据定义贴近业务源系统:从数据标准来看,该区的数据标准是遵循数据仓库系统的标准.所以该区一般分为两个层次,第一个层次称之为良好质量的、统一格式的数据贴源层,第二个层次为统的、标准的、遵循数据仓库系统标准的数据标准层。数据贴源层可以维续为行内现有的一些报表系统或者分析系统提供数据,而数据标准层为数据仓库中的企业数据模型的落地扫清了道路。所以该存储区在整个EDW系统起到了一个承上启卜.的关键作用。1.2.3.6 EDW存储区EDW存储区是面向主迤的、集成的、面向企业的、最明细的数据存储,其内容是依据最终用户应用和分析需求来进行组织。数据存储区中的数据模型对标准层数据、基础整合数据、汇总数据和面向应用的臾市数据按数据乂次进行管理,每个数据层有自己的数据管理揖点对于每个数据U次,再按主题进行分类组织这样就可以有效的将银行企业的操作型数据、汇总型数据和分析型数据以清晰的架构组织、管理起来,并相辅相成。数据层的内容相互促进开展,组成银行完善的数据集合.为各种主题管理应用的构建提供良好的数据架构基础。1.2.3.7 应用业务应用是EDW系统向业务用户提供给用功能支持,根据应用效劳提供的形式和所采用的应用系统的不同,业务应用主要定义在以卜几个技术环境。数据集市:在业务应用层中包含了应用系统中需要的应用集市、O1.AP、静态报表等数据集市。数据集市是组特定的、针对某个主题域、部门或用户分类的数据集合。这些数据需要针对用户的快速访问和数据输出进行优化,优化的方式可以通过对数据结构进行汇总和索引。通过数据集市可以保障EDw的高可用性、可扩展性和高性能。应用环境:应用环境是为满足业务需要在数据Eiw环境中配巴的应用软件包。分析环境:数据分析环境为EM的高端用户提供即时的数据分析功能等。报表环境:报表环境是于来产牛.和发布静态报表的环境,包括:产生的静态报表、O1.AP产生的报表、KP1.指标展现以及其他系统产生的报表。1.1.1.1 环境用户环境是EDW系统最终向用户提供的某种应用效劳的集合,主要仃三种应用效劳的表现形式:滥用展现平台:通过此平台将报表、KP1.展现、灵活查询、分析等多个应用集成到一个平台中,进行统一的展现和信息的管理,包括如:报表生命周期的管理等.数据分发环境:在数据分发的过程中应提供大容量数据批量分发的能力。给其他需要某个系统的数据提供数据交换功能.报表分发环境:报表的分发应可以满足系统定义的平安性,如按照不同的用户类型、不同的组织进行分发,不同的用户和组织只能看到屈T自己的报表的数据,数据的分发将通过数据传输平台进行。1.2.3.9 元数据管理元数据管理是对数据信息的收集和发布的集成管理,数据信息包括:数据的业务含义和技术特性。数据仓库系统架构中的各个局部中都含有元数据信息,应对其进行主动式管理,以保证它正确的定义、收集和使用。元数据是“关于数据的数据"应包括文件结构定义,数据库字段名称,数据模型中的长度和标准,以及在域-域或域-报表时应关系中的计铝和公式等内容。元数据管理的架构如以下图所示,系统的最终架构应实现时元数据的集中的管理方式:mmxA)1.2.3.10 系统平安性EDW系统中的数据和报表信息均为敏感信息。因此必须采用适当的平安策略以保证其系统和数据的平安性。数据仓库系统的平安性应涵盖如下四个方面: 改证:系统应对用户进行访问控制,保证只有合法的用户才能进入到系统中: 授权:系统应根据用户角色对其进行授权,包括对数据的访问权限,对功能的使用权限等。 机密性:所有的敏感数据必须被严格控制,禁止未授权访问,并保障其平安性. 一致性:数据和程序只能在授权模式卜.进行修改。针对上述6个方面,数据仓库分系统应按照以卜的6个方面的标准进行建设:应用层EDW应用系统是建立在O1.AP软件平台的基础上,应用层应实现用户访问控制的功能,针对不同的用户访问不同的系统资源来保证整个应用系统的平安性控制.对丁未来的数据仓库系统来说,应与统一门户平台整合,实现整体平安性管理的策略:数据犀层只有被授权用户才能访问和修改数据库中的信息并且数据在传输过程中应对敏感信息进行加密处理来保证数据的平安。数据库管理员应按照角色对数据库用户进行划分,并旦通过赋予角色权限的方式实现对用户平安性访问控制的管理,如:针对用户组或耽误用户分配特定数据表访问权限。.系统层系统应防止未授权访问和系统调用,及时进行系统平安补的更新。对于系统主机应采用效劳器加固的方法,来保证整个系统的平安性。网络层网络乂平安是保证网络节点之间数据传递的平安性,以及网络环境不受恶意攻击。XX银行数据仓库环境建立在企业内部网络中,不同功能的效劳罂应部署在不同网段中,网段之间相互隔离,对网段之间的访问应通过防火墙并定义严格的访问控制策略.整个系统的网络环境应得到实时监控,对入侵进行检测和处理,并在发生入侵时通知系统管理员。物理层物理层平安保障物理设备(主机、路由器等)不受非法用户攻击。目前物理设备的平安性由运行中心负贡。管理管理局部与上述的所有平安问题相关,对平安问题的管理必须由多个部门共同协作完成。管理层面包括: 平安资源:实现各种平安使用的资源,如:防火墙,入侵检测和处理设备,反病用软件等: 平安策略和规划:各种平安规则,组织和责任人; 突发事件处理:在发生平安威胁时的应急处理流程,包括:事件记录、时间报告制度等流程; 平安审计:对平安策略的审核和检查: 灾难恢复方案:发生问题后的系统和数据恢复:1.3EDNi逻辑架构1.3.1 逻辑架构框架如上图所示的XX银行EDW的逻辑体系架构,这架构是在联科可扩展的EDW系统框架的基础上,结合XX银行信息系统建设的实际情况而设计出来的多U,可扩展框架结构。架构的核心上包括源数据层、ET1.流程调度、数据平台层、数据集市层、应用效劳层、访问控制层、用户层和数据消费传输通道七个大局部,另外,元数据管理和平安管理也是系统必不可少的局部,这2局部会涉及到所有核心层次。在明确定义各层之间的接口后,多层框架结构具有高度的扩展能力和方便的系统开发和维护性能,符合目前流行的多层应用结构,适合EDW系统多阶段、多层次的应用特点。1.3.1.1 源数据层【功能与作用】总行的各个业务系统为整个EM系统提供原始数据支持,首先作为ET1.层的数据抽取源,【组成局部】日前总行的数据源包括XX银行的多个业务系统,主要有核心系统、个贷系统、时公信贷系统、国际业务系统、财务系统和各类渠道系统等。1.3.1.2 ET1.流程调度层【功能与作用】该U为EDW数据流向的主要环节,EDw系统数据流动的流程调度核心乂,流程调度主要针对下面几个方面: EDW系统将数据源的数据抽取到数据落地区 EDW系统对数据执行格式转换、排序去选、通用数据清洗、业务转换后等操作,最终完成数据准备区加载。 EDW系统再将数据准备区的数据按照EDW数据模型的方式加载到数据存储区中。 在数据存储区中进行基础数据层、加工汇总层和应用集市层的数据加载。 EDW中的数据准备区和数据存储区可以为为其它系统提供数据效劳. 总行EDW可以为分行EDR'提供数据效劳。【组成局部】上面的逻辑架构图淡绿色色矩形局部为ET1.调度管理技术架构图,其作用是让许多的任务在作业的执行条件满足时自动地执行。ET1.谢度管里最根本的可执行元素是单元,每个堆元是完成某特定功能的程序,相关单元组合在起构成了可以调度的最小组件一一任务。由上面的技术架构图可知,ET1.调度管里.包含以下组件: 知识库建立在DB中的一个数据库,包含了与流程调度相关的一组表,保存ET1.流程调度效劳器、任务、任务之间的依赖触发关系、任务组、调度方案等多种类型的信息。 侦测器驻留在后台的效劳,基于定义的触发规则和冏度方案监测是否触发任务的执行。 任务调度引擎接受侦测器的信息调度任务执行(可以使本效劳器任务也可以是其它效劳曙的任芬)。 任务执行代理调用任务包含的每个单元执行的效劳,同一效劳器上可以有多个任务执行代理同时运行. 任务封装在PerI程序中,执行数据加载、整合、立方体生成等工作的一组程序。 日志管理引擎记录ET1.调度管理各个效劳器组件以及每个任务的执行日志,日志按天保存,可以定期清理。 管理监控器JaVa应用程序,用下定义任务、任务组合触发关系等信息,同时可以实时监控任务执行情况杳看日志。作为专门为数据仓库系统设计的流程调度管理具有如下特点: 任务执行代理可分布在多台效劳淞上. 结构简单、伸缩性强。 支持多种执行任务.D加载数据2)整合数据3)数据质量检查和清洗4)数据转换5) O1.AP数据生成6)数据挖掘模型的执行7)定制报表的产生8)定制页面的产生9)数据库备份、告警等系统作业10)调用其他ET1./E1.T工具产生的任务ID数据导出到指定的柒道系统执行的任务可以是另个任务调度引繁触发(如:EDW)。可以启动其它的ET1.引擎的任务。1.3.1.3 数据平台层【功能与作用】作为本系统的数据核心局部,它负贡存储和管理来自各种源数据系统的数据,并为访问用户提供数据效劳。这些数据是按照在逻耕数据模型分主题存放的,【组成局部】本层由操作型存储区、仓库存储区和集市应用层四个局部组成。详细内容参见“EDW数据架构"1.3.1.4 数据集市层【功能与作用】数据集市是一组特定的、针对某个主题域,部门或用户分类的数据集合。这些数据需要针时用户的快速访问和数据输出进行优化,优化的方式可以通过对数据结构进行汇总和索引。通过数据集市可以保障EDW的高可用性、可扩展性和高性能。【组成局部】包括:驾驶他报表系统和灵活查询以及其他应用集市系统.1.3.1.5 应用效劳层【功能与作用】通过对数据平台层中的数据进行适当的提炼、汇总,利用通用展现平台向用户提供包括报表效劳、查询效劳、决策仪表盘等相关效劳。该乂为用户对中央数据的访问提供各种方式的效劳(C/S、B/S),从而实现访问方式的多样化和信息存取的透明化。【组成局部】通用展现平台主要包括的功能模块有:第一个层次是核心模块包括:框架、引擎,核心模块作为报表集成开发环境的基础、核心和框架存在。报表集成开发环境核心功能和模块组装由核心模块统提供,只暴露绐开发人员:第二个层次是管理模块包括:报表信息、根本管理、代理、信息推送、连接信息,管理模块为报表集成开发环境提供管理效劳,它提供报表集成开发环境的用户、权限等的统一管理,管理模块也是报表集成开发环境必选模块,它的很多功能调用由核心模块提供,管理模块包括5个子模块:第三个层次是应用模块包括:仪表盘、灵活查询、数据录入、报表、笈杂报表,应用模块提供报表臾成开发环境最终用户(非管理人质)的用户体验,可以和管理模块相结合有选择地灵活部署。1.3.1.6 访问控制层【功能与作用】访问控制层主要包括WEB、认证、平安、门户四方面的效劳。该层位于用户层和中间效劳层之间,为用户层成提供HTTP效劳、门户的单点登录、用户统一认证、提交用户层请求到中间效劳层,对用户实施平安策略,为用户管理报表、查询文档,提供个性化定制等。1317用户层由上面的逻辑架构图可知用户层包括各种最终用户。按照用户使用EDW系统的方式和特点,可以划分为业务分析人员、高级分析人员和管理决策人员。所有用户统一通过用户门户访问EDW系统各类应用,从而实现了EDW系统的应用界面、平安管理统一,同时用户可以对门户进行个性化定制以方便自己使用。实际上,EDW系统还包括进行系统建设的开发人员、系统运行人员和系统管理人员,这里所指的用户层主要针对业务用户进行描述。 业务分析人员主要指总行各业务部门、各分行的业芬用户,如:客户经理。该类人员直接使用模块化的应用界面访问EDW系统,生成或预览预定义报表,进行相对固定的查询以及多维分析”这类用户会使用B/S和C/S两种客户端访问EDW系统。 高级分析人员是指总行各业务部门、各分行的较为高级的用户。除能鲂执行一般业务分析人员进行的操作外,可以对指定的主题、指标进行自定义的灵活分析和比较.分析的方式包括自定义查询、自定义报表、多维旋转和穿透钻取等等。这类用户会使用B/S和C/S两种客户端访问EDW系统。 管理决策人员主要包括各部门的领导、分行领导和总行领导。EDW系统为管理决策人员分配专门的系统资源,建立最为直观和方便的存取界面,为决策人员赋予最大的信息访问权限,实现决策人员对信息的自由访问。同时,EDW系统将决策人员最为关心的信息主动发布到决策人员的访问界面上,简化信息访问的方式,使得决策人员在第一时间获得经营管理的各种重要信息和指标。这类用户只会使用B/S客户端访问EDW系统。1.318消费数据传输通道在数据仓库系统建立以后,会有很长段时间旧有的报表系统和分析系统需要逐步迁移,在此期间,需要有一个消费数据传输通道来支持旧有系统的良好运转.1.319平安管理体系平安管理体系主要包括以下四个方面: 网络平安主要包括在不同网络乂次设理不同级别的防火堵及IDS系统,同时在每一个平安乂次下通过部署不同的平安原则,这完全符合XX侬行的平安级别规定。 操作系统平安系统所有应用或数据库效劳器均采用1.hiX操作系统,操作系统本身有着严密的系统平安认证与用户权限管理体系,并具备登录、审核以及资源访问的审计与跟踪。 数据平安提供各种基于数据阵的平安保护机制. 应用平安应用是直接面对用户的,虽然应用系统能够持续提供效劳是涉及到系统平安的问题,但是因为这些问题更多的是由系统的平安问题来保证的。所以就应用级的平安策略更多的是保证对数据访问的合法性,1.31.10元数据管理体系在机构内关丁数据的信息称为“元数据(MCtadata)”°消是地区分数据库中的数据和元数据是很重要的,所谓元数据,是指关于数据的数据,即用来描述数据的类型、来源、定义、存储位置,使得可以正确地使用数据仓库。元数据仓库(MetaDataRePOSitOr”对业务人员来说是很重要的,是业务人员与数据仓库的数据交流的传达手段。IT人员可能已经拥有许多有效的工具进行数据存取。但对业务人员,他们需要一种手段和工具来理解他们存取的数据。在本期EDW系统的建设中,包括技术元数据和业务元数据两类,其数据源涵盖了EDW系统的各个环节,包括:数据源系统、EDW数据库、EDW逻辑数据模型、ET1.系统、业务应用系统等,同时,还将涉及数据的业务含义和业务规则等相关业务文档。在架构上,元数据系统包括:元数据应用、元数据报表、元数据分析、元数据集成系统、元数据展现系统'元数据管理系统、元数据维护系统.1.3.2数据处理流程备业务数据源系统通过多种方式(如:ET1.工具直接从源系统获取、源系统数据批量导出)将数据获取过来,由数据落地区区进行集中管理。后续的数据加工、转换通过ET1.ServCr来完成,中间采取不落地的方式,将加工完毕后的数据放在数据准备区域。ET1.SerVer可通过dsjob,等方式从数据落地区获取数据,将处理后的结果放在数据准备区域。再将数据准备区的数据加载到数据存储区中。根据目标系统的不同,采用灵活的方式向外提供数据,可使用ET1.工具直接向目标系统加我或者通过FTP方式向其他目标传输。为支持其他的业务需求,将近期(30-60天)的明细数据、流水数据集中存放在数据库系统中,日常增量数据刷新数据库系统.整个过程通过调度工具进行统一调度,集中管理,幽保各项任务有序完成。1.4EDNi运维架构1.4.1 运维架构概述以下图中给出了EDN的运维架构,是在EDW系统上线后,为了保持系统良好的稳定性而定义的相关的管理需求。运维架构主要是针对执行架构的数据导入层、数据效劳乂、中间效劳乂和访问控制层效劳器进行管理,面向的垠终用户是IT人员。运维环境系统监控管理系统维护管理图1运维逻辑体系架构运维架构中包含了如下组件:系统监控管理组件、系统维护管理组件、备份恢狂管理组件、故障切换管理组件、性能容量规划组件和运维平安管理组件。各个组件的主要功能如下:系统监控管理组件:监控网络/系统性能、运行,以及诊断和报告故障。管理的硬件和软件包括所有开发、测试和生产环境中的硬件和软件.系统维护管理组件:系统维护是指系统在运行过程中,为了系统的正常效劳而进行的配置、参数管理,以及启/停机、清理过期数据等日常操作,以及数据,系统发生变更的维护等.备份恢复管理组件:备份/恢爱管理组件处理系统中所有必须的备份和恢复操作.这个组件根据备份策略.通过时数据的冗余存储来保证系统可以从各种效劳中断中恢史.故障切换管理组件:故障切换管理提供了管理和控制应用切换的机制。故障切换组件使用冗余系统和数据来保证关键任务数据流不间断。当发生故障或失败时,该切换发生在主系统和备份系统之间。性能容量规划组件,性能及容枇规划从环境中的不同元素收集利用数据,并规划破件和软件能力需求O运维平安管理蛆件;运维平安管理组件通过制定和管理运维平安策略,并利用平安工具,维护信息系统资产(包括硬件,软件、用户数据、信息/数据的机密性、一致性和可用性.运维环境管理组件:运维环境管理用于确保物理环境和系统环境的妥善管理和保护,不受故障和灾难的侵害,以及不受人为因素的干扰和破坏。整个运维架构通过些标准的流程实现生产环境运行管理,包括的流程主要是日常操作流程和特殊操作流程。日常操作流程是指IT用户在日常为维护生产环境正常运转需要做的工作,如:数据仓库管理、系统监控、备份恢或、容量规划。特殊操作流程不会每天发生,这一流程的启动通常是由于系统软硬件升级、数据变更、新增应用等需求引起的.1.4.2运维架构的逻辑框架1.4.2.1 系统监控管理在EDW系统中,需要监控管理的系统元素可以分为如下五类:网络/主机管理:用于监控、控制和报告网络及主机状态。数据库/数据仓库管理:提供相关监控信息源,控制各个独立的效劳器或数据库/数据仓库。应监控所有的关键数据库/数据仓库性能比例,以保证许可用性和性能。应用管理:处理客户应用中发生的事件。应用本身包括了衡量内部应用响应时间和性能的工具,应搜集这些工具产生的信息(如日志、运行报告等)用于监控。生产谢度:生产调度组件包括了一套应用,用于调度和自动化网络、系统和应用管理(如ET1.)特有的任务。平安管理:运维架构中涉及的平安管理内容主要包括身份管理、系统级密钥和证书管理、平安策略管理。系统监控管理的主要任务及工具支持如以下图所示:ft务1.4.2.2 系统维护管理系统维护是指系统在运行过程中,为了系统的正常效劳而进行的配置、参数管理,以及启/停机、清理过期数据等日常操作,以及数据、系统发生变更的维护等。系统维护管理包括两方面的管理内容:系统维护和变更管理。系统维护是指系统在运行过程中,为了系统的正常效劳而进行的配置、参数管理,以及启/停机、清理过期数据等日常操作。变更管理允许对技术架构组件进行变更的控制管理。在EDw系统运行过程中,有两种典型的变更需要进行管理:数据变更和系统升级。变更控制组件可以协助运维团队、开发团队和业务部门之间的沟通,保障系统的变更平滑进行。系统维护管理的主要任务及工具支持如以下图所示:系统维护变更管理敬Ig仓座城护 救据库对象M 权阳阀 颈分eET1.雄护作业调度控制作业AH觊理日志理数据窿日走EI1.日志理住京优化数据变更 赛歌媒变更 数据横型交更 ET1.变更系统升级应用歌件知吸茄螂:耐升我ZZDBAdnunistraWcDBtvCaoagCTET1.AtamirtrMorReconfigSQ1.Visua1.EjkmDBIDiQCWgdDBSaurticsUtafd1.4.2.3 备份恢复管理备份与恢豆的目标在于:保证在任何时点对数据的完全恢宏。最低程度地降低数据丧失。尽量提高数据备份过程的效率。备份恢狂管理的主要任务及工具支持如以下图所示:1424故障切换管理故障切换管理组件提供了管理和控制应用切换的机制,提供系统的高可用性。故障切换组件便用冗余系统和数据来保证关键任务数据流不间断。当发生故障或失败时,该切换发生在主系统和备份系统之间。在故障或失败事件中,故障切换管理组件耨系统资源通路由到稳定配置的备份系统中,直到主系统被恢复或替代。网络设备冗余隋络设击自动容错机制期K仓库服务器无蛇备一RAID1I/O双路双工Chques机制网络容储咫络自动分配多个冗余连格负欲均盒现HPMC欣件冗余设备RA1.D15Serve-统一见1.4.2.5 性能和容量规划性能和容量规划组件代表了从环境中的不同系统元素收集利用数据,并规划硬件和软件能力需求的工具。数据通过放置在环境中系统元素端的代理进行的收集,并由容量规划组件进行分析.包括磁就容量、内存使用、处理器使用、数据库、和网络等。性能容量规划包括如下组件:信息收集:收集性能容是相关的重要分析数据:性能管理:对系统系统性能进行监控、管理,分析和调优:性能容量规划:基于历史趋势和未来性能容量需求进行规划;性能容量规划的主要任务及工具支持如以卜图所示:信息收集 NETJftiR1. CPU利用率 三fivo 内存管理 故冬电长情况 记录数 并发用户数 硕信思nM ttn三 性能管理 住能分析 住能调优DBMaragcr容誉估苴计武器ResourceUsaeMaciosandTab1.esDBPafonnanccMonitor1.4.2.6 运维平安管理平安管理组件通过制定和管理平安策略,并利用平安工具,维护信息系统资产(包括硬件、软件、固件、用户数据、信息/数据的机密性、一致性和可用性。平安管理是贯穿EDW总体架构的。例如,在运维架构中可能需要使用平安控制工具对系统管理工具的访问进行管理,在开发架构中则可能使用平安控制工具对代码存储的访问进行管理。为防止平安内容的重安,所有平安组件都应统一被考虑,它是路开发、执行、运维架构的。数据存储安全愉理安全用户登录控制数据存取拄制数据保护数据库访问安全犍库登录管制政据库存取嫄艇管理存取日志管理DBAdaHnutratocACCCSSManager致猿转移安生_屋ET1.软据传片安全放卷访问传、安全1.5EDW数据架构1.5.1 数据架构设计原则 统一标准对各源系统数据按主题进行统一整合:分行特色也按统一标准进行补充建设。 灵活性原则数据模型要为数据应用提供有效的信息支持,这些信息需求会随着银行需求的变化而不断增加,进而会引起需求的不可预料性。特别是加工汇总层的数据架构必须符合“汇总指标可灵活增加”的技术要求,不会随者指标的增加而变更数据模型。 可扩展性原则随着源系统和数据集市应用系统的不断增加,数据模型应提供一个标准化的设计思路,以便业务系统的扩展。 高效原则数据模型面临海量数据的加工和存储,随着时间的推移,数据将不断累积,因此效率问题是直接影响系统可用性的关键因素,数据模型的效率包括ET1.的加工效率和数据展现的查询效率,因此数据模型的数据组织和存储,必须是高效可用的, 实用性原则处理大量的源系统数据,将会占用大量的系统资源,因此必须仔细分析数据的实用性、指标的使用频率,以业务需求驱动为原则,对业务提出的基础数据和指标需求进行优先级划分,正确制定指标的汇总粒度。加工汇总层要重点解决共性指标的加工。 存储空间合理性原则数据模型需要处理海员数据。随时间的增加,存储数据越来越多。因此在设计时必须考虑如何合理组织数据,以减小数据冗余.1.5.2 数据架构分层设计数据应用区维护管理权来管理参tk管理风险管理资产负使数据集市数据集市KP1.指标集驾驶舱管理效据集巾报表数据要市应M1.Cfef1.1.(按不同对和粒度汇总)数据仓座存砧区三f