XX大学业务数据共享治理服务项目建设方案.docx
XX大学业务数据共享治理服务项目建设方案第一节项目建设的必要性一、项目提出的背景和依据XX大学在信息化过程中,通过建设数据管理体系,对数据资产有了统的渠道进行管理,并且构建了对数据管理进行监督和控制的组织。通过多个业务域数据治理规划的建设,使学校的数据有了全局的规划和数据归集。本期项目将继续以应用场景为导向,不断深化数据治理服务,并以此为基础形成一套可靠高效的治理服务体系,持续性的提升XX大学数据质量。另一方面,项目也将扩展数据门户,在共享开放的基础上提供分析决策、指标库、移动端处理的功能,让门户更贴近业务层更具使用黏性。二、现有系统和应用实际情况在数字化改革的引领下,XX大学大数据建设水平不断提升,数据价值不断得以显现。其中已建成校级大数据平台汇集了各个业务系统数据,并围绕数据质量六性(完整性、准确性、唯一性、一致性、及时性以及合理性)完成了一轮数据治理,数据质量得到了显著提升。经过前期的数据治理工作,对师生数据进行综合整理,形成师生主题模型,通过师生一张表及个人画像应用对外展示主题模型数据,支撑了应用场景的初步探索。同时考虑到线下数据的归档应用场景,推出了一表通系统,将线下数据或者系统不能管辖的人员及业务数据进行归档,例如通过继教生人员信息登记表,对各学院非学历教育的学生基本数据的采集,既补充了部分系统业务数据的缺口,又规范了数据的流转信息。此外,为了支撑数据中心数据的应用,提升数据质量,提高数据效益,信息中心开发了数据门户,将各类治理整合后的数据通过excel、ell推送、接口等不同方式按权限共享至部门、师生乃至应用系统,通过共享实现数据的协同治理。三、存在的具体问题和差距在已经具备良好基础并取得一定成效的同时,XX大学在数据应用过程中仍存在诸多短板。一是数据治理仍需加强,尤其在以应用为导向的数据质量探索中发现单单围绕六性提升的数据质量已经跟不上各部门数据使用需求。二是专题库建设滞后,以往建设的数据库更多是管理视角,业务视角下的专题库尚未启动,例如教师绩效考核系统已沉淀了很多教师业绩相关信息,但缺少专题库的建设,导致沉淀的数据并没有得到很好的使用,制约了数据价值场景的探索。三是数据创新价值不足,目前建设的数据门户注重开放共享,而在决策分析、数据指标、以及数据报告方面有所欠缺,导致数据门户对于业务场景下的使用黏性不足。四、项目建设的意义和必要性目前,高校的信息化的建设的焦点从“提供最基本的信息化服务和满足基本管理要求”逐渐转移到了“如何更好地向师生提供数据服务、决策支持”。因此对数据的质量要求、应用要求一提再提。但尽管高校对于这个工作的认知足够,且开展了各种工作,但因为数据本身的复杂性,其治理之路必然不是一路坦途。诸多高校信息化部门领导认为,中国高校距离全面的、学校管理层面的数据治理,其实还有很大差距。这主要体现在几个方面:高校的数据价值并未充分被“唤醒数据治理总体突破并不大,信息化部门对于数据的掌控能力仍有待加强等。为此在当下基础上,以应用为导向,探索条具备宁大特色,持续性迭代的数据治理、应用道路是必要工作。项目建设一方面将支持学校数据上报、业绩考核、数据分析等业务,以进一步挖掘数据价值,推动学校数字化改革。另一方面也将为其它高校提供示范,共同促进教育领域内的数据资产化、要素化进程。第二节需求分析一、业务需求分析高校目前传统的数据质量问题常围绕“六性”展开,即数据的完整性、准确性、唯一性、一致性、及时性以及合理性,缺乏使用部门对于数据的反馈,未能关注到数据在真正使用中存在的问题。本项目实现对全校数据的深化治理以及专题应用,从数据应用角度进一步提升数据质量。建立数据质量评估机制,促使业务部门主动承担数据责任,提升开放共享的积极性。高校目前存在的部分数据应用场景常围绕一些专题展开,己开展部分数据治理工作,但需要继续建设部分专题库,支持全方面的数据应用,专题库如下:审计上报专题库:目前XX大学审计上报工作主要是按照上报要求从繁多的数据表中整理上报数据,对口工作人员工作量大且校验困难,项目中建设的审计上报专题库将整合需要上报的数据表,定期更新数据,提供数据上报的线上模式,最终实现简化上报工作、反向促进前端数据治理的目的。教师业绩专题库:为做好学科性学院(含部分校级研究机构)聘期考核工作,采取全面与重点、年度管理与聘期考核、定量与定性、承担任务与完成任务情况、考查现状与发展态势等相结合的办法,进行教师业绩的年度考核。考核的基础数据来源有两部分,包括线上已有的绩效考核系统内数据以及线下未上报数据。科研专题库:根据高校"科研安''科研经费监督系统数据规范1.0(试行)的要求,需上报科研项目相关财务报销、招标采购信息,而这些数据暂无一个集合归口进行上报,归口人员工作量大,通过建设专题库,整合散落数据,为后续上报工作以及数据应用打好坚实的数据基础。房产专题库:按照XX省教育厅办公室关于归集报送高校国有房产相关数据的通知所要求,学校需要全面归集高校国有房产相关数据,实现和省教育厅大数据仓的交换共享。通过建设房产专题库,整合散落数据,为后续上报工作以及数据应用打好坚实的数据基础。教学督导专题库:根据国务院教育督导委员会办公室要求,学校需根据所要求的统计时间,对本科教学基本状态数据需进行统一采集上报。通过建设教学督导专题库,打通相关业务系统,实现数据整合,为后续上报工作奠定数据基础。同时丰富数据门户的功能,让数据门户更贴近业务层,更具创新价值。二、功能需求分析一是通过服务的方式来进一步提升XX大学现有数据质量,分别包括数据标准体系梳理、质量考核机制建立、专题库建设以及数据成果展示。由此需要构建完备的数据质量评价指标,作为数据质量考核管理的主要依据,指标主要由“6+N”构成,6是指数据的完整性、准确性、唯一性、致性、及时性以及合理性。N则是代表特殊维度的指标,数据的价值体现在应用,如数据的可用程度、丰富程度、价值密度等。二是围绕学校越来越多的数据应用场景,建设审计上报专题库、教师业绩专题库、科研专题库、房产专题库、教学督导专题库,让应用场景更灵活方便。三是在构建符合XX大学使用特色指标库,通过梳理指标内容,规范指标命名、定义、计算规则等内容后入库,并按需发布到数据门户中供教职工使用。同时为了便于管理,配套指标库需提供指标管理服务,方便的对指标进行运营维护。四是在当前数据中台、门户建设基础上,拓宽应用场景,探索数据创新价值。具体内容包括提供分析决策集成服务,将各部门建设的分析页面集成进数据门户,为分散的各个分析主题提供统一入口;定期自动化生成招生、就业、科研、人才引进四个主题的分析报告以便于协助师生、领导做决策;。三、性能需求分析稳定性要求:系统在常规压力下需保持7*24小时稳定运行,事务成功率需达99.99%o存储计算能力要求:系统需支持PB级数据的存储和运算能力。扩展能力要求:系统架构需支持横向扩展能力,可随业务量的增长进行必要的节点扩展。兼容性要求:兼容X86、ARM架构等,满足多元的资源申请,支持业务创新。数据服务类接口响应时间需小于等于2秒。常规页面展示响应时间需小于等于3秒。统计分析类查询响应时间需小于等于10秒。数据处理每日任务数需大于等于5000个。管理系统日均处理关键事务需大于等于30万笔。数据抽取平均每秒效率需不低于20万条。数据加载平均每秒效率需不低于20万条。数据服务支持正常1000个并发用户情况下的系统响应时间需小于3秒四、网络安全需求(1)信息系统安全等级定级根据信息系统安全等级保护定级指南(GB/T22240.20()8)有关要求,本项目将参照等保二级要求平台设计开发以及对应的数据服务。本期项目的软硬件建设坚持国产化原则,应适用于国产主流的运行环境。本期项目服务端部署在学校内网环境中,终端可支持国产化设备访问。未来可根据项目的实际需要来全面支持信创的软件环境。(2)风险管理机制通过建立健全的安全风险管理机制,设计全方位的网络安全保障体系,最终实现风险可控。首先,确定网络安全建设目标为风险可控,然后参考定级指南、基本要求、设计要求、实施指南和测评指南等标准,借鉴网络安全领域实践经验,使自身的网络安全水平获得整体提升,最终通过安全管理体系、安全技术体系和安全运维体系的建设,实现风险可控;其次,在日常的网络安全管理、建设和运维工作中利用PDCA模型(PIan-DO-CheCk-AC3规划实施核查改善),不断丰富风险管理知识库、网络安全知识库和运维知识库,以保障自身的安全防护能力。(3)风险控制和处置要求应制定并完善网络安全事件应急预案,按照事件发生后的危害程度、影响范围等因素对网络安全事件进行分级,并规定相应的应急处置措施。网络安全事件发生后,立即启动应急预案,实施处置并及时报送信息。根据网络安全事件的分级,各级审计机关组织先期处置,控制事态,消除隐患,同时组织研判,注意保持证据,做好信息通报工作。(4)信息系统安全风险分析信息安全保障体系覆盖信息系统安全所要求的各项内容,包含信息安全战略、信息安全规范和标准、信息安全管理、信息安全运作及信息安全技术五部分,满足信息安全要求。(5)安全技术和管理设计要求网络安全传输协议须采用HTTPS协议进行服务器数据传输,保证在网络数据传输过程中不被非法抓包,并且访问系统时通过身份认证,在身份认证的基础上,根据身份对提出的资源访问的请求加以控制。在前后端交互时,在传输用户隐私信息如身份证号码、手机号码时系统采用对称加密对传输参数进行接口层面的加密。数据安全需要对用户隐私数据、采集数据等数据进行安全管理,分为事前事中和事后三个阶段。事前要尽量防范,系统要经过严格的渗透测试,确保在应用层面不存在恶意攻击批量爬取用户隐私的数据可能;事中要及时响应,通过对系统服务运行和数据库的监控,系统要识别恶意攻击访问的请求,并及时进行处理;事后要组织巡检,每次恶意攻击访问之后,都需要系统的运维人员组织进行巡检,确保系统不存在数据安全的漏洞。为确保用户隐私数据绝对安全,在数据库存储时需要对用户隐私数据进行对称加密,在进行数据流调时需要提供解密算法对数据进行解密。第三节项目建设方案一、总体思路(一)建设原则总体规划,分步实施严格按照相关标准和规范,紧跟云计算、大数据技术发展趋势,结合XX大学信息化建设现状,科学规划数据门户及数据治理(二期)项目规划,按照“规划引领,统筹推进“的建设思路,加强顶层设计,明确建设任务和要求,先易后难,分步实施,积极、稳妥、有序的推进整个项目建设。技术引领,创新发展统筹推进项目建设,加强学校、行业、社会公司间的协作协调,形成发展合力。推动云计算、大数据、人工智能、移动互联网等新一代信息技术集成创新,结合各类校园应用需求推进大数据应用、管理及体制机制创新,实现数据引领校园管理模式转变。基于现状,升级优化在XX大学现有数据治理、数据门户建设的基础上,合理延用,保护已有投资,充分考虑平台的开放性和通用性,项目中所建平台具备不断升级的能力。稳定可靠,运维高效选择成熟实用的技术路线,适度采用符合技术发展方向、先进的技术,保证技术升级的连续性、稳定性、可靠性。采用安全可控的产品,综合运用信息安全技术,建立安全可靠的信息安全保障体系,提高故障监测预警技术水平,增强运维智能化和快速处置能力。(二)标准规范1 .教育管理信息化标准2 .CELTS-33高等学校管理信息标准3 .教育管理信息教育管理基础代码4 .教育管理信息高等学校管理信息5 .高等学校数字校园建设规范(试行)6 .信息系统安全等级保护基本要求7 .关于信息安全等级保护工作的实施意见8 .信息安全等级保护管理办法(三)总体架构(四)技术路线数据门户采用B/S架构,支持信创操作系统,支持信创数据库。而在数据层面则采用分布式数据库,能够并行处理大量的数据,同时数据库内的数据经加工后可为第三方系统(软件)提供二次开发所需的APl接口供调用,项目所涉及的主要技术路线如下:I、并行处理及并行处理数据库MPP(MassivelyParallelProcessing),即大规模并行处理。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果。MPP数据库是款SharedNOthing架构的分布式并行结构化数据库集群,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算平台,并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统。2、元数据网关MetadataGateWay(简称MG)是一种基于驱动动态加载的异构数据库元数据采集网关,提供统的注册和开放跨语言的Rest(英文:RepresentationalStateTransfer,简称REST)接口,来完成多种数据库适配、元数据采集和访问,从而解放数据治理复杂度。3、API接口APl接口是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件的以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。4、分布式发布订阅消息系统(Kafka)Kafka是一个拥有高吞吐、可持久化、可水平扩展,支持流式数据处理等多种特性的分布式消息流处理中间件,采用分布式消息发布与订阅机制,在日志收集、流式数据传输、在线/离线系统分析、实时监控等领域有广泛的应用服务依赖。(五)部署方式本项目将沿用当前数据治理、数据门户的建设成果,在学校私有云内利用虚拟化服务器部署数据加工开发软件,利用人工服务的方式对数据进行二次处理加工,形成的成果将落地在现有大数据平台中。(六)运行推广本项目的受众群体是XX大学全校师生,因此项目建设完成后,将在学校公众号、官方网站中进行宣传,以便于师生使用。同时为了使项目成果更具影响力,在经本校许可及审查的前提下,可由中标人利用社会资源进行宣传推广。信息中心将接受来自师生、社会公众意见进行不断的优化。二、建设目标(一)总体目标(1)通过人工服务结合工具平台双重手段,固化当前数据治理成果形成相应的规范体系,同时在质量问题发现过程中,迭代提升数据质量,并按场景形成相应的视窗以便于及时监督检查;(2)以服务的方式,在现有成果的基础上进行深化,降低平台软件建设带来的成本,具体包括构建一套能全方位展示当前数据价值的专题库和指标库,并围绕指标数据等内容拓展数据门户功能,为门户用户决策分析提供帮助(3)打造一支了解学校现状、懂教育领域数据、具备专业大数据技术积累的服务团队;(4)通过数据资产盘活,以服务供给形式为牵引,创新大数据在教育领域应用,提高XX大学决策科学化水平与服务智能化供给水平。(二)项目支持的用户、业务内容和数据规模目标本项目将利用学校全域数据,服务于全校师生;支持学校数据上报、业绩考核、数据分析等业务,以进一步挖掘数据价值,推动学校数字化改革;本次建设覆盖全校各类业务系统中的结构化数据,总体数据量预计TB规模。(三)项目在改进服务、提高效率、加强监管等方面的预期量化绩效目标完成数据标准3.0版本的修订工作,为全校结构化数据的质量提升提供指导;专题库支撑各类型数据上报工作,包括审计上报、科研、房产等;数据质量得到明显提升,各部门应用过程中提出的数据质量问题呈下降趋势;师生可利用指标快速获取最新数据;定期生成分析报告可为领导决策提供支撑。三、建设内容本期项目将开展四个内容的建设,一是通过专业化的服务方式来进一步提升XX大学现有数据质量,涉及的服务内容包括数据标准体系梳理、质量考核机制建立。二是围绕学校越来越多的数据应用场景,建设支撑专题库和指标库,以及数据成果展示,让应用场景更灵活方便。三是在高质量数据、当前数据门户的基础上,扩展数据创新应用,让数据成果覆盖到更多人。(一)深化数据治理服务数据治理是一个“由终而始''的系统性工程,因此数据治理服务应以应用为目的,在达成该目的过程中不断进行。本项目规划的数据应用包括分析报告等在内的长周期性内容,因此治理的时间范围应将整个应用周期包含(数据应用服务周期是从中标开始到质保期结束)本项目中所提及的治理对象将从门户端不断向源端推进(即在做好数据门户治理工作的基础上,不断向大数据平台乃至源数据段进行推进)。有别于传统管理视角下符合规范性质的治理,项目中所做的治理将以业务可用为核心,双管齐下提升数据质量。1、建立数据标准体系>XX大学数据标准输出XX大学目前已经积累了一定的数据标准,在确认标准符合使用场景的基础上,将对原有数据标准进行完善。具体措施则是通过解读国家、教育部等部门提出的标准文件,参考其他高校的数据标准,对照已有标准进行修订。在既有标准的基础上,依据国家、教育部等上级单位的数据标准,结合XX大学特色,为XX大学梳理符合实际需求的全套数据资源标准,并输出相应的标准体系文档,同时建立起标准动态更新机制,及时保持数据标准的准确性、可用性。本项目需要梳理的数据标准体系作为XX大学数据标准3.0涵盖如下内容: XX大学数据集成规范(新增) XX大学数据编码规范(修订) XX大学数据建模规范(新增) XX大学数据交换标准(新增)上述标准将形成校级文档并发布,同步配套形成相应的数据标准管理办法,确保标准真实应用到学校的信息化管理工作中。 数据资源目录编制数据资源目录编制,将帮助摸清XX大学各个业务部门数据资源的现状和特点,掌握整体情况,理清类型和属性,明确资源数量和状态。在目录编制过程中明确数据资源的采集、共享、更新、维护责任单位、责任界定、管理要求以及各个工作环节,实现数据资源采集、共享、更新、维护的长效机制,为数据资源的管理、发布、查询和服务打下基础。通过目录编制,摸清部门内和跨部门的共享信息需求,并将这种需求反映到数据资源目录中,以统一规范的形式,实现数据共享应用。 数据资源目录梳理流程(参考):数幅H浆穗理流程图目前XX大学已经初步完成了数据资源目录的编制工作,但未能形成体系,因此本项目将围绕上述要求进行数据资源的调查和梳理,并输出数据资源目录,配合XX大学数据标准3.0共同构建起校方的标准体系。2、结构化数据治理和质量评估站在管理视角上,XX大学在结构化数据治理方面已取得了相对一定的成效,具体包括围绕不断迭代的数据标准做了初步的数据治理并形成了校级的标准库。但从应用视角上看,单单是管理角度的数据治理对数据质量的提升并不够,因此本项目将从应用视角出发,以应用需求、应用反馈作为数据治理的输入条件进行深度的数据治理,确保数据的高可用性,同时应用视角下关于数据的通用性要求也将与XX大学数据标准3.0乃至后续的迭代版本形成良性互动,确保数据标准的适用性。数据治理离不开评估考核,因此建立健全数据质量评估机制,是进一步促进各部门数据质量,提升数据共享交换的积极性的必要工作。针对XX大学数据环境现状,制定针对性的评估范围与评估指标,具体包括:数据质量评估指标数据质量评估体系及评估对象R)评估指标品指标权重回指标期绸值评估内容(信息中心作为评估部门):信息系统梳理情况、数据资源目录、数据汇聚治理情况、数据共享应用四大模块。信息系统梳理:评估XX大学信息系统的梳理情况,确认各个业务部门的信息系统均已完成对接(除事先申明不做对接的系统外),并按需提供了对应的系统地址、账号密码、访问权限等内容。并以此作为信息系统梳理检测评估的指标项。数据资源目录:按照教育部、校方提供的数据资源编目指南或其它相关文件对各个业务部门的所管理的数据资源目录梳理情况进行评估。数据汇聚治理:围绕所梳理的数据资源目录,对数据资源目录中所涉及的数据汇聚情况进行评估,包括应归尽归情况、数据更新周期、数据量等。数据共享应用:数据最终目的是流动应用起来,因此共享应用作为质量评测的重要一环将进行重点考虑,共享应用将从两个方面考虑,一方面是作为数据提供方,保证数据门户中相关数据的准确性与可用性,同时能对应用端提出的改进需求进行及时响应。另一方面将从决策分析角度出发,决策分析中所涉及的指标计算需求数据也将作为数据被高质量共享应用起来的依据。数据质量贯穿了汇聚治理、共享应用两项核心评估内容,因此需要构建完备的数据质量评价指标指标,对这两项核心内容中所涉及的数据质量进行评估。参照本项目中所完成的XX大学数据目录3.0和XX大学数据标准3.0,结合数据门户的数据应用情况,构建质量评估指标,具体由“6+N”构成,6是指数据的完整性、准确性、唯一性、一致性、及时性以及合理性。N则是代表特殊维度的指标,数据的价值体现在应用,因此也应从应用角度去设计质量评估指标,如数据的可用程度、丰富程度、价值密度等,可参考以下指标描述:指标描述六性指标唯一性校验找出模型重复数据合理性判断数据是否合理及时性校验判断当前模型时间标识字段是否是晚于截止日期特殊维度可用性数据门户中该数据使用评价-P,士丰吊性最频繁使用字段的含量价值密度数据被其它部门使用次数数据质量评估规则:数据质量评估指标作为宏观意义上的考核点,其需要落实成可执行的评估规则(如合理性中可针对某数据项设置其取值范围并固化成规则)。项目将围绕上述“6+N”的指标所代表的意义,可分析各个维度内的评估点和所需评估的数据项,参考XX大学数据标准3.0和业务常识,生成相应规则库由工具定期自动执行,相应结果由人工进行二次审核。数据质量权重设计:各级指标的权重代表的是该指标在整个质量评价体系中重要指数的大小。这些指标权重的不同可以由三方面的因素决定:一个是XX大学对于该指标的关注、重视程度,越受关注的指标权重越大:二是各质量指标本身在整个质量评价中起到的不同作用,各质量指标本身的客观性差异对于整个体系影响程度在此过程中得到体现;第三是指标得到被评价者的认可程度,同时指标和权重的设计能够有效指导被评价者持续改进数据质量,具备可操作性。3、数据质量评估反馈评估结果是可以以word形式呈现,评估结果当中包含评分、排名结果,以及评分明细,具体参考以下元素序号元素名称说明1报告标题报告主题目及副标题2报告人报告生成人的名称或部门3评估对象报告评估的对象,可以是某个或多个数据提供部门4报告时间报告生成的时间5数据质量描述针对数据质量评估各个指标评估结果6图形图表如反应数据质量问题分类、趋势的折线图、柱状图和饼图等7质量评分与排名按照数据质量评价规则计算的当期数据质量分项得分、总分及排名基于考核要求产生的数据质量报告和数据使用方反馈信息,向数据提供数据质量工单,实现数据质量问题的发现和反馈,持续跟踪数据质量的处置与改进情况,实现数据质量的闭环处理,逐步提升数据质量水平,工单设计参考如卜丁XX大学数据质量提升反馈单编号时间业务部门联系人电话号码标题数据编号数据来源数据资源位置问题发现()质量检查()使用反馈质量问题类型()重复()缺失()错误问题级别()高()中()低问题描述修复时限信息中心建议4、深化数据治理服务成效以“数据可用、好用”为基础。形成符合宁大使用习惯的数据质量闭环管理机制,常态化开展数据质量评估和专题数据质量提升工作,持续解决业务场景中遇到的数据完整性、规范性、准确性、一致性等数据质量问题以及应用方提出的各种共性业务问题,方便为XX大学数据价值探索提供数据支撑。同时,通过本项服务,将更清晰的掌握数据资产,建立全校对内和对外的数据资产目录,让数据可见、可管、可用,形成全校数据“一本账”,明晰全校数据资产有什么、有多少、在哪里、从哪来、到哪里,从全局层面直观展现全校数据资产状况,支持各业务部门便捷、高效、灵活使用数据,赋能业务发展。(二)专题库建设服务专题库由根据数据应用场景的需要而扩展的各类指标项构成,是一种综合、不断完善的业务专题模式,支持动态、不断扩充的业务数据模式。专题库由各类专题应用类数据库构成,专题应用类数据库处于该结构的顶层,是通过对基础库进行挖掘、分析后的有特定应用场景的服务型数据集,为各部门及应用场景提供融合后的专题应用资源服务。专题库中的数据由需求推动建立。当有数据应用建设需求时,检查当前的专题库是否有符合需求的应用数据,如无,则进入专题库的建设流程。根据需求的分解,确立所需建立的服务数据。通过标准库的数据,在此基础上进行加工。1、专题库建设路径本项目内的专题库将存在两条建设路径,其一由信息中心从数据支撑角度出发,基于业务应用需求,主导建设相关专题库,各业务部门宜接使用建成的专题库。其二由各业务部门主动提出数据专题需求,由信息中心评估后进行建设,即从需求出发,多方协商共建专题库,为业务应用、数据分析提供全面的数据支撑。2、专题库建设内容A.审计上报专题库参照教育部科研数据上报年度表要求,汇总并设计审计上报专题库,专题库数据字段覆盖核心业务域的各项数据,包括但不限于教务、资产、图书管理、学工、采购、科研、招生就业、一卡通等系统。完成该专题库的建设后,后期可直接由专题库承担数据报送工作。XX大学现有审计上报相关数据表59张,合计千余字段,本项目将在此基础上进行建设,合理规划并落实相关数据,具体数据表包括信息系统基本情况表、一卡通系统卡户信息表、一卡通系统商户信息表、一卡通系统补助圈存表、一卡通系统交易流水表、教务系统学生基本信息表等共计59张。审计上报专题库同时满足老师业务管理方面需求以及审计上报需求,专题库内部分表新增部门字段方便责权部门进行数据管理,上报时则过滤满足省教育厅要求。B.教师业绩专题库业绩数据库目前并没有形成一个建设标准,且业绩数据本身是一个范围广、量化难、影响大的内容,本项目将以服务业绩考核这一最终目的为XX大学构建业绩专题库,逐步将衡量教师工作的业绩指标数据全部入库,全维度衡量教师的工作状况,做到测评服众,所有结果有数据做支撑。教师业绩专题库主要用于呈现XX大学老师各项业绩指标,本专题库主要用于业务分析,结果供领导决策使用,暂不提供数据共享。业绩库的建设进程将按照三步走的方式执行。初步建设将以绩效系统中的数据为重心,目前绩效系统中的数据表约有30张,字段上百个,通过系统性的梳理这上百字段,从而构建起教师业绩专题库基础。第二步,将以扩充教师业绩库数据来源为工作重心,利用教师业绩数据填报,丰富业绩库内容,同时由于业绩数据由老师自己填报,业务单位审核,因此第二步除了完成了扩充数据源的工作,另外也由终端用户对业绩数据做了深度治理,基本可以保证业绩库数据完整、精确以及可用。第三步,将以业绩考核为中心,在业绩库建设相对完整后,前端将为业绩库内的核心字段赋予权重,通过权重计算业绩得分,最终实现量化考核业绩的目标。C.科研专题库按照高校“科研安”科研经费监督系统数据规范LO(试行)的要求,通过归集学校科研项目相关财务报销、招标采购等信息,构建科研专题库,打通数据接口,实现数据互通,实时共享。XX大学关于“科研安”的表约有19张左右,包含预警总表、处理人员信息表、组织机构基本信息表、科研项目信息表、项目人员信息表、问题处置情况表、涉及单位表、项目支出信息表、差旅费、劳务费、会议费、培训费、出国费、资产采购、外拨费、接待费、咨询费等各类信息。围绕这些信息整合全员(科研人员、服务人员、监督人员)、全量(每一个科研项目、每笔科研经费、每张报销单据)、全流程(事前、事中、事后)、全要素(数据采集,处理流程,线上线下)的全部数据,打通校内科研、财务、招(投)标采购等数据,并且为未来科研类数据的报送奠定数据基础。D.房产专题库按照XX省教育厅办公室关于归集报送高校国有房产相关数据的通知所要求,学校将全面归集高校国有房产相关数据,实现和省教育厅大数据仓的交换共享。XX大学关于国有房产的数据表约有16张左右,包含人员基本信息表、土地情况表、院落情况表、楼宇情况表、房屋情况表、房屋合同表、合同缴费表、房屋水电燃气信息、政策性分房信息、政策性分房补助信息、房屋出售信息等各类信息。通过房产专题库的建设,整合国有房产相关数据,为后续房产预警模型的建设以及国有房产数据报送提供数据基础。E.学院专题库面向二级学院,具体将调研二级学院需求,为共性需求构建专题库,支撑二级学院数据中心建设,支持查询教学、科研、生活等学院相关数据。该专题库启动建设时将邀请二级学院代表进行讨论,或深入二级学院调研。F.预留专题库预留一个专题库建设内容,作为实际建设过程中的补充保障,根据实际需求成熟情况进行建设,以教学督导专题库建设为例,根据国务院教育督导委员会办公室要求,学校需根据所要求的统计时间,对本科教学基本状态数据需进行统一采集上报。统计时间包括时期数和时点数,其中时期数分自然年和学年。具体时间如下:自然年:指自然年度,即上年的1月1日至12月31日。如财务、科研信息按自然年度时期统计汇总数。学年:指教育年度,即上年的9月1日至本年的8月31日。如教学信息按学年度时期统计汇总数。时点:指特定时刻产生的指标数据的统计截止时间,即本年9月30日。如在校生数、教职工数、占地面积、固定资产总值等指标为统计时点数。通过建设教学督导专题库,将全校数据包括学校基本信息、学校基本条件、教职工信息、学科专业、人才培养、学生信息、教学管理与质量监控等信息进行采集,打通各业务系统数据壁垒,为后续数据报送工作提供数据基础。3、专题库数据质量发现及处理 数据清洗专题库数据服务各应用场景,而应用场景对于数据的要求并不是一成不变,因此需要通过技术手段对专题库内的数据进行质量处理。具体可根据专题库(特别是上报类专题库)的要求,对专题库内的字段进行设置和调整,可参考下面规则: 不允许空值,默认加入null符号 时间按照规则进行格式转换 去掉起始的非汉字内容 去掉括号及括号内的内容,括号类型包括口,(),【】.() 去掉所有空白符 去掉所有中英文标点符号,下面五个除外#,#,-,一, 等等专题库数据的加工处理可借助工具来完成,工具应能提供质量规则的自定义设置,并可随时进行调整。(三)指标库建设服务供应商需在方案中明确指标库建设流程 指标库建设路径指标库用于存放和定义XX大学业务口径数据,通过指标库的建设能准确、及时的呈现出目标结果。从指标库的定位可以看出,指标与业务场景强关联,因此指标库的建设依赖业务部门和信息中心的通力合作,即由业务部门提出符合使用需求的指标定义,信息中心通过技术实现该指标的结果计算等内容,最后由业务部门审定该指标是否有使用价值。对XX大学全业务域所涉及的指标进行调研与建设、做准形成指标库基础版,在此基础上不断迭代提升指标库的丰富性。 指标梳理在本项目中将依照七大分类(师生员工、科学研究、奖项荣誉等)进行统整理和归类,并明确相应指标的计算规则和计算数据。具体可参照下表进行梳理:序号指标名称指标描述所属部门指标计算规则数据来源IXX2XX3XX指标库规划(参考样例)数据指标一般宜接反应各个业务部门的运营情况,因此数据指标的制定将与XX大学业务部门强相关。本项目将收集业务部门提出的常用指标(包括但不限于给出指标名称、描述、计算规则、数据来源等),利用信息中心的数据资源、技术资源将指标结果进行计算并发布至门户中,供有需要的群体关注与查看。下表给出常用指标参考,具体以学校需求调研为准:指标分类指标内容师生员工教职工总数;正高人数;副高人数;各学生人数;新进报道、离职、离退休;学生人数;科研数社会实践志愿活动社团创新创业课外竞赛参与获奖平均挂科率全校获得奖学金人次全校获得助学金人次奖学金覆盖率受处分学生人数就业率全校信教人群心理健康异常人群总数消费异常人群晚于宿舍及学校大门关门时间节点回寝室的学生人数办学条件占地面积;学生宿舍;开办时间;马工程教材出版数量;中小学教材出版数量;重点出版社出版教材数量;新形态教材出版数量;国家级、省部级教学研究与改革项目数量;教育部及XX省产学协同育人项目数量;教学研究与改革项目按学院分布数量;各级虚拟教研室建设数量等指标;ESI学科排名趋势;ARWU世界大学学科排名;QS世界大学学科排名;THE世界大学学科排名;USNeWS世界大学学科排名;学习生活食堂商超;班车路线以及时间节点;报修情况(师生公寓、学生宿舍网络维修等);充电桩数量及分布;洗衣机数量及分布;各食堂消费人数及均额;各食堂拥挤度(容积率);菜品排名(特色菜);上网开通用户数、邮箱开通数、VPN用户数;荣誉奖项国家级奖项;省部级奖项;专利数;发明数;省部级A类竞赛获奖总数;竞赛获奖数量以及类型分布;近5年本科生毕业率及学院分布;近5年学士学位率及学院分布;学科专业专业数量;专业类型;重点专业;科学研究科研项目数量;科研设备数量及分类;项目数量;论文数量;专利数量;当年SCi收录、高引用论文、论文量著作数量;大型仪器寿命及状态;大型仪器设备分类分布;大型仪器所属平台分布(数量、价值)人才培养招聘岗位数;投简历数、录用、实际报到人数;优秀博士人数;学术骨干人数;学术带头人人数;学术领军人数;当前处理科技查新量;当年科技查新总量;(四)数据创新服务XX大学在上一期项目中,数据门户的建设已取得一定成果,构建了数据态势、运行管理、共享管理、个人中心、互动交流、后台管理等模块,从而展示了数据治理的成果,完成了数据在校内的开放共享,提供了数据需求以及纠错的途径,让全校师生共同参与到了数据工程中。随着数据应用的不断深入,对于数据门户的要求也越来越高,因此本期项目将继续探索数据创新价值,包括决策分析集成、指标查询管理、主题分析报告以及数据门户移动端。1、分析决策集成服务考虑门户的综合性,本期项目将会纳入其它业务部门建设的数据分析成果,可按照业务部门数据分析的主题在门户上呈现名称和简介,通过选择该名称及简介实现链接跳转,即通过点击门户中的分析主题可一键跳转至其它平台的分析页面,页面的设计和布局应美观同时与现有数据门户风格保持一致,供应商应确保新页面或模块能够集成进数据门户中。2、指标查询管理服务构建页面或模块,配合指标管理平台为全校教职工提供指标查询管理,页面或模块中应能展示各个指标分类以及分类下的各项指标,同时提供检索功能,可根据名称检索具体指标名称,以便于快速定位指标。为了便于管理与运营,构建指标管理功能,供应商提供详细功能设计,采购人可便捷的调整指标名称、定义、计算规则、和数据来源。3、数据分析报告服务具有事件针对性的主题分析报告,定期生成分析报告。