XX省统计局统计大脑项目采购需求.docx
《XX省统计局统计大脑项目采购需求.docx》由会员分享,可在线阅读,更多相关《XX省统计局统计大脑项目采购需求.docx(94页珍藏版)》请在课桌文档上搜索。
1、XX省统计局统计大脑项目采购需求一、项目背景略。二、建设目标1 .统计大脑依托XX省一体化智能化公共数据平台,构建一池一库一箱一舱一中心”的“统计大脑”体系架构,聚焦统计生产、统计服务、统计监督三大核心业务,建设全量归集多方数据的统计数库,构建以数据计算分析、知识集成应用、逻辑推理研判为核心的智能化能力中心,提升数据汇聚共享度、业务协同融合度、应用集成智能度,支撑统计数字化改革,提升全省统计业务的学习力、全面感知力、预测预警力、战略目标管理力和改革力。2 .共同富裕统计监测(二期)依托一体化智能化公共数据平台,建立以“人和“企业”为基本单元,构建基本信息明确、工作信息清晰、收支信息客观的全面覆
2、盖+精准画像”主题分析库,基于主题分析模型,为特定的应用场景支撑提供基础,迭代完善综合评估、1+3重点群体、N个重点专题监测的应用现有场景,完成6类“扩中”“提低”重点群体的精准画像。3 .一体化统计监督(二期)在一期功能基础上,对数据质量码、网上预警、智慧执法、掌上核查、量化督察、驾驶舱等模块进一步提升建设,强化掌上核查场景应用,实现对党委政府、职能部门、统计机构、调查对象、经济社会重大决策部署全面系统、精准量化、智能高效的统计监督,更加有效发挥统计监督职能的作用,推动防范和惩治统计造假弄虚作假向纵深发展。14 .投资领域全流程管理基于统计领域统计管理与监测系统,迭代升级重大项目推进、项目统
3、计入库在线审核、项目精准画像、统计智能分析等功能,定制开发驾驶舱,数据共享服务和无感统计等功能。5 .数据XX(二期)实现数据XX系统包括对数据XX发布库PC端门户以及数据XX工作库数据发布等内容的升级改造工作,按IRS规范要求对数据XX系统的相关模块升级和重构、实现数据XX系统与IRSXX省一体化数字资源系统的对接和部署。6 .综合数据库建设建设统计综合数据库,建立个人工作台,开发综合数据上报催报功能,优化统计年鉴、数据要情、月报、26县等资料本排版制作,开发统计资料文献库,完善分专业、跨部门数据共享。7 .数据质量管控系统(二期)强化季度GDP核算相关指标评估和管控,聚焦统计生产过程中数据
4、质量审核,与一套表系统对接实现企业预警结果一键推送,减轻基层负担,提高工作效率和数据质量;迭代升级驾驶舱,优化界面设计,突出重点关注指标;进一步完善农业专业数据审核,夯实农业统计数据质量基础。8 .碳排放智能统计核算以数字化手段推进碳排放统计核算工作,通过系统取数、自动核算、及时共享,统一规范开展全省分领域、分行业、分地区的碳排放统计核算工作并持续监测,为下一步碳排放考核和碳达峰进程提供及时准确数据支撑,撬动促进社会高效能治理。9 .统计单位全生命周期管理全面及时掌握统计单位(包括企业、事业、机关、社会团体、民办非企业等)出生、成长和消亡,为各专业的抽样调查提供更为准确的字典库。10 .高能级
5、战略平台2对全省新区和高能级战略平台综合发展状况、各新区和高能级战略平台的基本情况以及行业企业发展状况等方面的进行全方位展示,提高日常反馈数据的速度,也为各级政府对新区和高能级战略平台精准施策提供有力支撑。11 服务业数字化展示一是根据业务发展需要,集成服务业精准画像和关键指标于服务业首屏。二是实现服务业主要指标预测功能。通过统计建模对规模以上服务业营业收入等指标未来一年各月的增长情况进行预测分析,实现县级预测和分行业门类预测。三、业务需求1 .统计大脑1.1 统计算力池(一池)通过对大脑各应用、各服务、各组件的可访问状态定时监控,并将监控的结果数据进行归集整理,然后汇总分类,满足对资源使用的
6、监督监测,为调整资源分配达到最优化配置提供有力依据。1.1.1硬件资源监控获取政务云基础硬件的使用数据后,进行汇总分析并以可视化方式展示,以实现基础硬件在使用过程中的瞬时可见,并设定预警规则,针对资源不足和使用率不达标的情况及时告警。1.1.2安全监控统计统计算力池统一对系统漏洞数、系统攻击数、攻击拦截数进行汇总展示,实现系统运行过程中危险的可视化展示,为调整安全策略提供基础数据支撑。1.1. 3应用使用情况收集各重要业务应用系统访问量情况,提供信息系统故障台账管理功能,依据台账记录计算各应用系统平均可用时间,以可视化方式展示相关指标。1.2. 计数库(一库)推进全量归集,构建多维型“统计大脑
7、数据底座,建设统计数库(一库)。按照数据归集、数据清洗、融合加工到数据服务和分析应用数据全生命周期管理流程,盘点整合统计业务数据资源,形成各类主题数据库,建设统计数据仓库,形成统计系统标准规范化数据资源体系,在此基础上,利用大脑工具箱的Bl报表工具、一键报表组件能力以及Al机器学习平台能力进行数据分析与挖掘,支撑统计领域深化数据应用。同时为满足各部门单位和各级统计局对跨部门、跨场景的数据共享和服务需求,通过加强数据资产管理和数据共享开放建设,推动数据资源在局内外的融合深度应用,实现数据安全流通、标准化管理运营。1.3. 1数据架构1. 2.1.1数仓建设规划-总体架构设计总体架构设计是解决统计
8、大脑数据仓定位问题、划分边界,根据最新要求,把各个分离的组件有机的整合在一起,能够做到业务聚焦、技术聚焦、实现开发敏捷,使系统变得柔软,可以因需而变,实现统计业务敏捷。统计数库是在数据架构设计和标准建设的基础上,通过对统计局内部数据、统计重大应用数据等多种数据源数据进行采集,经过数据汇聚、存储、清洗、标准化处理形成分层分域的数据仓库,通过接口开发、FTP文件传输等方式支撑上层应用。2. 2.1.2数仓建设规划-业务流程设计数仓建设的业务流程设计是根据数据治理理论方法,结合统计大脑实际数据现状和资源部署现状,而设计的数仓开发工作业务流程,主要对数据源到数据应用过程各个环节进行梳理,保障数仓建设工
9、作能顺利开展。数据源经数据采集汇聚、数据存储、数据清洗标准化、数据融合分析、数据开放共享给到数据应用进行使用,部门业务系统使用的数据最终会有部分数据作为数据源进行数据治理流程,形成一个数据治理良性循环。3. 2.1.3数仓建设规划-功能架构设计功能架构设计是对统计数据仓架构按功能进行分层、分组件,并描述这些层及组件之间的关系。4. 2.1.4数仓建设规划-数据架构设计数据架构设计是针对统计大脑所有业务数据,基于业务数据的分类和数据业务领域,能够规划设计数据模型的分层及数据的流转,实现数据的高价值沉淀。为实现统计数仓的建模目标,满足统计大脑的业务需求和支撑能力,需要按照数据建模的原则和规范,对模
10、型进行分层设计,结合XX省统计局数据资源现4状,统计数仓模型架构分为贴源层(ODS)、基础模型层(DWD)、融合模型层(DW)、集市层(DM)。针对外围系统提供的接口数据,通过统一采集至贴源层,必须在基础层做存储,再按建模规范逐层处理。贴源数据层(ODS):存储统计数据、部门数据、社会大数据和行为数据等原始数据,遵照数据模型命实体命名规范,字段按照原始字段。基础模型层(DWD):结合数据仓库数据处理方法论,在数据语义层面及部分业务语义层面进行粗加工产生的模型。融合模型层(DW):整合子层以范式模型设计理论为基础。为了提升模型的简单、易用性,汇聚子层以维度模型设计理论为基础。设计过程中遵循本规范
11、的主题域和主题子域划分标准,遵照数据模型命实体命名规范,参考字段命名规范。业务应用层(DM):以满足业务应用的需要为主,其数据主要由融合层数据生成,部分数据可直接由基础层数据直生成,只针对应用设计,提供数据支撑使用。5. 2.1.5数仓建设规划-技术架构设计技术架构设计是针对统计数仓数据处理原则,能够运用大数据技术,进行技术架构顶层设计,实现结构化数据的处理分析、各类主题库开发以及统计业务数据安全管理等能力,通过先进的技术手段实现全面业务数据化。1.2. 1.6数据规范-命名标准需要对统计数据仓的命名进行标准制定,包括数据表的命名定义以及数据字段的定义。对数据表的标准命名,可展示出数据表属于哪
12、个主题领域以及归属的主题域,如综合统计、工业统计、能源环境、人口就业等;对数据字段的标准命名,更好展示数据的业务属性。通过标准化的数据命名后,让系统数据仓更加清晰、利于操作和便于维护,助力统计大脑后续数据的使用。1. 2.1.7数据规范-采集标准对接业务数据源端系统,需要制定数据的采集标准,包括数据接口的适配、采集的监测及处理等标准化能力。采集接口适配:针对一套表系统、共同富裕应用等局内部业务系统以及各地市统计局特色数据库,能够支持数据库、文件、消息等接口方式的适配管理;采集监测及处理:能够对采集任务在执行过程中的健康检查,异常处理;确5保整个数据交换过程的稳定可靠;主要功能包括单元生成、单元
13、编译、交换执行、健康监测、异常处理等。1.2. 1.7.1数据规范-清洗标准统计数据业务领域多、内容复杂,针对数据的清洗需要制定标准化的规则,能够实现支持数据的缺失值、异常值、重复值和无用值等的清洗,针对不同清洗内容,采取对应的技术方式进行处理,提高数据质量。方法一致性:数据清洗工作应统一决策,同一数据库范围内工作方法、技术指标均当统一,从而达成数据产品的一致性。数据可信性:从数据的精确性、完整性、一致性、有效性、唯一性五个方面提高数据可信性。精确性是描述数据是否与其对应的客观实体的特征相一致;完整性是描述数据是否存在缺失记录或缺失字段;一致性是描述同一实体的同一属性的值在不同的系统是否一致:
14、有效性是描述数据是否满足用户定义的条件或在一定的域值范围内;唯一性是描述数据是否存在重复记录。1.3. 数据可用性:从数据的时效性、稳定性提升数据可用性。时效性是描述数据是当前数据还是历史数据;稳定性是描述数据是否稳定,是否在业务有效期内流转的数据。1.4. 1.7.2数据规范-汇聚标准以源系统为主要参照数据源,定义数据并建立数据关系,分主题域进行实体关系模型的设计,并制定主题宽表汇聚标准及汇聚内容,提升数据的完整性、一致性和模型的稳定性,实现大数据主题域数据的整合。主题域分为:统计设计管理、综合统计、国民经济、工业统计、能源环境、固定资产投资、贸易外经、人口就业、社会科技、农业农村等领域。同
15、时,在形成各类主题模型宽表的基础上,根据业务需要,加工业务相关性较强的指标形成固定格式的报表,主要包括高能级大屏、共同富裕、碳中和、知识图谱业务应用专题。1.2.1.7. 3数据规范-接口标准接口标准是指为满足各级政府统计业务需求,需对流通数据的共享开放方式和数据提供形式进行标准规范定义。接口提供的形式支持且不仅限于文件、数据库、消息等接口方式,能够全方位适配于对接业务系统。且接口应有明确的接口6描述、接口地址、支持格式、请求方式、请求参数、请求样例、返回参数、返回样例等说明。1. 2.2数据采集基于统计局现有数据库建设基础上,按照一数一源、一源一主、一数多用”的原则,进行数据归集工作。主要对
16、接统计局各部门业务系统,进行统计业务全量数据库表的归集。数据采集的主要方式有数据库采集、文件采集以及接口采集。通过对MySQL、Oracle、SQLSerVer、POStgreSQL、HDFS、Hive、HBaSe、MaxCompute、FTP、文件等数据源进行读取或写入数据,配置数据源的连接信息(例如填写OraCIe数据库的JDBCURL、用户名、密码等信息),再配置对应的任务,进行采集工作。1.1. 2.2.IXX统计联网直报平台数据采集对接XX统计数字化应用平台,通过库表同步的方式,采集各类制度(第四次全国经济普查方案、贸易调查制度、企业一套表统计调查制度、商品交易市场统计年报、限上产业
17、单位(个体户定报等制度)所包含的数据表,并存入统计数据仓库ODS层对应的存储介质(PG库)。根据对直报数据梳理调研,本项目需采集其约790张表6千万条数据,并进行周期性任务抽取。采集的数据表有:财务状况及附加表、工业企业生产经营及景气状况调查表、住宿和餐饮业产业活动情况调查表、调查单位基本情况表、主要工业产品生产能力表、服务业经营情况表、建筑业经营情况表、能源生产销售与库存表、信息化和电子商务应用情况表、生产经营景气状况表、电子商务交易平台情况表等。1.2. 2.2共同富裕应用数据采集对接省统计局共同富裕应用数据,采集企业、群体画像的相关数据信息,并存入统计数据仓库ODS层对应的存储介质(PG
18、库)。根据对共富应用的数据调研梳理,本项目需采集其约30张表5千万条数据,并进行周期性任务抽取。采集的数据信息有:例如低收入群体的低保类别、户口性质、致贫原因、救助标准、月人均收入、申请救助原因、残疾情况、人均收入情况等数据,1.3. 2.3碳中和应用数据采集7对接碳排放智能统计核算应用数据,采集碳中和能耗企业相关数据信息,并存入统计数据仓库ODS层对应的存储介质(PG库)。根据对碳中和应用的数据调研梳理,本项目需采集其约2张表2千万条数据,并进行周期性任务抽取。采集的数据信息有:行业强度、工业强度、等价能耗、能耗强度、用电量、碳强度行业排序、能耗行业排序、能耗强度排序、绿电发电量、碳排放增速
19、、工业总产值增速等数据。1. 2.3数据清洗数据清洗主要根据各类清洗规则对源数据层数据进行清洗、转化和载入等标准化加工处理,形成数据质量和一致性高的数据模型,根据统计业务数据表维度特征,主要对时间、地区、机构、编码、状态和行业等类别制定清洗规则。1.2. 3.1时间类别清洗规则统计业务报表涉及同一时间维度下指标数据来自不同数据源的情况较多,例如各业务领域年报数据、季度报表、月度报表数据,通过清洗规则,将多个数据源、多个不同维度数据的时间存入同一个库表中,选出最优值并换算成同一时间标准。例如:A报表的某一时间的营收数据与其他系统或报表中的数据不一致,即可将A报表的这一数据进行校验修正。1.3.
20、3.2地区类别清洗规则统计业务报表涉及同一指标来自不同数据源的情况较多,存在一个指标有多个地址、地区的情况,通过清洗规则,将多个数据源、多个不同维度数据的地区存入同一个库表中,选出最优值并换算成同一地区标准。例如:企业地址信息在不同来源系统中显示不一致,以更新时间最近的为准进行修正。1. 2.3.3机构类别清洗规则统计业务报表涉及同一指标来自不同数据源的情况较多,存在人员所属单位类型信息多样的情况(各类企事业单位等),通过清洗规则,将多个数据源、多个不同维度数据的所属机构信息存入同一个库表中,选出最优值并换算成同一机构标准。例如:低收入人员家庭成员中,存在失业、已就业单位等信息,以更新时间最近
21、的进行修正。2. 2.3.4编码类别清洗规则统计业务报表涉及同一指标来自不同数据源的情况较多,同样的维度信息在8不同表中的编码不一致,通过清洗规则,将多个数据源、多个不同维度数据按照统一编码标准进行归集,对于编码不一致的选取最优值进行换算。例如:编制编码体系、将编码从数字1开始进行赋值赋能,对所有对应的数据项进行编码赋值,对于编码不一致的以更新时间最近的进行修正。3. 2.3.5状态类别清洗规则统计业务报表涉及同一指标来自不同数据源的情况较多,存在同一数据的状态信息不一致,通过清洗规则,将多个数据源、多个不同维度数据的状态存入同一个库表中,选出最优值并换算成同一状态标准。例如:个人是否缴纳社保
22、存在未缴纳、已缴纳等不同状态数据,以更新时间最近的进行修正。4. 2.3.6行业类别清洗规则统计业务报表涉及同一指标来自不同数据源的情况较多,由于细分行业较多且在不断更新,通过清洗规则,将多个数据源、多个不同维度数据的时间存入同一个库表中,选出最优值并换算成同一行业标准。例如:A企业在多处显示的行业信息不一致,实际由于企业转型由制造业转变为信息科技类型的企业,因此以最新的行业信息为准进行修正。1. 2.4数据主题库按照特定标识汇聚数据资源池的全部数据,形成描绘目标对象最完整的数据集。主要包括高能级大屏、共同富裕、碳中和、知识图谱的基础数据,通过基础数据采集、数据清洗、数据建模,形成面向应用划分
23、的主题库,为统计领域上层应用提供基础数据资源信息清单。同时,以满足业务应用的需要为主,按照对业务的理解和对对象信息的抽象,从顶至下定义数据域,以全局抽象的视角对数据内容进行归类。数据主题库主要包括DWD/DW模型层以及面向应用的DM集市层的数据建设(详见架构图),为统计应用提供模型数据与指标数据支撑。DWD/DW模型层有高能级大屏主题库、共同富裕主题库、碳中和主题库、知识图谱主题库等主题库建设。1.2. 4.1高能级大屏主题库高能级大屏是将高能级平台的各平台行业企业发展情况、经营情况以及趋势等方面的信息集成,并根据规模实力、监测预警、主导产业分布进行汇聚归纳,9为高能级大屏应用及其他部门相关业
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- XX 统计局 统计 大脑 项目 采购 需求

链接地址:https://www.desk33.com/p-843785.html