新代税务行业大数据服务平台支撑数据管税解决方案.docx
新代税务行业大数据服务平台支撑数据管税解决方案新一代税务行业大数据服务平台支撑数据管税解决方案文档名称新T弋税务行业大数据服务平台支撑数据管税解决方案作者邮箱版本V1.0变更2016/7/21V1.02016/7/24V1.21 总体业务需求分析与整体架构概览31.1 新时代的税务管理要求31.2 税务行业信息化建设现状51.3 大数据服务平台整体架构概览62 理论指导数据治理之需求与技术分析92.1 数据治理综述92.2 定义业务问题,以指导方向112.3 获得管理层支持,以获得组织与资源保障122.4 执行成熟度评估,以熟悉现状与确定将来所达目标122.5 创建数据治理路线图142.6 建立数据治理组织蓝图152.7 创建数据字典/业务术语库162.8 懂得业务与数据172.9 创建元数据存储库182.10 定义度旨标202.11 主数据治理212.12 ;年里分析222.13 管理安全与隐私232.14 辘生命周期治理242.15 度量结果243 理论指导大数据服务平台建设之需求与技术分析253.1 数据对数据管税的价值253.1.1 数据对税务的价值分析253.1.2 税务数据价值实现分析263.2 数据挖掘方法论指导大数据服务平台建设273.3 按业务主题与规则采集、加工数据以打好数据基础313.3.1 数据采集平台323.3.2 数据加工平台343.4 合理利用各类报表工具,实现报表展现服务373.4.1 固定报表实现分析383.4.2 临时报表实现分析393.4.3 报表展示与可视化分析403.5 灵活使用数据,实现多维分析与微创新能力423.5.1 多维分析技术设计423.5.2 标签体系设计443.5.3 微创新系统设计463.6 对内对外更好的数据共享与交换,扩充能力473.6.1 打破条线壁垒,实现数据共享483.6.2 实现数据流通,打通上下级与税务与其他部门的数据联系493.7 提供更好的开发模式,加速数据管税能力的提升49总体业务需求分析与整体架构概览1.1 新时代的税务管理要求新T弋税务行业大数据服务平台的总体目标是实现"数据管税二新时代的税务管理要求是,以税收风险管理为主线,以现代信息化先进技术为依托,加强业务与技术的融合,优化资源配置与税源管理体系,优化服务,规范执法,不断提高税法遵从度与税收征收率,形成新一代税收征管新管理方式:1)服务优化:税务管理部门的定位要从企业税务管理角色向企业税务服务角色转变,要利用现代化手段进行税务管理工作,在减少对企业日常经营的干扰情况下,保证税务管理工作的有效进行,成为纳税人与国家连接的桥梁;2)以风险管理为主线:结合先进技术与创新管理手段,降低与防范税收风险,做到事前重点防控潜在税收征管风险,事中降喘收征管风险,事后具备有效手段,查处偷漏税,营私舞弊等违法行为;3)数据实现省市县分级分类管理:将数据情报管理、税收风险分析、风险应对任务管理、大企业与跨境税源风险应对等重要管理事项集中调整到省局层面;市、县税务机关精简行政管理职责,要紧承担直接面向纳税人提供纳税服务、实施风睑应对的职责;4)强化税源专业化管理,探索“两个转变":属地固定管户制到非固定管户制的转变,与无差别管理到差别化管理的转变。在新时代的税务管理要求下,不能继续使用原先传统方式解决问题,要使用新的技术来解决;国家税务总局局长王军指出:“大数据时代,谁能掌握好数据、谁能利用好数据,谁就自翡高洞察力、占领制高点J大数据最重要的作用是提供了实现税务管理由"税管员管"向"大数据管"转变的技术基础。过去,由于受到技术、思维等多方面等的限制,人类在采集与使用数据时为了节约时间,增加准确性,更多使用了随机采样法,这个时代被称之“小数据时代"。小数据时代的特点是:样本随机性、数据精确、因果关系论、结果群体化。在大数据时代,数据收集、存储与分析工具极大提升,这使得"样本=总体"的全数据模式得以实现,数据处理的总体特点变为:要全体不要抽样,要效率不要精确,要有关不要因果。这颠覆了千百年来人类的思维惯例,对人类认知与与世界交流的方式提出了全新的挑战。大数据时代中的税收管理也应当顺应时势变化,及时转变思维,提出创新举措。目前,大数据技术要紧应用在电子商务、金融、零售等领域,在实现"通过数据寻找到更多合适的客户、与给客户推荐合适的产品,实现精准营销,从而给企业带来更多的收入与利润”上已取得长足有效的磁责;税务行业的大数据所需要达到的业务战略目标与其他行业企业(比如电子商务、金融、零售等)是有比较大的差异,关于税务来说,大数据所需要达到的目标的第一重点是“根据企业的生产经营活动等各类数据,防止企业通过非法途径进行偷税漏税的风险管控,与通过相应的数据,防止税务业务人员内部腐败的内部风险管控",通过这个目标来实现数据管税,以达到国家所需要进行税务改革的这个战略目标。用大数据强化税收分析,对税收数据的分析应用将成为税务系统一项常规的重要工作,数据管税需要达到下列目标:(一)结合风险管理与大理念,将大数据税收征管模式与先进的管理理念相结合,利用大数据技术与现有数据,对税务工作进行更好的风险管理:1)结合大数据分析技术,让纳税评估更为准确:面对企业越来越复杂的经济业务,数量有限的税务工作人员无法投入太多的精力去全面熟悉每一家企业的生产流程,通过对海量数据开展分析,探寻,发现、懂得信息内容及信息与信息之间的关系,结合对企业的规模大小、对生产经营活动成本、利润与税负率等指标的分析,对企业财务核算与纳税申报质量作出评判。比如:在对纳税人、对税源的评估过程中,通过对纳税人或者者税源长期的登记信息、历史交易记录、海关进出口信息、水电缴费与银行借贷记录等多种信息与特征测试的数据汇总,来进行信用评级,从而使纳税评估更为准确;比如:比对分析纳税人税收资质、应纳税(费)种的条件符合性、存在的风险疑点,跟踪分析后续动态变化,对风险疑点进行评估处理,并依法据实认定、调整或者取消纳税人的税收资质、应纳税(费)种;2)融合第三方涉税数据,提高税法遵从度与税收征收率:结合纳税人登记信息,申报信息、第三方涉税信息等数据,以大数据技术为基础,开展分析比对、风睑识Slk排序推送、风睑应对,加强业务内控与遵从风险防范。比如,将从工商、银行与统计等部门,与互联网爬虫等途径获取的外部数据与纳税人申报数据作比对分析,从而更为准确地推断税源状况,进一步通过税源降、税收分析、纳税评估与税务稽查等质量操纵手段,达到堵塞漏洞、纠正偏差与提高税收质量的目的。比如:在纳税人申报房产、土地明细时,利用房管、土管等部门信息进行比对,推进“以房控税"、"以地控税"、"车船税联网征收”等工作;税收分析税源监控3)尝试业务系统变革,进一步防范涉税风险,提高税收征收率:如将纳税人申报缴税系统、收入系统、金融管理系统与财产系统等都纳入公民诚信系统,通过各个信息的比对,数据的分析,管控纳税人的资金流、信息流、货物流与生产经营信息,形成以数据质量管理为基础的风险识别、等级排序、风险应对与绩效评价的闭环风险管理体系,进一步防范涉税风险,提高税收征收率。4)防控廉政,防范内部违法风险:通过优化流程、节点操纵与全程操作数据留痕,实现税收执法权的透明操作、规范运行,从源头上防控廉政与执法风险。5 )通过纳税人画像,辅助管理:采集、处理、评价纳税人的信用信息,建立纳税人画像,建立纳税信用体系,据此实施分类服务、管理,辅助数据情报管理、税收风险分析、风险应对彳壬务管理、大企业与跨境税源风险应对,同时还能够实现信用信息的共享。比如:对信用好、无风险的纳税人不打搅,对低风险的纳税人予以提醒,对严重失信、高风险的纳税人实施重点监管;比如:关于异地税务机关评价的纳税高信用等级纳税人,本地税务机关予以认可,与本地高信用等级纳税人企业享同等待遇;关于有违法记录的低信用等级纳税人企业,,本地同等监管。6 )建立风险特征库,自动预警防控:通过风险特征库与风险雌规则建立,预警预防偷漏税风险;比如:将"一址多照"、"一照多址"的纳税人列入重点关注对象,设计风险触发规则,防范其虚开增值税专用发票、骗取出口退税等风险。(二):充分利用广泛的数据开展税源分析,用数据说话、用改进管理、用数据推动创新,不断提高运用大数据的技术与分析大数据的能力,解决工作中的新情况与新问题,提高税收工作的针对性与有效性。比如:实现根据相应企业所需要的税务管理与税务服务类型,来进行相应的税务业务人员任务分配;达到简单的税务业务由办事大厅(比如实体的办事大厅、电子税务局)进行支撑,复杂的税务管理与税务服务业务有专业的税务业务人员进行支撑,即实现由数据来给不一致的税务业务人员分配相应的、合适合理的任务。(三)加强宏观、行业与微观税负数据分析,加强税收政策、经济与税收关系分析,进一步发现税收与经济之间的关系,从而更好地预测税收走势,科学估算收入规模,增强组织收入工作的预见性。1.2 税务行业信息化建设现状税务行业的信息化建设(金税工程)已经有近二十年的历史,由于技术进展的现实问题,同时由于税务组织机构职能、业务管理、规范、流程等的复杂性(其复杂性远远超过电子商务,甚至超过金融领域在信贷、风险、杠杆等三大核心'要素所需要组织机构职能、业务管理、规范、流程等),税务信息化系统不可避免的存在较为严重的零碎化、数据孤岛、应用烟囱等现象,特别是建立在全国税收征管规范基础之上的核心征管系统与其他各类生产业务系统,存在如下图所示例的一系列问题:系统、数据来源多原有业务系统停用数据量大关联复杂T造成数据使用杂乱T造成数据无法使用T造成应用效率低下税务系统信息化建设中,最为突出与典型的问题包含下列三个方面:1)数据杂乱:随着经济与技术的进展,出现越来越多的系统与数据。包含新建业务系统产生的数据、随着云计算与数据中心建设出现在税务系统中的外部交换数据、传统系统历史积存的数据等等。这些系统由于种种历史建设原因,存在使用的信息化建设规范不统一、数据格式不一致、数据表达不连贯等种种问题。这些问题导致每个业务系统在建设过程中,不信任已有的其他系统的瘫分析结果,而选择从生产库直接获取原始数据进行分析与加工。这导致了大量的业务系统在建设过程中"干重复活"、"走重复路"、"做重复事"。严重影响地税工作效率。2)系统各自为政:在江苏省地税信息化建设过程中,各业务系统由不一致的承建单位进行建设,缺乏统筹规划,系统之间的打通困难,数据缺乏交互碰撞。"烟囱式”系统仍然普遍存在。业务人员面对多样的系统,需要从不一致的业务系统中找到描述一个业务情形的不一致阐述角度的数据,以全面、客观地分析业务问题。这极大地影响了业务人员的工作效率。3)关联复杂:地税行业涉及数据众多,各地市具体情况又不完全相同,各地市依靠于省厅提供标准数据与业务模型,但在处理本地业务时会加入地方性特征的数据并对模型进行修正。这造成大量的相似但是有区别的辘,使得开发人员在进行数据开发时陷入推断相似数据准确性的困惑中,影响数据的可运维性与二次开发。1.3 大数据服务平台整体架构概览在当前信息化现状的基础上,要达到数据管税的战略目标,需要建立以数据为核心,以大数据技术为支撑的精确管理体系;基于税务组织机构职能、业务管理、规范、流程等的复杂性,我们务必要通过进行前Be性的研究,形成相应符合税务行业所需要的数据治理、数据分析挖掘所需要的方法论体系,从而形成符合税务行业所需要的大数据平台,从而让税务行业沉睡的数据苏醒过来、发挥价值、产生效益。因此,对新T弋税务行业大数据服务平台,整体架构概览如下图所示:mtvr m应用体祟SftAKTftiMmM:一 .iFX牝RM*<HI 4MMMMM VWCMMi a>4t一、"数据管税"业务应用体系(大数据应用体系)MUUMMMIfmft>税务人员工作流程与效率优化:税务改革往常是一个人管N多企业所有的情况,税务改革之初很多人不明白干什么情况,因此需要通过大数据应用来给合适的人安排合适的情况> 发票分析:发票数据的应用分析,通过分析发票的数据信息,准确查找发票管理存在的问题风险,有针对性的制定征管应对措施,准确打击发票使用中的不法行为,切实促进发票管理的遵从,实现以票管税、信息管税的目标> 纳税人信用评估:在税务大数据服务平台提供的数据与在数据衍生出来的法人画像、自然人画像等能力的基础之上,评价纳税人的信用信息彳导出纳税信用评价结果,据此实施分类服务与管理。同时与地方政府及有关单位征信平台对接,实现纳税人信用信息在各部门间的共享利用> 纳税人服务流程优化:税务改革往常是一个人管N多企业所有的情况,企业没得选;但是现在针对一个纳税人服务有很多环节,不一致环节对应的是不一致税务工作人员;因此我们需要根据数据来给企业在不一致环节中提供合适的、专业的税务人员提供服务,从而让企业满意让国家满意> 纳税人风险管控:通过相应的纳税人画像与相应的其他数据,来防止企业通过非法手段进行偷税漏税等,同时能够起到警示作用> 税务人员操作性风险管控:通过相应的数据能够抓出内部的腐败份子给国家所带来的缺失与伤害,同时能够起到警示作用> 收入与税源分析:通过相应的数据分析能力,从而让国家的税收任务更好的完成同时对企业不可能产生更大的干扰。> 其他:泛指各类没有说明的税务大数据分析应用。二、税务大数据服务平台税务大数据服务平台不是一个技术平台、更不是一个只具有一个技术功能点集合的平台,此平台是一个大数据应用支撑平台,即需要加速税务数据管税所需要的各个大数据应用能力的开发效率、开发质量的平台,也是一个能够沉淀出税务行业所需要的各个大数据业务应用所需要的各个能力资产以形成能力中心的平台。2理论指导数据治理之需求与技术分析2.1 数据治理综述随着税务信息化建设的深入与大数雌术的不断进步,我们需要让沉睡在各个业务系统中数据发挥出更多的价值、让数据说话以实现数据管税;同时我们已经深刻地认识到我们的税务数据我们税务关键的资产之一,就类似于关于企业中的最关键资产是人力、资金、物资(工厂、设备)等一样。将数据视为战略性税务资产,意味着我们的组织需要建立其现有数据的清单,就像建立物理资产的清单一样。而数据治理是以企业资产的形式又擞据进行优化、保护与利用。数据是税务最大的价值来源也可能会是最大的风险来源。糟糕的数据治理常常意味着糟糕的业务决策与提供给违规(内部税务工作人员的违规,外部企业逃税的违规)更大的暴露面,我们必定需要通过良好的数据治理来提高数据质量(比如提高数据的可信度、完整度、可用度等),从而提供较好的业务决策与减少、操纵违规等。数据治理注定会是一项复杂的工作,涉及到对组织内的人员、流程、技术与策略的编排,从一开始,数据治理就在协调不一致的、孤立的且常常冲突的策略(可能导致数据特殊)的过程中扮演着重要角色。在这么多年的信息化建设中,我们发现数据质量问题要紧受"业务、管理、技术”这三个方面的影响,同时要紧由下列几大影响因素所决定:>缺乏科学、规范、完整的数据质量标准,同时在系统开发与实施过程中忽视数据质量:关于这方面的问题,我们务必建立全局数据模型(包含数据源视图与数居流视图统一的数据标准与数据口径,从而供各个应用开发团队在工作中遵循与参考、且让各个应用开发团队对税务信息系统有一个整体认识,以减少数据源调用错误与建立重复数据源的情况发生,影响数据的一致性。如下图所示例:企业数据模型到某应用级的数据模型> 缺乏统一与全面的纳税人数据> 数据多头重复采集、没有统一规范检验> 缺乏系统的数据质量管理机制与监控管理工具与手段:在这方面,除了技术原因外,很多是业务、管理方面的问题,因此我们在业务、管理方面制定相应的流程,即需要使用较为成熟的闭环的数据质量管理方法与相应配套的数据治理软件平台,对数据的质量进行持续的监控与管理,及时地清除系统中的垃圾数据,减少隐患的产生。综上所述,数据治理是大数据服务平台建设成功的核心基础与因素,没有好的数据治理会使我们的大数据成为空谈。因此我们需要形成相应的数据治理参考流程来指导我们税务辘治理的建设,从而给大数据服务平台的建设打下一个成功的基石。数据治理建议参考流程如下图所示,同时这个数据治理流程是一个闭环、不断优化的流程。2.2 定义业务问题,以指导方向数据治理是我们大数据服务平台建设是否成功的关键因素之一,数据治理失败的根源是缺乏与业务价值的链接,与通常单纯的把数据治理当作是IT部门的事等因素。因此为了保障我们税务的数据治理能够比较成功,我们务必保证:数据治理要能支持“数据管税"这个战略目标实现业务价值与解决业务问题,并需要制定下列所建议的准则:业务价值和效益 的驱动江苏地税管理层的 支持1)数据治理务必由业务部门所需要的业务价值与效益为驱动;2)数据治理务必由业务部门、信息科技部门、第三方厂商与应用开发商等多方参与;3)数据治理务必获得江苏地税管理层的支持,任命首席数据治理官;首席数据治理官负责统一管理与协调多方(业务部门、信息科技部门、第三方厂商与应用开发商等)力量进行数据治理工作,以保证支撑"数据管税"实现的各类业务能力所依靠的数据是"可信、可用、完整”等。4)数据治理是一个工程项目,需要一个专业的业务人员、专业的技术人员构成的团队,根据所需要解决的业务问题及从实现相应的业务价值出发,借助对业务的懂得分析与对技术的懂得分析,并在专业的产品支撑下,比如数据集成平台(采集、ETL等数据治理平台(元数据管理、主数据管理等等),才能够做好数据治理的有关工作。5)数据治理是一个长期计划,而不是一个短期目标;我们是需要不断地投入相应地金钱、人力资源才能够完成与不断的演讲与优化。2.3 获得管理层支持,以获得组织与资源保障数据治理的最终目的是为了提升数据质量,让数据变得更加"可信、可用、完整";只有较高质量的数据才能让数据说话,以达到税务管理与税务改革所需要"数据管税"这个目标;因此数据治理是牵涉到税务各个业务部门、信息科技部门、与各个业务系统的应用开发商与产商的情况。这就使得获得税务管理层的支持是一个非常关键核心的因素。要保障数据治理工作的顺利开展,税务管理层需要给予下列组织与资源保障:1.成立数据治理工作组此虚拟组织的成员需要有来自税务有关业务部门(比如征管与科技进展处、规划财务处、数据管理处、纳税服务处等核心业务应用系统的开发商(比如征管系统的开发商、发票管理系统的开发商、电子税务局系统的开发商等大数据服务平台的开发商等有关的业务人员与技术人员构成2、获得有关方高层的支持需要获得税务局管理层、有关业务部门的管理层、有关应用开发商与产商的高层支持;特别是税务局管理层的支持。3、确定数据治理的负责人设立首席数据治理官,此职务需要在税务管理层的支持下进行任命;由他来统一管理与协调多方(业务部门、信息科技部门、第三方厂商与应用开发商等)力量进行相应地数据治理,以提高支撑“数据管税”实现的各类业务能力所依靠的数据是"可信、可用、完整"等2.4 执行成熟度评估,以熟悉现状与确定将来所达目标如图是数据治理成熟度评估模型,按照如图所示的类别,对当前的税务数据治理成熟度进行评估,从而得出我们税务数据质量的当前所处状态,与期望通过专业数据治理后需要达到的状态。成果这11个数据治理类别能够分成4个相互关联的组:1、成果:数据治理计划的预期结果。即在数据风险管理与合规,与价值创建方面需要达到相应的目标,并为“数据管税"所需要的数据能力提供"可信、可用、完整"的高质量数据支持。2、促成要素:数据治理需要合适的策略、合适的数据照管(即首席数据治理官所带领的团队所发挥的作用良好的组织结构(数据治理工作组)与认知(数据治理工作组对数据治理要做的情况与所能表达出的业务价值有共同的认知3、核心准则:一个能达到相应业务价值的成功数据治理,必定需要实现一个满足业务要求、技术要求的数据质量管理、数据生命周期管理、数据安全与隐私等方面所需要的软件产品与相应的经验能力。4、支撑准则:要进彳襟据治理,我们务必建立一个较为合适、完整、可用的数据架构体系用来指导数据治理与相应的数据应用的设计与开发,同时需要建立相应的分类与元数据与相应的审计数据日志与报告。我们对上述4个相互关联的组中的11个翔g治理类别,定义相应的能力成熟度模型(参考CMM),即现在的能力成熟度,通过这次的大数据服务平台的长期数据治理建设后,所需要达到的能力成熟度模型。下图是我们的一个建议:上图阐述了当前(2016年)对税务数据治理在11个类别中所处的状态,与通过1年(12个月/18个月)数据治理后所需要达到的状态;同时在后续不断的数据治理过程中最终达到第五级。2.5 创建数据治理路线图数据治理路线图的开发要紧通过下列三方面来进行1、总结数据治理成熟度评估的结果即在执行成熟度评估,以熟悉现状与确定将来所达目标此章节所做的情况的产出的基础上,业务部门、信息科技部门、第三方(信息科技技术产商、应用开发商)在首席辘治理官的统筹安排下进行相应的评估,即对当前状态的评估与将来想要达到状态的评估,与当前状态与将来想要达到状态之间的偏差等;通过评估来决定后续的工作。2、列出填补评估中强调的差距所需关键人员、流程与技术计划这个环节非常关键,为了说明这个,我们通过下面的例子说明。技术人员建立聚焦在“数据管税"所需 要达成的业务价值的数据治理 工作组.成员来自税务相关业务部门 (例如征管和科技发展处、规 划财务处、数据管理处、纳税 服务处等)、核心业务应用系 统的开发商(例如征管系统的 开发商、发票管理系统的开发 商、电子税务局系统的开发商 等)、大数据服务平台的开发 商等相关的业务人员和技术人 员.设立首席数据治理官以及相关 的具体人员,重点关注在“法 人、自然人、发票、风险、税 务机构、法规等"这几大领域 的数据Z需要建立市点关注在数据治理 领域所需要牵涉到"原则、策 第、规程、业务规则和度量指 标”等完整的工作流程确定数据治理所需要的研发团 队、服务团队的人员、技能、 工作内容、开发和实现计划等 完整的工作流程选取一个业务案例(例如纳税 人信用评估)来验证数据治理 的合理性定义关豌度量指标来监控数据 治理计划的执行实现数据治理平台,提供数据 地图、数据标准和数据模型管 理、数据质量管理、数抠脱敏、 元数据管理、主数据管理等能 力实现数据集成平台,从而能够 采集到更多的、更全面的数据, 并且通过相应的数据加工(ETL) 对数据进行清洗;从而可以积 累出更多、更全面、更完整、 更可用的数据提供机器学习算法,来提高数 据加工(ETL )的效率和质量以 降低人工干预所带来的工作量提供更好的可视化能力,让我 们更好地可以在数据地图中查 看、编辑相应的数据血缘等能 力 J3基于关键计划的优先级创建路线图基于上面所示的内容制定一个时间周期为12-18个月的数据治理计划路线图,并在过程中对相应的数据治理效果与相应的能力进行监控。 通常来说务必先进行数据治理工作组的成立,与有关人员的进入,然后任命首席数据治理官。 建立数据治理领域所需要牵涉到"原则、策略、规程、业务规则与度量指标”等完整的工作流程。 确定数据治理所需要的研发团队、服务团队的人员、技能、工作内容、开发与实现计划等完整的工作流程。 选取相应的业务案例来验证数据治理的合理性与定义关键度量指标来监控数据治理计划的执行。 实现数据治理平台与数据集成平台,并利用机器学习与可视化能力来提升数据治理平台与数据集成平台的能力与质量、效率等。2.6 建立数据治理组织蓝图建立数据治理组织蓝图要紧由下列几大部分构成1、定义数据治理章程数据治理章程类似于企业的公司条例。该章程阐明数据治理的要紧目标、及其关键利益有关者(比如各个业务部门、税务管理层等工2、定义数据治理的组织结构,并建立数据治理委员会、数据治理工作组、数据治理开发与服务组数据治理的最优组织结构是一种3层结构。数据治理委员会,位于组织的顶点,包含高层利益有关者。下面的一层是数据治理工作纨由负责定期治理球的成员构成。最后,数据治理开发与服务组负责每天实际处理数据。数幅治襄国会敷三f治理工作蛆数掘治理开发和BK”组3、朝亍数据治理委员会与工作组定期会议数据治理委员会举行会议来设置数据治理策略跟踪数据治理计划的所产生的业务价值与效果。该委员会(包含高层领导)定期会面,但不一定是经常会面。典型的会议安排为每月或者每季度举行一次,持续一两个小时。2.7 创建数据字典/业务术语库不一致应用开发商或者者不一致的业务人员都会对相同意思的词语产生不一致的描述词,比如关于性别的描述,有些应用开发商在系统中定义为"男"、"女"、"未知",而有些应用开发商在系统中定义为"1"O","-1";关于客户的描述,有些业务人员认为是“企业",有些业务人员认为是“自然人";关于纳税人信用等级A的描述,不一致业务人员的懂得都会是不一样的等等。因此我们务必进行统一的数据标准与数据口径,即我们需要建立数据字典,实现业务元翔居与业务词汇的定义有关联;数据字典(或者业务术语库)是一个存储库且是一个系统(包含了相应的批量导入、录入、修改等能力),包含将业务与IT的共同定义集中在一起的关键词汇的定义。税务务必部署数据字典来确保业务词汇在上下文内良好定义,从而能够让我们的数据加工、数据的挖掘与分析、数据的展现变得更加可信、完整、全面、一致,只有这样才能更好的支撑数据管税。数据字典的创建牵涉到下列几个重要的步骤与相应的核心能力:1、选择一个数据领域。我们务必选择一个领域,比如针对风险管理所牵涉到的法人、自然人、发票、税务机构等来进行。2、确定相应人员来保护关健业务词汇我们需要选择相应的业务人员、技术人员来保护关键业务词汇。3、识别关键数据元素这方面的工作我们务必要让业务专家/业务架构师帮助我们找出关键数据元素4、创建、填充与丰富数据字典假如我们已经有了相应部分的词汇术语表的话,则把这些输入或者者导入到数据字典中。假如没有的话我们需要进行相应的手工录入。5、链接业务词汇与技术组件我们就业务词汇达成一致后,我们需要由相应的以数据架构师为Lead的技术团队建立相应业务词汇与技术组件(比如数据库的某张表与列1这样的话业务人员就能够通过业务词5匚来下钻寻找相应的技术数据源与数据,由于我们一定要牢记一点就是业务人员只关注业务词汇,他是不懂什么数据库的表名与列名的。6、支持数据治理审计、报告与日志需求,业务术语总是容易变化。今天的"纳税信用等级A"的定义可能在明天又不一致。随着业务需求不断演化,一个词汇的可同意定义也会变化。能够熟悉更换历史、更换的内容与执行更换的人,这与更换本身一样重要。7、整合数据字典与有关的数据应用与业务应用业务人员在操作一个数据应用或者者业务应用的时候,遇到了一个含义模糊的词汇或者短语。他不确定这个词;匚是如何在税务组织内定义或者使用的。因此我们务必使数据字典能够提供一个非常容易的访问入口,让业务人员能够快速的查找该业务词汇是如何定义或者使用的。2.8 懂得业务与数据关于业务懂得,我们需要站在税务业务的角度,去匕匕较深入的懂得全国税务征管规范所介绍的"税务登记、认定管理、申报纳税、税收优惠、税额确认、税款追征、税务检杳、违法处置、争议处理、凭证管理、信息披露”等业务核心生产环节中所牵涉到的服务对象、所需要输入的数据、输出的数据、所要实现的逻辑等等;同时我们还非常需要借助对税务整体业务现状与将来税务改革所带来的业务变化具有很好懂得,且具有前瞻性的税务专家与税务业务架构师的帮助。只有通过这些,我们才能对税务的整体业务流程中的关键环节、关键问题、关键诉求、关键数据有一个全局性、前瞻性的懂得,同时使我们关于拥有什么数据,它们位于何处,与它们在系统之间如何关联等,会有比较深的懂得,同时也能给出需要新增什么关联的建议,来帮助建设以"数据为核心"的整个大数据体系对业务发挥出价值与效益,最终达到“数据管税”这个目标。关于懂得数据,我们需要进行下列的几个要紧步骤与提供相应的能力:1、数据源管理功能即:懂得我们所需要的每一个数据源,同时需要对这些数据源都要管理起来,关于每个所需要懂得的数据源,我们需要实现下列的几个能力:1)执行列与表级别分析:关于表级别分析,需要从数据源中有关表的主外键的关系,找出表与表之间的关系(即能够生成ER图);列级别分析包含有关数据源中每一列的基本统计触,比如自动生成统计数据,比如隐含的数据类型、模式频率、值频率、长度频率、比例、格式、基数、空计数、最小值、最大值、长度与精度等;2)识别每个数据源中的关键数据元素,关键数据元素是建立跨所有数据源构造一个大数据服务平台的统一数据模式的不错起点;3)识别每个数据源中的敏感数据元素,敏感数据元素是我们建设数据安全与隐私的一个不错起点。2、懂得数据源之间的关系懂得一个数据在从一个来源传输到另一个来源的数据血缘(或者者地图)的联系非常重要:D懂得关键数据元素在各个数据源之间的数据重叠:这个是保证数据一致性、可用性非常关键的一点;2)发现数据相应的数据血缘与复杂转换逻辑;3)发现数据不一致性与特殊。2.9 创建元数据存储库元数据是描述数据的数据(DataaboutData),可懂得为比通常意义的数据范畴更加广泛的数据,不仅表示数据的类型、名称、值等信息,还提供了数据的上下文描述信息,比如数据的所属域、取值范围、数据间的关系、业务规则,甚至是数据的来源等。元数据能够帮助省理员与开发人员非常方便地找到他们所关心的数据,元数据是描述分析型应用内数据的结构、建立方法及流程的数据。举个例子来说明,假如没有合适的元数据,我们将无法证明,数据分析报告,或者数据可视化展示的内容,或者数据报表中的特定字段源于一个特定的数据集市,该数据集市又来自企业数据仓库,最终来自一组后端数据源,与证明它们之间的所有数据转换;假如我们不明白业务报表与数据分析报告中看到的信息是如何集中在一起,通常不敢对业务报表与数据分析报告中的结果产生信任;也就是说,假如没有合适的元数据,我们的数据资产可能无法识别、不受信任与甚至不适用。而通过元数据这种实现记录数据转换的过程的数据,记录数据来源的数据,让我们的数据资产可被识Sll,被信任。因此,我们务必要建立元数据存储库与元数据管理系统,对元数据进行规定与管理。在大数据服务平台项目中,可将其按用途的不一致分为三类:技术元数据(TeChniCalMetadata业务元数据(BusinessMetadata)与管理元(ManagementMetadata)o 技术元数据:技术元数据是描述数据分析中技术领域有关概念、关系与规则的数据,要紧包含对数据结构、数据处理方面的特征描述,覆盖数据分析过程中涉及到的数据源、健仓库与数据集市、ETL.OLAP、数据封装与前端、可视化展现等全部数据处理环节;技术元数据对技术人员进行数据分析型应用的开发能发挥重大的作用; 业务元数据:业务元数据是描述数据分析中业务领域有关概念、关系与规则的数据,要紧包含业务术语、信息分类、指标定义与业务规则等信息;这方面是用来支撑主数据管理,核心应用系统建设的关键。业务元数据要紧从数据字典中生成。 管理元数据:管理元数据是描述数据分析中管理领域有关概念、关系与规则的数据,要紧包含人员角色、岗位职责与管理流程等信息。元数据管理系统需要根据下列步骤,具备下列相应的能力:1、链接业务元数据与技术元数据在元数据管理中,需要实现相应业务元数据(要紧从数据字典中生成)管理与技术元数据管理;业务元数据与技术元数据的分离会让业务团队与技术团队产生巨大的隔阂,因此我们务必要实现业务元数据与技术元数据的链接甚至合并。2、实现以元数据驱动的数据地图数据风险管理需求与合规性需求影响着税务组织管理它们数据的方式,比如一个税源分析报告中,我们需要证明数据的来源,它流经何处,与它在税务相应的环节中传输时通过了何种转变,这样才能证明数据是可信的、可用的,也证明这个分析报告也是可信可用的。因此我们要建立一种以元数据驱动的数据地图来回答"此数据来自何处?”、"此数据去向何处?"与"在此过程中它发生了什么?"等基本问题。3、实现与执行“影响分析”懂得对一种数据的更换对其他数据有何影响的能力称之"影响分析"。数据治理需要确保业务人员、技术人员能够检直与一个对象(比如一个纳税人分析报告)有关的所有关系,继而在创建任何更换之前,评估与减轻更换带来的风险。考虑到在开发生命周期中不可避免地会引入更换,因此“影响分析”的能力将帮助税务能更有效地治理数据。4、实现技术元数据之操作性元数据管理在我们实现的大数据服务平台中,将会存在大量的数据计算任务(如离线计算任务、流计算任务等),来完成相应的数据加工(比如ETL1数据挖掘(比如机器学习)等,从雌治理角度,我们务必要明白这些数据计算任务在哪个环节失败、重试次数、某些数据行丢失、何时开始何时结束等等。因此,我们需要通过实现技术元数据的操作性元数据管理来实现管理。2.10 定义度量指标数据治理的工作要紧集中在人员、流程与所采取的技术上,几者者B是无形的。因此,拥有协商一致的度量指标或者关键绩效指标(KPI)集关于度量与监控数据治理计划的进度很重要。定义相应的度量指标要紧有下列几个要紧步骤与所需要实现的能力I、懂得业务的整体KPI懂得业务整体KPl至关重要,江苏地税整体的KPl与地税各个业务部门(比如数据管理处、征管科技处、纳税服务处等)的KPl是不一致的;这种KPl的懂得与定义是业务强有关的。2、定义数据治理的业务驱动KPl数据治理的成功表达就是是否能够符合业务部门所需要的业务价值,因此需要根据江苏地税整体的业务目标与各个业务部门的业务目标来定义数据治理相应的业务驱动KPL3、定义数据治理的技术KPl数据治理的技术KPL用于度量数据治理技术工作方面的进度,比如元数据、归档、大数据应用能力中心、安全与隐私、数据审计等。4、实现数据治理成熟度评估的仪表盘此仪表盘一个数据可视化界面,直观显示执行成熟度评估,以熟悉现状与确定将来所达目标所描述的11个数据治理成熟度类别的每一个的实际评分、目标评分与偏差等。通过数据治理成熟度评估的仪表盘,直观度量与监控数据治理计划的进度,并能根据实际情况,进行适当的数据治理计划修正或者调整。2.11 主数据治理主数据是在多个税务系统之间共享的基础数据,如:法人、自然人、税务机构、法规等。目前这些基础数据,每一类数据大多都同时分布在多个应用系统当中,数据由各个应用系统独自保护与操纵,这样就容易造成了系统之间基础数据的不完整、不一致,甚至不准确的情况。而且系统之间基础数据的同步机制也不完善,同步不及时、同步的过程无法监控,出现问题难以发现。由此引发数据不可信,与数据分析不可信的结果。为