知识图谱平台技术方案.docx
目录一、项目概述41. 1项目名称41.2 项目性质41.3 建设依据41.4 项目建设预算41.5 建设的目标41.6 建设内容51.7 建设原则9二、系统功能需求102.1 总体框架设计102.2 业务逻辑示意图122.3 系统功能需求121 .*数据采集及文本智能分析需求132 .*内外部数据融合系统功能需求分析143 .知识图谱构建系统功能需求分析154 .*知识图谱应用系统功能需求分析182.4子系统功能需求201.*信息数据采集子系统功能需求20一、数据采集方式20二、数据来源及需求20三、数据采集需求32四、数据对接需求34五、数据核查需求392. *信息资源处理子系统功能需求39一、*数据资源库平台建设需求39二、*知识图谱建设需求403. *知识算法及建模子系统功能需求41一、*知识图谱建模需求41二、经营分析建模需求42三、行业对标建模需求42四、风险预警(R值)算法需求42五、*总体情况建模需求42六、企业分布建模需求42七、行业分布建模需求42八、土地分布建模需求43九、物业分布建模需求43十、软实力建模需求434.知识图谱管理服务子系统功能需求43一、知识管理需求43二、知识检索需求43三、知识展示需求44四、*百科需求44五、文档在线浏览需求44六、图谱分析需求44七、各类服务需求445.知识图谱应用服务子系统功能需求44一、*门户需求45二、经济地图需求45三、经营分析需求45四、行业对标需求45五、风险预警需求45六、*画像需求46七、关联挖掘需求46三、非功能性能要求463.1 系统技术路线要求461 .技术框架462 .基础软件473 .部署要求484 .网络环境493.2 系统性能要求503.3 信息系统安全要求513.4 关联系统和接口要求511 .与OA办公系统对接522 .与*监管系统对接523 .与*市政府数据统一开放平台对接534 .与第三方数据对接533.5 其他要求53四、项目本期信息资源采集目录54一、项目概述1.1 项目名称知识图谱辅助决策平台建设项目。1.2 项目性质新建。1.3 建设依据本项目建设主要依据以下文件:根据事件情况编制1.4 项目建设预算1.5 建设的目标建设目标:实现*对其下单位的实时高效的监控。站在*市*全委的高度,利用大数据、人工智能、云计算等新一代信息技术,以应用促发展,紧密围绕*市*中心工作和*监管工作需求,按照模块化、集成化、平台化的建设思路对智慧*知识图谱辅助决策平台进行统筹规划、合理安排。采用大数据、人工智能等最新监管手段,实现数据采集实时化、业务处理自动化、信息利用共享化、业务流程协同化、决策分析智能化。转变传统监管方式,实现数据采集实时化、业务处理自动化、信息利用共享化、业务流程协同化、决策分析智能化。实现数据化监管目的,建立“用数据说话、用数据决策、用数据管理”的工作机制。实现“精细洞察企业、监控内外风险、驱动精准监管”目的。自动探测风险、实时预警,对企业潜在的风险提前预警,事前准备,快速应对,减少损失,确保国有资产保值增值。挖掘事件关系,辅助决策,对监管企业各类错综复杂的事件关系,如产权、经营、风险、担保、涉诉等事件关系,用图谱方式串联起来,呈现幕后的关系,辅助经营决策。各子系统目标如下:1)通过*信息采集子系统建设,采集*内部数据、近5000家控股及参股的监管企业数据和第三方数据,汇聚成数据源,为*数据资源库及知识图谱库提供数据基础;2)通过*信息资源处理子系统建设,对采集的数据进行清洗、分析、整合,形成*数据资源库和专题库;专题库为知识图谱构建提供数据;3)通过知识图谱管理服务子系统建设,向*业务提供*知识图谱管理功能和服务;4)通过*知识图谱应用子系统建设,实现经济地图、经营分析、行业对标、风险预警、关系挖掘等各种应用,为*及企业提供决策支持。1.6 建设内容1) *信息采集子系统开发:开发采集工具采集近5000家控股及参股的监管企业数据,通过接口对接委内系统、*市政府大数据平台、第三方平台、以及互联网等获取相关数据,为*数据资源库和知识图谱库构建提供数据基础。2) *信息资源处理子系统开发:对采集的数据进行清洗整合,形成*数据资源库和专题库;专题库提供数据,通过知识图谱构建模块构建*知识图谱,形成基础知识图谱专题库,并根据*的业务需求,形成产权图谱专题、经营图谱专题、风险图谱专题等面向*业务的知识图谱专题库。3) *知识算法及建模:对*数据专题库进行相关的数据抽取,进行数据知识化处理,通过本体构建、排重、关系运算等知识图谱建模过程,构建*知识图谱库。并结合*实际业务需求,通过算法模型,实现智慧*知识图谱经营决策的应用。4)知识图谱管理服务子系统开发:根据构建的*知识图谱库,面向*业务提供*知识图谱管理功能和服务,包括知识管理、知识检索、知识展示和百科式知识管理等应用分析功能,同时提供图谱服务、检索服务等。5)*知识图谱应用子系统开发:在建立*知识图谱的基础上,将*信息化中松散的、异构的应用和信息资讯进行集成,实现经济地图、经营分析、行业对标、风险预警、关系挖掘等各种应用,为*及企业提供决策支持。6)按项目要求提供包含但不限于下列的征信数据:序号项目/子项目说明1全国企业工商详细信息包括企业工商、股东信息、主要人员、变更记录、经营异常、行业分类、动产抵押信息、股权出质登记信息、行政处罚信息、企业法人对外投资信息等,约9000万条;2全国企业经营信息包括行政许可信息、招投标、商标信息、企业对外投资信息、企业法人其他企业任职信息、董监高对外投资、任职信息、股东对外投资、任职信息、专利信息、企业融资信息、招聘信息等,约5000万条;3全国企业司法涉诉信息包括企业开庭公告信息、企业法院公告信息、企业裁判文书信息、企业被执行人信息、自然人被执行人信息、企业失信人信息、自然人失信人信息、企业立案信息等,约3000万条;4全国企业处罚信息包括企业工商行政处罚信息、企业工商经营异常信息、企业工商严重违法名单、企业工程不良行为信息、企业食品不安全产品信息、企业环保处罚信息等,约300万条;5全国企业纳税信息包括企业欠税信息、企业重大税收违法信息、企业纳税信用评级信息等,约150万条;6国内上市公司信息包括企业概况、企业公告、高管信息、十大股东、十大流通股东、股本结构、十大股东持股变动、高管持股变动、重大事项、财务分析、资产负债表、利润表、现金流量表等,约IoOO万条;7)依照*市工业和信息化委关于*市政府信息化云服务平台资源租赁服务相关事项的通知(*工信函),本项目中的大型虚拟机及数据存储基于*市电子政务云平台设计建设,利用云平台租赁方式进行部署,另外操作系统及数据库等其它涉及的软件需要建设部署,由建设方自行建设(具体清单见下表)O系统开发完成,应在本地完成测试及试用工作,部署到云平台后,再进行环境稳定性试运行。基础及专业软件购买序号类型名称数量(套)年限1操作系统WindowsServer2012R2标准版41中标麒麟高级服务器操作系统V6.03412数据库软件达梦数据库系统(DM7)181MYSQL213中间件软件东方通TOngWeb应用中间件81开源中间件APaChe、Tomcat101硬件基础设施租赁序号设备名称配置性能指标数量租赁年限1数据库服务器高负载数据库专用服务器(2路*8核、2.4GHZCPU、64GB内存、4*300GBSAS)2012应用服务器高负载应用专用服务器(2路*8核、2.核HZCPU、128GB内存、4*300GBSAS)1013数据处理服务器大型虚拟机(8核、2.OGHzvCPU.32GB内存、IoOGB存储空间)811.7建设原则1)标准性原则系统的建设应采用相关技术标准,遵从国标及行业标准,保障最终交付物具备高度的标准化特性。2)易用性原则系统应本着能正确而高效地完成设定功能的原则建设,使系统能充分发挥其作用。应提供通用的配置功能,方便系统管理人员和系统用户的使用。3)稳定性原则系统在稳定性、响应和处理速度方面必须满足使用需求,提供稳定、快捷的系统功能,并尽量减少对资源的占用。4)产品成熟性和可靠性原则项目要求所采用的系统平台具备成熟性,开发后的系统运行时具有高可靠性,具有良好的容错性能,在设计时需考虑提供必须的系统冗灾机制,保证系统运行稳定、可靠、数据安全。5)落地性和持续性原则要求对*监管机制和体系有深度了解,能够提供咨询和优化开发的服务能力,保障对项目的服务质量和对未来的服务深度,以及对应用开发商的技术支持能力,实现可落地性,并持续支持用户单位后续提升。6)保护投资原则项目建设应坚持以保护已有投资为基本原则。在基础架构方面的设施,能够最大程度地利用现有的资源,避免不必要的投资。二、系统功能需求2.1 总体框架设计智慧*知识图谱辅助决策平台的建设,依托*市电子政务云服务中心提供的基础硬件设施和软件资源建设,基于*市政府信息化公共资源体系提供的公共资源支撑,接入并使用*市政府信息化公共资源体系内的相关软件资源和工具平台等Q平台运行管理基于广州市电子政务云服务中心基于广州市政府信息化公共资源体系平台安全保障jii*L1.E”也竺l.空生1湍嚷'二F¾回机厉环电向;:手机/PDA:生成用 日志JK :髓颦驾间图2.1智慧*知识图谱辅助决策平台总体架构数据层:数据源主要来源于*内部数据、近5000家控股及参股的监管企业数据、*监管系统、*市政府大数据平台、第三方数据,以及互联网等其它的相关数据资源。数据结构包括结构化数据、非结构化数据和半结构化数据。数据通过整合、清洗、标准化和质量检测等处理之后,进入*数据资源库并根据上层业务应用形成业务专题库。处理层:包括*数据资源库和知识图谱库。基于数据层,进行数据清洗整合后,形成*数据资源库;利用知识图谱构建模块构建*知识图谱,形成*知识图谱专题库。应用服务层:基于知识图谱提供管理服务和应用服务。面向*业务提供*知识图谱管理功能和服务功能,包括知识管理、知识检索、知识展示和*百科等应用分析功能,同时提供本体服务、检索服务和图谱服务等。面向*业务提供经济地图、风险预警、经营分析、行业对标、*画像、关系挖掘等*业务应用功能。门户系统:实现各种应用系统及功能的集成,对知识图谱抽取出来的指标、模块进行可视化展示等。2.2 业务逻辑示意图图2.2知识图谱业务流程逻辑1 .数据接入,包括结构化数据、半结构化数据和非结构化数据接入。其中半结构化数据和非结构化数据接入,主要通过文本智能解析和标记提取等方式,进行信息提取;2 .数据融合:将提取的结构化数据和第三方数据进行融合;3 .知识构建:基于业务知识模型和业务本体,实现知识导入、知识抽取、版本更新等,构建*知识图谱;4 .面向*监管领域,提供*监管知识图谱相关应用服务,包括检索服务、图谱服务、知识管理等。支持对外提供知识图谱应用接口,支撑其它业务使用。5 .3系统功能需求智慧*知识图谱辅助决策平台,旨在站在*市*全委的高度,利用大数据、人工智能、云计算等新一代信息技术,以应用促发展,紧密围绕*市*中心工作和*监管工作需求,按照模块化、集成化、平台化的建设思路对智慧*知识图谱辅助决策平台进行统筹规划、合理安排。采用大数据、人工智能等最新监管手段,实现数据采集实时化、业务处理自动化、信息利用共享化、业务流程协同化、决策分析智能化,转变传统监管方式,建立“用数据说话、用数据决策、用数据管理”的工作机制,实现“精细洞察企业、监控内外风险、驱动优化决策、驱动精准监管”的目的。秉着上述愿景和建设目标,智慧*知识图谱辅助决策平台从实战实干解决现存问题出发,结合*市国有资产监管实务,计划立足内外部数据融合、知识图谱构建、*应用平台三大能力来构建本项目,全方位对企业进行监管,将企业置于阳光之下,透明之中,对企业潜在的风险提前预警,事前准备,快速应对,减少损失,确保国有资产保值增值。1. *数据采集及文本智能分析需求数据是系统工具建设和人工智能应用的基础,通过建立监管企业数据采集及文本智能分析机制,从而通过数据采集、数据解释、数据分析和数据应用产生价值。一方面对监管企业及各级子企业结构化数据,通过建立数据采集功能模块,实现ETL采集、APl接口采集、文件导入采集、手工填报等方式获取数据,并建立数据采集核查机制,保障数据采集的有效性、实时性。另一方面,对监管企业及各级子企业的非结构化数据,通过文本类自然语言处理(NLP)技术,利用数据挖掘、机器学习、人工智能算法,训练在线和离线语义模型,快速结合*监管类的文本数据,实现快捷、高效精准的文本挖掘,在实现语义的智能分析基础上,推进*各领域的数据研究、开发和应用。2. *内外部数据融合系统功能需求分析一、内部数据治理需求随着大数据的深入应用,*监管内部数据资源日益受到重视。国家已发布多个文件,要求加强数据资源规划,强化数据资源关联,推进数据资源应用,这催生了加强数据资源管理的需求。但*监管数据资源管理不完全是一个技术管理问题,兼具技术与管理的双重属性,虽然*已十分重视这一问题,并加强了制度管理层面从数据收集、资料管理和数据管理方面的要求,但历史数据格式不标准、数据类型不规范、数据字段不完整和历史纸质文件资料数据采集难度高等数据质量相关问题,亟待利用大数据技术对历史数据进行清洗和治理,提升内部数据质量,从而做到内外部数据协同,拓实大数据应用的数据基础。二、第三方数据融合需求数据大协同离不开外部合作数据的互通融合,*监管涉及控股和参股的企业近5000多家,每家企业的经营涉及众多的关联企业,如供应商、客户、经销商等合作伙伴,且这些企业遍布全国各地。从*“以管资本为主,管人管事管资产为抓手”的监管职能角度,通过内部数据与外部专业数据,进行结构化、统一化、唯一化的交叉验证数据对接,实现对监管企业及关联企业的工商、司法、知识产权、处罚、经营相关的数据的实时监测,才能实现对风险的自动探测和预警,实现全方位对企业进行监管,将企业置于阳光之下,透明之中。3. 知识图谱构建系统功能需求分析一、图谱构建需求图谱构建就是将各种数据源中获取的数据进行分析和融合,转化成具有实体、关系、属性的基础的图数据结构。从实际实务出发进行需求分析,拟需要构建的图谱包括如下关系图谱:关系类别关系名关系描述基础关系基础关系股东其它自然人或企业作为选中企业的股东对外投资企业对另一个企业进行投资,成为另一个企业的股东董监高自然人在一个企业内担任董监高职位上市公司十大流通股东对于上市公司,由于交易具有流动性且股东人数众多,所以以十大流通股东来呈现企业关联关系图谱涉诉关系原告在某一披露的裁判文书/开庭公告/审判流程/法院公告,企业或者自然人是原告被告在某一披露的裁判文书/开庭公告/审判流程/法院公告,企业或者自然人是被告当事人在某一披露的裁判文书/开庭公告/审判流程/法院公告,没有披露具体的原被告,只列出了当事人,而企业在当事人列表中经营关系担保关系企业间的担保关系上下游关系企业间的上下游关系企业族谱企业间彼此按照投资、共同高管、行内担保、行内转账等关系,通过其它潜在的行外企业客户形成的关系族谱图挖掘类关系自然人确定可融合两个或两个以上企业中分别存在一个自然人实体(为企业的高管或者自然人股东),且这几个自然人实体确定可以融合为一个自然人实体的关系自然人疑似可融合两个或两个以上企业中分别存在一个自然人实体(为企业的高管或者是自然人股东),且这几个自然人实体可能可以融合为一个自然人实体的关系实际控制人实际控制人是在无法找到企业的控股股东,或者控股股东为多个一致行动的股东的情况下,进行的更深层次的挖掘。疑似关系通过董监高关系,股东关系和法人关系,挖掘企业间的疑似关系疑似关系类型有(包括且不限于):1)拥有相同的联系方式2)拥有相同的董监高法3)拥有相同的高管4)拥有相同的股东5)同一涉诉案件当事人表2.1图谱构建需求表二、图检索和展示需求最终构建完成的图谱的实体与关系数量规模巨大,如何在可接受时间内完成海量知识检索是一个巨大的挑战。因此实现面向大规模知识图谱的信息检索方法需要应用相应的图数据库处理。图展现能展示出图构建中构建的实体、关系和属性。以单一客户、集团客户等的形式展现知识图谱。展现的方式支持网络装展示和树状展示。网格状展示:除展示与中心实体关联关系外,还可展示其他关联实体之间的关联关系。树状展示:展示中心实体关联的对应实体。支持点击知识图谱中某个实体,查看实体详情(包括法定代表人、注册资本、注册时间、社会统一信用码、经营范围等)。展现的图支持模糊查询、多条件筛选(根据注册资本、公司类型、注册日期、地域等条件筛选)。多条件筛选包含实体筛选和主题筛选,其中实体筛选包括通过公司、注册资本、注册日期、案件、裁判文书等筛选,其中主题筛选包括通过基本关系、涉诉关系和招中标关系等筛选。图展现至少支持6层关系。三、关系推理采用实体、关系抽取方法得到的关系无法覆盖企业彼此存在的所有关系类别,由此在完成知识图谱构建之后需要探索行之有效的大规模关系推理方法对知识图谱进行完善。四、关系挖掘需求采用图论相关算法,针对企业关联关系和产权关系进行知识图谱挖掘,包括但不限于集团关系、担保链/圈关系,识别重大关系变更、产权牵连关系等潜在风险预警信息。4. *知识图谱应用系统功能需求分析一、经营与决策分析需求1、经营分析:在构建*知识图谱的基础上,构建*体系统一的、标准的、规范的经济地图可视化系统,围绕公司概况、产权状况、资产状况、资金情况、盈利情况等信息,进行地域分布、行业分布、土地分布、物业分布的分析,按企业层级逐级进行挖掘分析,为*及监管企业提供以产权图谱为基础的查询、管理、分析的平台,实现商业信息管理决策及规划的定量化、科学化和可视化。2、决策分析:在构建*知识图谱的基础上,建立*运行监测分析模型库,设置合理的指标体系和指标值,对监管企业经营情况进行统计分析,准确把握*运行情况和发展态势。同时,通过采集、清洗、整合上市公司公开数据、行业协会发布的数据、国务院*企业绩效评价标准值等数据,形成*行业知识图谱专题库,通过科学准确的指标体系、评价方法,按不同行业对企业进行横向对比分析,形成对标评价结果,给*和监管企业管理、经营、决策提供数据支持。二、经营与征信风险预警需求1、经营风险预警:在构建*知识图谱的基础上,对监管企业进行全方位风险预警监控。建立指标体系,设置监控维度,设置合理阈值,用“红黄蓝绿”灯进行预警。实时掌握监控动态,及时了解监管企业运行情况、发现经济运行中出现的风险和问题,以及需要解决的重大事项,为及时调整监管企业的生产经营策略提供信息帮助。2、征信风险预警:进行24小时全方位监控监管企业,设置监控维度,更新提醒、实时掌握监控动态,及时了解监管企业运行情况、发现经济运行中出现的风险和问题,以及需要解决的重大事项,为及时调整监管企业的生产经营策略提供信息帮助。包括:1)、司法风险预警实现对企业的失信执行人信息、法院公告、裁判文书、执行公告进行预警预报。2)、工商风险预警实时监控企业基本信息,对企业发生工商信息变更、股东信息变更、股权变更等进行预警。3)、行政处罚预警展示企业行政处罚信息:公司名、文号、类型、处罚内容、决定机关、决定日期;4)、情报监测预警发现企业情报信息进行即时预警,舆情:公司名、标题、来源、发布时间等信息。三、知识图谱关系挖掘需求通过建立知识图谱基础上,融合内外部数据,通过关联关系挖掘全面涵盖全国最新的企业工商数据、司法涉诉数据、行政处罚数据等,数据覆盖率98%以上,利用知识图谱对相关数据及网络数据进行处理和分析,实现对单位的单点、多点、幕后及投资关系族谱,将单位置于阳光之下,透明之中。2.4子系统功能需求1. *信息数据采集子系统功能需求开发采集工具采集近5000家控股及参股的监管企业数据,通过接口对接委内系统、*市政府大数据平台、第三方平台、以及互联网等获取相关数据,为*数据资源库和知识图谱库构建提供数据基础。一、数据采集方式本项目应支持非实时采集、实时采集、主动采集、被动采集、导入、在线填报和基于中间库等多种采集方式。二、数据来源及需求本项目的数据来源包含但不限于下表内容,但要确保官方、合法及业界通用。数据范围和来源具体应包括:序号数据类别数据来源来源途径1*内部文件、内部各系统数据、企业请示文件*市*内部采集、清洗2近5000家监管企业内部数据监管企业采集企业数据3全国企业工商信息全国工商网站等投标方提供4全国企业经营信息全国企业信用信息公示系统等投标方提供5全国司法涉诉信息中国法院裁判文书网、中国执行信息公开网等投标方提供6全国处罚信息中国执行信息公开网等投标方提供7全国纳税信息税务网站等投标方提供8上市企业信息巨潮、同花顺等投标方提供备注:1)市*每年从监管企业及各级子企业采集了大量的数据,数据类型有结构化和非结构化数据两类。对结构化数据,需要利用采集工具进行采集。对非结构化数据,需要利用智能文本解释手段,进行结构化处理。2)对工商、司法、行政处罚等信息,由于监管企业分布在全国各地,目前从*市大数据共享中心对接的只有*市辖区的数据,无法完全覆盖所有监管企业及关联企业,需要投标方提供全国的数据,用于*知识图谱的建设。从实际实务出发进行需求分析,需提供的数据包括但不限于以下列表中的数据:数据类型数据名称主要信息字段数据量估算(条数)数据量估算(存储量)企业工商企业类型、注册资本、地址、企业注册号、经营范围、企业法定代表人、成立日期、核准日期、在业、组织机构号、统一社会信用代码、统一社会信用代码、公司状态约0.9亿条企业工商信息股东信息股东姓名、股东类型、证照/证件号码、认缴出资额、出资方式、实缴出资额、出资方式、出资时间、实缴时间属于工商基本信息范围约3TB主要人员主要人员职位、主要人员姓名变更记录变更项目、变更日期、变更前内容、变更后内容经营异常经营异常列入原因、列入日期、移出原因、移出时间约1500万条行业分类国标行业门类、国标行业大类动产抵押.基本信息登记编号、登记日期、状态、登记机关、被担保债权种类、被担保债权数额、抵约50万条押权人信息、抵押物信息、注销日期、注销原因股权出质登记信息登记编号、出质人、出质股权数额、出质股权数额单位、出质股权数额币种、质权人、股权出质设立登记日期、状态、备注、变更记录80万条行政处罚信息行政处罚决定书文号、违法行为类型、行政处罚类容、作出行政处罚决定机关名称、作出行政处罚决定日期约250万条企业法人对外投资信息企业名称、法人姓名、企业(机构)类型、注册资本、企业状态、登记机关、出资比例、开业日期、成立时间属于工商基本信息范围企业经营信息行政许可信息许可文件编号、有效期自、有效期至、许可机关、许可文件名称、许可内容、状态约500万条约60GB招投标描述(标题)、发布时间、中标(成交)金额约500万条约80GB商标信息商标名称、注册号、商标状态、申请日期、商标使用期限时间段约1200万条约200GB企业对外投资信息企业名称、注册号、企业(机构)类型、注册资本(万元)、注册资本币种、企业状态、认缴出资额(万元)、出资比例、法定代表人姓名、成立日期、统一社会信用代码证属于工商基本信息范围属于工商基本信息范围企业法人其他企业任职信息企业名称、法人姓名、注册号、注册资本、企业状态、职务、是否法定代表人、统一社会信用代码证、成立日期属于工商基本信息范围董监高对外投资、任职信息法定代表人信息,企业名称,工商注册号,企业类型,注册资本(万元),企业状态,任属于工商基本信息范围职信息,认缴出资额(万元)、统一社会信用代码证、出资比例股东对外投资、任职信息法定代表人信息,企业名称,工商注册号,企业类型,注册资本(万元),企业状杰,任职信息,认缴出资额(万元)、统一社会信用代码证、出资比例属于工商基本信息范围专利信息专利名称、专利类型、摘要、专利权人、授权公告日、状态约1500万条企业融资信息企业Id,企业规模,网站,企业简介,企业简称,企业名称,融资状态,融资日期,融资轮次,融资金额,投资者,投资者Id,融资新闻标题,融资新闻URL约50万条约IGB招聘信息标题,经验,工作地点,学历,公布日期,开始招聘日期,结束招聘日期,工作类型,性别,年龄,招聘人数,企业规模,行业,标签,雇主,类别,职位描述,公司名约1000万条约120GB企业司法涉诉信息企业开庭公告信息法庭,开庭日期,案号,案由,承办部门,审判长/主审人,原告,被告约400万条约5TB企业法院公告信息公告类型,内容,发布日期,法院,当事人约150万条企业裁判文书信息类型,标题,提交日期,裁判文书id,案号,案由约2000万条企业被执行人信息执行ID,执行法院,立案日期,执行ID,执行依据文号,执行状态,执行法院,立案日期,执行金额约500万条自然人被执行人信息执行ID,执行依据文号,执行状态,执行法院,立案日期,执行金额,被执行人姓名,被执行人身份证号码企业失信人信息失信ID,执行法院,立案时间,案号,做出执行依据单位,发布日期约150万条自然人失信人信息执行法院,法定代表人,省份,执行依据文号,立案时间,案号,做出执行依据单位,生效法律文书确定的义务,被执行人履行情况,失信被执行人行为具体情形,发布日期,身份证号企业立案信息立案Id,开庭日期,案号,当事人角色,当事人企业id,当事人企业名称约100万条企业处罚信息企业工商行政处罚信息序号,决定书文号,违法行为类型,行政处罚内容,决定机关名称,处罚决定日期,公示日期,详情约300万条约6.IGB企业工商经营异常信息企业名,注册号,省份,列入原因,列入时间,移出原因,移出时间,做出决定机关企业工商严重违法名单列入严重违法失信企业名单(黑名单):列入严重违法失信企业名单(黑名单)原因,列入日期,作出决定机关(列入),移出严重违法失信企业名单(黑名单)原因,移出日期,作出决定机关(移出)失信被执行人信息:执法案号,执行法院,立案日期,公示日期,执法案号,立案日期,法律文书确定业务,履行情况,未履行情况,已履行情况,执行法院,执行依据制作单位,执行案由,失信行为情形,文书文号,执行依据文号重大税收违法案件信息:案件性质,主要违法事实,实施检查的单位,纳税人名称,统一社会信用代码/注册号,纳税人识别号,组织机构代码,注册地址,法定代表人或者负责人姓名,性别,公民身份号码,负有直接责任的财务人员,负有直接责任的财务人员性别,负有直接责任的财务人员身份证号码,案件性质,相关法律依据及处理处罚情况,实施检查的单位,外网公布日期企业工程不良行为信息诚信记录编号,诚信记录主体,决定内容,实施部门,文号,决定日期,发布有效期,事由,类型,原文链接,创建时间,更新时间企业食品不安全产品信息标题,标称生产企业名称,标称生产企业地址,被抽样单位名称,被抽样单位地址,食品名称,规格型号,商标,生产日期/批号,不合格项目Il检验结果Il标准值,备注,分类,公告号,抽检项目,公告日期,任务来源/项目名称,国家或省抽查企业环保处罚信息文书号,处罚日期/处罚生效期,作出处罚单位名称,环保处罚id约3万条约0.5GB企业纳税信息企业欠税信息纳税人类型,纳税人识别号,负责人姓名,证件号码,经营地点,欠税税种,欠税余额,当前发生的欠税余额,所属市县区,欠税所属期,发布日期,发布单位约150万条约2GB企业重大税收违法信息纳税人名称,纳税人识别号,组织机构代码,注册地址,法定代表人或者负责人姓名、性别、证件名称及号码,负有直接责任的财务负责人姓名、性别、证件名称及号码,负有直接责任的中介机构信息及其从业人员信息,案件性质,主要违法事实,相关法律依据及,税务处理处罚情况企业纳税信用评级信息企业名称,企业统一社会信用代码,信用等级列表,信用年份,信用等级(八)上市企业信息企业概况企业名称、上市代码、公司简介、证券类别、所属行业、经营范围、法人代表、董事长、总经理、董秘、证券代表、企业网址、办公地址、联系电话等约100O万条300GB企业公告各类企业公开信息高管信息包括董事、监事、高管等。姓名、性别、学历、年龄、职务、任职时间、简介十大股东股东名称、持股数、占总股本持股比例、变动情况十大流通股东股东名称、持股数、占总股本持股比例、变动情况股本结构时间、股东人数、较上期变化、人均流通股、股价、人均持股金额、前十大股东持股合计、前十大流通股东持股合计十大股东持股变动变动时间、股东名称、股份类型、持股数、占总股本持股比例、增减、增减股占原股东持股比例、变动原因高管持股变动变动日期、变动人、变动数量、结存股票、交易均价、是否董监高、与高管关系重大事项对外担保:公告日期、担保起始日、担保终止日、担保金额、担保类型、担保方、被担保方;诉讼仲裁:公告日期、诉讼事项、涉及金额、币种、原告、被告;违规处理:公告日期、处罚类型、处罚金额、处罚部门、处罚对象、处罚原因、处罚内容财务分析关键指标:营业收入、毛利润、扣非利润等;每股指标:基本每股收益、每股净资产、每股公积金、每股未分配利润、每股经营现金流;成长能力指标:归属净利润、扣非净利润、营业总收入同比增长、归属净利润同比增长、扣非净利润同比增长盈利能力:加权净资产收益率、摊薄净资产收益率、摊薄总资产收益率、毛利率、净利率、实际税率;盈利质量指标:预收款/营业收入、销售现金流/营业收入、经营现金流/营业收入;运营能力指标:总资产周转率、应收账款周转天数、存货周转天数;财务风险指标:资产负债率、流动负债/总负债、流动比率、速动比率;资产负债表流动资产:货币资金、应收账款、其它应收款、存货、流动资产合计;非流动性资产:长期股权投资、固定资产、无形资产、资产总计;流动负债:应付账款、预收账款、流动负债合计;非流动负债:长期负债合计,负债合计;所有者权益:实收资本、资本公积金、盈余公积金、股东权益合计利润表营业收入:营业收入、营业成本、销售费用、财务费用、管理费用、资产减值损失、投资收益;营业利润:营业利润;利润总额:利润总额、所得税;净利润:归属母公司所有者净利润现金流量表经营活动现金流:销售商品、提供劳务收到的现金,收到的税费返还,收到其他与经营活动有关的现金,经营活动现金流小计,购买商品、接收劳务支付的现金,支付给职工以及为职工支付的现金,支付的各项税费,支付其他与经营活动有关的现金,经营活动现金流出小计,经营活动产生的现金流量净额;投资活动现金流:取得投资收益所收到的现金,处置固定资产、无形资产和其他长期资产收回的现金净额,投资活动现金流入小计,购建固定资产、无形资产和其他长期资产支付的现金,投资支付的现金,投资活动现金流出小计,投资活动产生的现金流量净额;筹资活动现金流:吸收投资收到的现金,取得借款收到的现金,筹资活动现金流入小计,偿还债务支付的现金,分配股利、利润或偿付利息支付的现金,筹资活动现金流出小计。筹资活动产生的现金流量净额,合计约1.8亿条约IOTB三、数据采集需求根据关于推进市属经营性国有资产统一监管的实施方案、*市*关于印发对市属委托监管单位实施“三统一”管理的意见(试行)的通知(*(2013)45号)、*市*关于印发监管企业运行统计工作管理办法(暂行)和运行统计信息报告制度的通知(*运行(2017)5号)、*市市属单位财务预算管理暂行办法(*府办(2009)29号)、关于印发*市*直属企业财务决算报告管理暂行办法的通知(*(2008)58号)、*市人民政府办公厅关于规范我市单位土地资产处置的指导意见(*府办函(2017)141号)、*市人民政府办公厅关于规范我市单位物业出租管理的指导意见(*府办函(2017)147号)等文件指示,对市属单位进行推进统一监管,构建大*监管体系,全面落实*监管责任,故需要采集市属单位的基础信息、财务快报、财务决算、财务预算、土地信息、物业信息及监管各类事项报告。基础信息采集:包括但不限于单位主要出资人组织代码、*监管机构、所属部门、邮编、企业产权部门、合并报表范围、公商补登不一致理由、产权登记情形、地址、注册