NLP文本语义分析服务技术方案.docx
NLP文本语义分析服务技术方案第一章项目概述11.1. 项目背景11.2. 建设目标11.3. 建设任务21.4. 建设周期21.5. 建设原则21.6. 建设依据2第二章需求分析62.1. 数据需求分析62.2. 技术需求分析62.3. 功能需求分析7第三章总体设计方案103.1. 总体技术路线103.1.1. 设计约束原则103.1.2. 关键核心技术1032总体架构和功能143.3. 网络部署153.4. 技术路线163.5. 系统安全建设173.5.3. 安全管理设计183.6. 系统性能要求19第四章文本语义分析服务建设内容204.1. 语义服务内容204.1.1. 概述204.1.2. 文本结构化服务204.1.3. 要素抽取服务234.1.4. 分析挖掘服务254.1.5. 数据标注服务274.2. 语义模型定制及训练284.3. 标准接口服务294.4. 业务库建设30第五章业务场景详细设计方案315.1. 文本预处理315.1.1. 文本预处理目的及流程图315.1.2. 文本预处理流程描述315.1.3. 模块输入315.1.4. 模块输出315.1.5. 算法设计325.2. 文本语义分析345.2.1. 语义解析345.2.2. 语义服务355.3. 案件类型自动分类365.3.1. 数据准备365.3.2. 算法设计365.4. 案件文本要素抽取405.5. 地址标准化425.5.1. 数据基础425.5.2. 分析流程设计435.5.3. 地名识别435.5.4. 地名标准化475. 6.案件文本自动摘要515.1.1. 数据准备515.1.2. 分析流程设计515.1.3. 算法设计535.7. 智能串并案605.7.1. 定义605.7.2. 应用分析615.7.3. 业务流程615.7.4. 案件关联挖掘分析算法设计625.7.5. 警情案情关联分析64第六章知识获取与维护686.1. 语言知识自动获取686.2. 语言知识维护726.3. 语言知识维护管理支撑工具74第七章分析挖掘引擎部署方案757.1.基础环境757.1.1, 硬件环境757.1.2, 软件环境757.2. 安装文件757.2.1. 数据库脚本757.2.2. 服务安装包757.3. 系统安装流程767.3.1. 服务调用关系767.3.2. 基础软件安装767.3.3. 系统服务安装77第八章项目管理方案878.1. 项目组织结构和职责878.2. 项目组织实施管理888.2.1. 项目组织管理888.2.2. 项目沟通管理898.2.3. 项目实施方式908.2.4. 项目人力资源规划918.3. 项目沟通管理机制918.3.1. 各方的沟通机制928.4. 项目变更机制938.5. 项目跟踪948.5.1. 问题跟踪948.5.2. 客户反馈94第九章项目质量管理959.1. 目的959.2. 质量管理969.2.1. 质量方针969.2.2. 质量保证活动(QA职能)97第十章培训及运行服务方案9810.1. 系统培训9810.1.1. 培训目的9810.1.2. 培训目标及对象9810.1.3. 培训方式9810.1.4. 培训内容9910.1.5. 应用软件维护服务内容9910.1.6. 系统平台运行维护内容10010.2. 运行服务措施10110.2.1. 故障分类、分析及处理10110.2.2. 技术支持和专家技术咨询服务10310.2.3. 应用服务运作流程10410.2.4. 应用软件修改和升级服务104附件105附件1Linux系统JDK安装105附件2Linux系统下mysql数据库安装106附件3CRF+安装115附件4Tensflow安装116Vl第一章项目概述1.1. 项目背景为落实十九大精神和习近平总书记指示要求,直面QZ社会安全稳定发展,全面深化公安警务改革,着力提升服务改革发展大局的能力,大力实施“智慧新警务”战略,充分发挥公安机关社会治理主力军、生力军和先锋队作用,提升社会治理的智能化、科学化、精准化水平。当前,公安机关已逐步建立了各类公共基础信息资源库、人员社会行为动态信息库和业务信息系统,积累了大量的数据资源,这些数据资源和信息系统,大大提高了公安机关对案件侦破处理的效率和水平Q然而,庞大的数据量以及价值信息的获取,还主要停留在利用经验积累进行人工分析的阶段,庞大的数据量对进一步提高公安机关案件破获带来瓶颈Q此外,公安情报工作是公安工作的重要组成部分,是公安机关履行智能职责的重要依据,是完善各项工作的重要手段。利用人工智能相关技术,抓住犯罪特征及犯罪分子的活动特点,从犯罪活动分析着手,研究和建立适于国家执法部门侦查需要的情报分析模型,实现从大量的数据中智能挖掘潜在的有用的情报信息,提高公安的犯罪活动发现效率和侦查破案的能力,为构建和谐社会保驾护航。1.2. 建设目标升级城安系统七期智能检索的语义分析功能,本期针对警情案件文本信息,通过利用人工智能的语义分析技术,将案件描述的基本信息进行关键要素的自动抽取,如涉案人员名字、作案时间、案件描述性关键词、涉案工具、涉案金额等,形成有效的案情结构化数据,供智能感知大数据平台进行综合分析Q1.3. 建设任务通过利用人工智能的语义分析技术,自动抽取案件文本信息的关键要素,形成有效的案情结构化数据。提供文本结构化、要素抽取、分析挖掘和数据标注等服务。1.4. 建设周期合同签定后,将按合同期内完成平台建设。1.5. 建设原则全局性原则。按照“全市一盘棋”的建设思路,遵循QZ市顶层设计要求,统筹考虑市、区级平台的匹配衔接。集约性原则。在充分利用现有视频感知、计算存储等资源的基础上,补充必要设施设备,通过系统集成实现平台的共建、共享、共用。实用性原则。紧紧围绕QZ市公安局实际工作需要,把满足工作需求和业务管理作为第一要素。可扩展性原则。为适应QZ市公安局未来发展需求,各子系统具有平滑的扩展能力和良好的可移植性Q先进性原则。采用开放式平台架构,实现“上联下接”的效果,并运用视频图像识别、机器深度学习等人工智能技术。1.6. 建设依据为保证文本语义分析服务的建设质量,系统设计将遵循相关业务、技术、数据等标准和规范Q1、政策依据«2006-2020年国家信息化发展战略国家“智慧城市”试点指标体系国家“智慧城市”试点暂行管理办法国家电子政务“十二五”规划国家发展改革委员会关于印发“十二五”国家政务信息化工程建设规划的通知(发改高技(2012)1202号)数字化城市管理模式建设导则(试行)(建城2009119号)交通运输部、公安部、安监管理总局三部委2014年第5号令道路运输车辆动态监督管理办法2、计算机信息系统类标准及规范软件工程国家标准(GTB856)计算机软件产品开发文件编制指南(GB/T8567-1988)计算机软件需求说明编制指南(GB/T9385-1988)计算机软件测试文件编制指南(GB/T9386-1988)计算机软件配置管理计划规范(GB/T12505-90)计算机软件可靠性和可维护性管理(GB/T12394-93)软件工程标准分类法(GB/T15538-1995)软件开发规范(GB8566-88)3、公安信息系统设计相关标准治安管理信息数据备案及访问服务接口总体技术规范GA/T1226-2015公安数据元(GA/T543)系列标准公安信息系统应用支撑平台总体方案设计(公安部)公安部市县级公安综合信息系统基本功能公安部公安信息系统应用支撑平台总体方案设计公安信息中心技术建设总体框架(公科信20144号)公安信息系统应用日志安全审计技术规范(试行)(公传发2013516号)全国公安请求服务系统总体建设方案公安身份认证与访问控制管理系统规范GA/T552系列标准公安信息网电子签章系统技术规范(暂行)(公信通传发200731号)公安机关办理刑事案件程序规定(公安部令第127号)3、系统集成规范SJ/T11291-2003面向对象的系统建模规范SJ/T11310-2005信息设备资源共享协同服务SJ/T11290-2003面向对象的系统建模规范4、安全安全技术防范规范工程技术规范(GB/T75-94)安全防范工程技术规范(GB50348-2004)安全防范工程程序与要求(GA/T75-94)安全防范系统验收规则(GA308-2001)安全防范系统通用图形符号(GA/T74-2000)安全防范工程程序与要求(GA/T751994)计算站场地安全要求(GB9361-88)国务院令147号中华人民共和国计算机信息安全保护条例第二章需求分析2.1.数据需求分析(1)公安处理数据来源于各个方面:包括网络监控、笔录、证据数据、电话录音、历史案件库等等。数据量大且大部分都为非结构信息,系统不能有效的进行处理。(2)数据之间关系复杂,犯罪活动与犯罪人经常存在关联关系,而数据的整理过程也无法有效的记录数据与数据之间的种种隐藏关系。(3)噪音数据多,特别是信息监控数据存在大量无效数据或干扰数据,然而当前分析系统不能有效的进行区分,且警力资源有限,不能及2.2.技术需求分析(1)不支持语义搜索,公安机关在长期的信息化进程中积累了大量的数据信息,但现阶段对数据的应用上还停留在只能对结构化数据进行查询,尚未对非结构化或半结构化数据开展深度应用,从而导致搜索的问题返回结果多且不准确。(2)自动化程度低,从庞大的数据中获取有价值的信息手段,还停留在利用经验积累进行人工分析的阶段,警力不足和数据量巨大对公安机关的案件侦破带来困难。(3)情报识别准确率低,针对大量的分析数据,目前主要依赖关键词等技术进行分析导致错误率很低,并且不能及时有效提取出所需的情报信息。(4)没有构建有效的公安知识图谱和基于知识图谱的推理分析。公安作为与海量证据、线索、数据、信息打交道的部门,充分发挥现有数据信息的价值,将门类庞杂、种类繁多的海量公安数据进行整合,采用先进的语义分析技术,全面而深入挖掘信息之间的关联关系,这对于提取关键线索、提高办案效率具有非常重要的现实意义,更对于优化警力部署、提前制定预案,将违法犯罪事件扼杀在萌芽状态具有重大指导意义。2.3.功能需求分析(1)文本语义分析随着社会的进步和技术的发展,人们不再仅仅满足于获取多种信息和简单的使用信息,而是想在深层次上利用这些信息为组织的决策提供帮助。公安数据中存在大量的文本信息,而文本中蕴含着大量有价值的线索,这时便需要对文本进行语义解析,挖掘出其潜在的价值。文本语义分析是其他上层应用的基础,只有解析出每句话的语义结构才能抽取出语句中所需的成分,以及理解语句所表述的内容。这里所说的语义分析即对文本内容进行解析的过程,而具体怎么使用解析结构需要与具体应用对接,从而提供相应的语义服务。(2)案件类型自动分类随着信息技术的高速发展,公安领域的情报信息系统也面临着海量数据,主要是文本数据带来的巨大挑战,传统的手工处理方式已经难以满足业务上的需求,必须采用更加自动化、智能化的文本分析技术来提高办案效率。而对案件进行自动分类是所有分析工作的基础,将相同的案件归类到一起可以将案件集中化处理,为后续的各种分析侦查提供便利性。(3)案件文本要素抽取案件要素信息抽取是指将非结构化的文本信息进行结构化处理,使得文本信息可以像结构化信息一样进行查询、比对、统计、检索、展示操作。针对结构化以后的文本信息,提供各种分析挖掘功能,如分类聚类分析、关联关系分析、相似度分析等。主要采用基于要素抽取模型对案件文本的重要信息进行抽取。通过对抽取目标进行系统的分析和定义,并针对抽取的目标(包括时间、地点、人物、物品、群体等要素)分别完成抽取模型的构建,识别出与情报业务相关的案件信息,并将其组织成结构化的数据,抽取的信息包括常规命名实体(时间、地址等)、专业术语(作案工具等)等信息。(4)地址标准化地名在案件信息中属于一个重要的信息元素,但是案件文本中的地名由于人的描述风格原因经常不是标准化的格式,为了统一格式,能过清晰明了的知道地名详细信息,因此需要对案件信息中的地址进行抽取,并进行拆分、补全,对指挥中心的接警信息、处警信息等文本信息的地址进行归一化处理,实现人为随意编写的地址转化为标准地址Q(5)案件文本自动摘要描述案件信息的文本常常篇幅较长,在案件数量较大的情况下去全文阅读占用大量的警务人员时间,为了快速的抓住案件的关键信息,提出了对案件文本进行自动摘要的需求。主要目的是通过语义分析技术对各类案件文本信息内容,进行特征分析,摘要生成,然后自动推送内容摘要信息。办文人员可以订阅自己关心的案件类型摘要数据,并可以在此基础上修改摘要内容。(6)智能串并案案件犯罪数据的分析与挖掘主要是通过对犯罪记录进行分析,从而发现犯罪行为的规律、趋势,了解不同犯罪行为之间的关联,以及何种状态会诱发何种犯罪行为,进行串并案分析,提供破案线索和情报,预测并预防犯罪。第三章总体设计方案3.1. 总体技术路线设计约束原则1.经济性:系统在保证性能强大、先进的同时应考虑经济性,保护原有投资,充分利用QZ市公安局现有信息化成果。2 .可靠性:系统总体设计必须将可靠性放在第一位,在设计中充分考虑确保系统可靠运行的相关保障措施。3 .完备性:系统总体设计需要保证系统功能和数据的齐全、完备,不可遗漏。4 .标准化:系统设计过程中要尽量采用国际、国内、QZ市既定标准,尽量杜绝私有协议、标准,保证系统后期扩展、升级的便利性。5 .可扩充性:任何信息系统需要按照业务开展的需要不断调整、演变,系统设计应充分采用模块化、组件化设计,便于系统后期的改进与扩充Q3.1.1. 关键核心技术语义分析(SemanticAnalysis)是人工智能(ArtificialIntelligence)的一个分支,是自然语言处理技术的几个核心任务,涉及语言学、计算语言学、机器学习,以及认知语言等多个学科,语义分析任务有助于促进其他自然语言处理任务的快速发展。人工智能中的语义分析技术,特别是深度学习(DeePLearning)技术近年来发展迅猛,已经在围棋对弈、自动驾驶、图像识别、语音识别等多个领域取得了突破性进展。语义分析技术主要分为基础技术和深度学习技术,其中基础技术中包括词语级的语义分析、句子级的语义分析、篇章级的语义分析,深度学习主要包括循环神经网络。(1)词语级语义分析词汇层面上的语义分析主要体现在如何理解某个词汇的含义,主要包含两个方面:词义消歧和词义表示。1)词义消歧词汇的歧义性是自然语言的固有特征。词义消歧根据一个多义词在文本中出现的上下文环境来确定其词义,作为各项自然语言处理的基础步骤和必经阶段被提出来。词义消歧包含两个必要的步骤:(a)在词典中描述词语的意义;(b)在语料中进行词义自动消歧。2)词义表示和学习对于词义表示,早期的做法将某个词义表示为,从该词义在同义词网络中出现的位置到该网络根节点之间的路径信息。词义表示的另一个思路是将其数字化。最直观,也是到目前为止最常用的词表示方法是one-hot表示方法,这种方法把每个词表示为一个很长的向量。随着机器学习算法的发展,目前更流行的词义表示方式是词嵌入(WordEnlbedding,又称词向量)。其基本想法是:通过训练将某种语言中的每一个词映射成一个固定维数的向量,将所有这些向量放在一起形成一个词向量空间,而每一向量则可视为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性。(2)句子级语义分析句子级的语义分析试图根据句子的句法结构和句中词的词义等信息,推导出能够反映这个句子意义的某种形式化表示Q根据句子级语义分析的深浅,又可以进一步划分为浅层语义分析和深层语义分析。1)浅层语义分析语义角色标注(SenIantiCRoleLabeling,简称SRL)是一种浅层的语义分析。给定一个句子,SRL的任务是找出句子中谓词的相应语义角色成分,包括核心语义角色(如施事者、受事者等)和附属语义角色(如地点、时间、方式、原因等)。目前SRL的实现通常都是基于句法分析结果,即对于某个给定的句子,首先得到其句法分析结果,然后基于该句法分析结果,再实现SRLo2)深层语义分析深层的语义分析(有时直接称为语义分析,SemanticParsing)不再以谓词为中心,而是将整个句子转化为某种形式化表示,例如:谓词逻辑表达式(包括Iainbda演算表达式)、基于依存的组合式语义表达式(dependencybasedcompositionalsemanticrepresentation)等。虽然各种形式化表示方法采用的理论依据和表示方法不一样,但其组成通常包括关系谓词(如上例中的IoC_2、river等)、实体(如Colorado)等。语义分析通常需要知识库的支持,在该知识库中,预先定义了一序列的实体、属性以及实体之间的关系。(3)篇章级语义分析篇章是指由一系列连续的子句、句子或语段构成的语言整体单位,在一个篇章中,子句、句子或语段间具有一定的层次结构和语义关系,篇章结构分析旨在分析出其中的层次结构和语义关系。具体来说,给定一段文本,其任务是自动识别出该文本中的所有篇章结构,其中每个篇章结构由连接词,两个相应的论元,以及篇章关系类别构成。篇章结构可进一步分为显式和隐式,显式篇章关系指连接词存在于文本中,而隐式篇章关系指连接词不存在于文本中,但可以根据上下文语境推导出合适的连接词。对于显式篇章关系类别,连接词为判断篇章关系类别提供了重要依据,关系识别准确率较高;但对于隐式篇章关系,由于连接词未知,关系类别判定较为困难,也是篇章分析中的一个重要研究内容和难点Q(4)深度学习技术在深度学习技术中,循环神经网络(RecurrentNeuralNetworks,RNNs)被证明在自然语言处理中是最有效的。RNNs的目的是使用序列来处理数据。在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。RNNs之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上,RNNs能够对任何长度的序列数据进行处理。但是在实践中,为了降低复杂性往往假设当前的状态只与前面的几个状态相关。RNNs已经在实践中被证明对NLP是非常成功的。如词向量表达、语句合法性检查、词性标注等。在RNNS中,目前使用最广泛、最成功的模型便是LSTMs(LongShort-TermMemory,长短时记忆模型)模型,该模型通常比VaninaRNNS能够更好地对长短时记忆模型依赖进行表达,该模型相对于一般的RNNs,只是在隐藏层做了手脚。RNNS可以应用于语言模型与文本生成、文本分类、机器翻译等自然语言处理任务中。3.2. 总体架构和功能I自动分类关联分析I I逻如推理语义解析实体识别悚处Il应用层接口屋文本语义分析服务,通过利用人工智能的语义分析技术,将案件描述的基本信息进行关键要素的自动抽取,如涉案人员名字、作案时间、案件描述性关键词、涉案工具、涉案金额等,形成有效的案情结构化数据,供智能感知大数据平台进行综合分析。总体架构图如下。潦度学习:fastext、IStm、mn. be得功能星算法层基于统计:tf-idtlogistics.Ida.svm5数据展语言知识词第数擀扇试故庭置日芯SI提(1)数据层:将会提供基础语言知识数据,模型的训练数据,测试数据,系统的日志数据。(2)算法层:主要实现一些基础的算法封装,例如tf-idf、erf、Ida、Istm等算法。(3)功能层:功能层将会根据实现的功能,灵活调用相应的算法来实现此功能。(4)接口层:负责系统内部的接口调用协议整理,以及对外提供的接口封装。(5)维护层:负责系统的数据、功能、接口维护,以及通过语言知识后台管理系统不断进行数据的完善和扩充。(6)应用层:主要用于提供相应的应用能力。3.3. 网络部署网络部署示意图如下:发布测试用服务实例生产用服务实例训练知识库知识训练引擎+丽®颌!庖:M/汽车 B<Wi 柱殳Zfi ;知识管理工具前置系统端系统3.4. 技术路线文本语义分析服务将融入国内外先进的技术和管理理念,以人工智能先进理念为基础,紧紧抓住信息化手段、精准化联动两条主线。智能语义分析技术流程语义分析的技术流程主要包括数据标注、模型开发、模型训练和模型发布等操作步骤,为业务提供Al语义分析服务的全流程操作,其技术流程图如下图所示Q语义分析服务基本流程如下:1)通过业务部门提供的原始数据,分析数据特征;2)通过引擎提供的标注功能,根据数据特征对原始数据进行标注,并对标注结果进行保存,这是NLP算法模型训练的数据源;3)通过引擎提供的开发算法环境,进行模型的开发、优化、调参和测试,或者直接选用模型库中的模型;4)针对具体的使用场景,选用合适的模型进行训练,在开始训练之前,需要进行参数配置;5)训练任务完成之后,将训练好的模型存入数据库中;6)将模型部署为预测接口服务,用户只需填写接口路径和接口的相关参数(如预测语料),调用接口服务,系统即可得到相应的推理结果,并推送到业务系统(接口调用方)。3.5. 系统安全建设3.5.1. 网络通信安全依托QZ市公安局的公安网、视频专网相关网络通信安全保障。352.应用系统数据安全应用系统数据安全,需要考虑数据的存储、备份和恢复等。系统将对重要的业务数据、操作日志、关键数据、数据库及操作系统进行备份Q在制定备份策略时,将根据数据的运作和使用情况,来确定数据的最长有效期、可容忍的数据丢失时间,从而确定执行备份的时间、每次备份的种类、使用空间介质和重用老介质的方法。常见数据备份策略有多种:完全备份、增量备份、差分备份等Q同时,在备份对象上主要分为:系统备份、数据库备份、文档备份、应用备份等。3.5.3. 安全管理设计解决信息系统的安全问题,不仅应从技术方面着手,更应加强信息系统安全的管理工作。建立完善的计算机安全管理条例是安全的重要组成部分,通过管理制度的严格实施可以防止人为地泄露机密信息。信息安全管理从制定完善的信息安全管理制度入手,从制度上保证系统的安全。人员管理是信息安全管理的核心,要对所有有关内部办公人员进行信息系统安全知识的基础培训,严格按照应用需求对人员进行安全等级划分,同时指定专人负责系统的安全管理。安全管理人员有变动时,要进行相应的管理程序更改。系统安全相关文档、文件注意整理和保存,对在实际应用过程中出现的各种信息安全事件和安全状况进行严格记录,利用安全管理软件对各种重要性网络行为、各种涉及系统重要配置的更改进行审核并计入日志。在系统实施的同时,建立相应的信息安全管理机构,完善和强化信息安全管理,形成自上向下的信息安全管理组织体系,是系统安全实施的必要条件。3.6. 系统性能要求总体性能指标系统响应时间小于等于3秒;系统批量任务数据量达GB数量级;系统数据存储量达TB数量级系统不间断稳定运行大于60天;系统对文本信息分词准确率达95%以上;系统对文本信息命名实体准确率达95%以上;系统支持200个以上信件信息提取摘要信息;系统关键信息提取响应时间小于3秒;第四章文本语义分析服务建设内容4.1. 语义服务内容4.1.1. 概述根据独特的语义分析技术,通过基础语义分析引擎的建模能力、数据资源、算法能力对非结构化/结构化文本数据进行处理,实现文本信息搜索、文本结构化、案件要素抽取与挖掘等功能,可支撑公安各业务应用。4.1.2. 文本结构化服务文本分析系统是针对非结构化的情报线索信息提供信息处理与分析服务,包括两部分功能,一是将非结构化的文本信息进行结构化处理,使得文本信息可以像结构化信息一样进行查询、比对、统计、检索、展示操作;二是针对结构化以后的文本信息,提供各种分析挖掘功能,如分类聚类分析、关联关系分析、相似度分析等。1 .结构化的文本信息处理(1)功能描述基于深度学习技术,将图片上的文字内容智能识别成为可编辑的文本。(2)技术实现步骤1)预处理:对包含文字的图像进行处理以便后续进行特征提取、学习,预处理的主要目的是消除图像中无关的信息,恢复有用的真实信息,增强有关信息的可检测性和最大限度地简化数据,从而改进特征抽取、图像分割、匹配和识别的可靠性;2)二值化:彩色图像所含信息量巨大,对于图片的内容,可以简单的分为前景与背景,为了让计算机更快的、更好的识别文字,需要先对彩色图像进行二值化处理;3)噪点去除:对于不同的文档,对噪点的定义可以不同,根据噪点的特征对文档进行去噪;4)倾斜校正:由于一般用户在拍照文档时,都比较随意,因此,拍照出来的图片不可避免地产生倾斜,这就需要进行倾斜校正;倾斜校正是指针对倾斜现象,通过各种图像处理技术,校正文档图像中该倾斜现象的技术;5)版面分析:版面分析是指分析一幅文本图像的块结构,以便进行后续的OCR识别处理;由于关系到识别的准确性和正确的文字顺序,版面分析是OCR文字识别必不可少的一步;6)字符切割:由于拍照条件的限制,经常造成字符粘连、断笔,因此,OCR识别的一个重要环节是将连续的字符分割为若干个独立的字符区域;7)字符识别:对图像上的文字内容识别成为可编辑的文本;8)版面恢复:将识别后的文字,像原文档图片那样排列、段落不变、位置不变、顺序不变的输出到WOrd文档或Pdf文档中;9)后处理、校对:后处理是有效运用词组和上下文联系对识别的文字图像进行纠错。如图所示,系统根据图片上描述的信息快速提取关键词。事故地点:深汕合作区国道324线云台禅寺路段发生时间:2019年4月9日上午事故情况:1人死亡,1人受饬事件类型:交通事故2019年4月9日上午,在深汕合作区国遗324线云台禅寺路段,发上一起小型轿车与二轮摩托车按的交通事故,造成二轮摩托车上一人当场死亡,另一人受伤送假筑救治.具体情况如下:9H07时45分许,罗爱兴必就?;*'#格车沿深汕合作区国道324往第埠方向行驶至云台禅寺路段时,与一辆二轮摩托车发生磁授,造成摩托车W驶场死亡波受伤送购埠卫生院,后转入海事县澎樨医院救治的交逋事故.*故发生后*分局夬世宽局长立印带领相关御门人员超处现场,组织开展救治和指挥协调等工作.目前该事故正在进一步调查处理中.附:当事人基本信息.2,结构化的文本信息处理(1)功能描述通过NLP语义分析技术对文本信息中的词与词之间自动加上空格或其他边界标记。可以对公安接处警等文本信息进行自动分词。可支持公安各类指挥业务系统中文本信息的分词搜索、关键词搜索。(2)技术实现步骤在语义分析技术中主要采用最大切割分词、最短路径分词和CRF条件随机场等算法来实现自动分词功能。其中,最大切割分词的基本原理是词表匹配,是速度最快的分词方法,它优先选择字典中最长的词作为分词结果;最短路径分词通过使用隐马尔科夫模型,构建出所有可能的分词路线,组成分词网络,通过维特比算法,在网络中找到总权重最大且线路最短的路径作为分词结果;CRF条件随机场通过学习分词上下文特征作为经验,在分词的时候,综合考虑当前文字及其上下文内容,做出概率预测,当遇到新的词汇时,它也可以根据其上下文特征,做出预测。根据给定的指挥中心预设类文本信息,分别采用这三种算法进行效果评估,从而选择分词效果最好的算法。4.1.3. 要素抽取服务实体抽取:在分词处理、词性识别和语义理解的基础上,在文本中发现相关实体,并具有针对公安业务的理解能力,发现与“五要素”有关的实体并抽取入库。在文本分词的基础上,针对事件、事件苗头等信息,通过自然语言分析处理技术,自动提取情报线索信息中所包含的时间、地点、人员、行为方式等事件要素信息。语义要素抽取:引擎采用规则描述与统计模型结合的方案,可以实现对于自定义语义要素的抽取,如:发案地点、作案工具、作案手段等语义。就时间:2017224010:30-13X)0时碘取、0-案发地点:渤Il市南山区户籍地址:湖北借武汉市汉阳区圈水湖路17号喇陈0-: 42010519601202×××x号随取窗台下有脚印,进屋查看发现屋内物品被翻动.案由判断:入室盗琏规则判断事主回来后发现窗户被损坏<* :助开窗*析丢失物品:现金:人民币Ll万兀左右财锄§取饰品:24K金顶能三条(均为9克左右,fMS1330)如图所示系统根据语义训练的模型,快速抽取情报线索信息。2017年2月24日13时05分桃源所接U媚挥中心指令:龙辉花园有相警被盗L我所民警张XX带领2人出警5分钟到达.至U后经了解2017年2月24日13时许,事主李海英(女,58岁,身份证号码:42010519601202x×xxx,户籍所在地:湖北省武汉市汉阳区墨水湖路17号),2丝竺空24日10时30分从居住地|(南山区龙辉花蔽号楼04031离开,走时用钥匙将屋门锁好。2017年2月24日13时许,事主回来后发现窗户被损坏,窗台下有脚印,进屋查看后发现屋内物品被翻动,后拨打“110"报警。经清点,被盗人民币Li万元左右现金、24K金项链三条(均为9克左右,于2001年在天虹商场以人民币1330元左右购买,无发票)已将材料移交刑警队.1.实体抽取(1)功能描述对公安指挥业务中的案件要素进行自动识别和提取,如:涉案地址、涉案时间、涉案人员、涉案组织、涉案物品等。(2)技术实现步骤1)采集公安业务样本数据;2)对样本数据进行分析,整理警情数据,并对样本进行标注;3)对警情涉及的涉案地址、涉案时间、涉案人员、涉案组织、涉案物品内容进行标注,并进行数据分析,根据数据分析内容进行特征构建;4)利用深度学习方法来训练样本数据,进行算法匹配、并对文本使用实体识别算法进行分析和算法参数调优,预测案件要素;5)进行中间件接口开发,提供业务系统调用接口和案件要素提取能力,该阶段完成后进行实施部署、联调联试工作。2.语义抽取(1)功能描述对作案手段、作案地点、作案工具等信息进行自动识别和提取。(2)技术实现步骤1)采集公安业务样本数据;2)对样本数据进行分析,整理警情数据,并对样本进行标注;3)对警情涉及的作案手段、作案地点、作案工具等内容进行标注,并进行数据分析,根据数据分析内容进行特征构建;4)利用深度学习方法来训练样本数据,进行算法匹配、并对文本使用实体识别算法进行分析和算法参数调优;5)进行中间件接口开发,提供业务系统调用接口和作案特征识别能力,该阶段完成后进行实施部署、联调联试工作。4.1.4. 分析挖掘服务分类聚类:在语义理解的基础上,根据设定的分类规则对不同文本进行分类,也可以在无规则的情况下对文本进行聚类。如图所示为智能串并案的应用场景,民警在处理新案件时往往需要与老案件进行关联分析的,我们通过结构化转换与抽取引擎将案件信息转成结构化的数据结构,并通过案件知识图谱将案件中的各个属性进行关联,如犯案人员画像关联、作案行为关联、作案地点关联等,发现新案件与老案件之间潜在的关系,挖掘新的情报,做出合理、有效的预测。新案件案件知以图 案件类型 案件属性值 案件行为 嫌疑人人物 *晏地区案件倚情tt*ffi息公安内部最 据库文本摘要:在语义理解和实体抽取的基础上,对文本所描述的内容进行摘要。如图所示,系统根据接处警信息,对警情内容进行智能语义训练,形成警情快报能力。接处警信息自动分析智能快报:南山分用阴濯察大队"N$WDO9O51619:3:“”经宣调,学蕊期m人值触1下:,地:广东省到闹鼬EMliJH 噫号和 工商注册:知IB区广东省划Il田区领4 9IMffi: Wtll楸兴的树棚公司(阴山区南山太戴如痴北中匍 熏山黜IBLl331U90516 19:39:25:“蒯?9号已将安M机帚谢,喊所遇再次颓圜Wif 第 I 席公安日OOM890516 19:44:05*1eMdj分WM警力珊城m除。y肺S公安山分 JLoeOS%-19O516 19:M:20>已触肌岫往墙却5.16南山区前海路屯大交通小故通报5月】阴下午*n汾,我市南山区前海路马 南园正街二里IS口附近,友生一起小猿车刑!跪 边行人铲重事数根据现场核实情况,目匍已 造成3人死亡,12Stt. H中蛇口医院接回3人 (1人重伤,2人轻伤,均无生命危能),南山医 院接回4人(1人仿,3人$J仿),南方医科大学 泽圳医院按©5人(2人重伤,3人较伤,均无生命 丽.指将中心接到报颦后第一时阿痴南山黜 所警力到达现场线挎衽序,同通知医痞息款器 门抢敦区员,并通知交管部门开辟嫌邑通道保母 息孜车JM雨到达L分类聚类(1)功能描述对预设类文本信息中的警情数据进行分类模型规划建设并训练优化,实现警情数据的自动分类Q警情信息分类包括:刑事案件、治安案件、治安事件、交通警情、求助咨询、投诉、举报、其他、无效、社会联动等。语义分析能力通过实时分析转写后的报警内容进行智能警情类别推荐,将推荐结果以服务方式提供给接处警系统警情类别字段选项。(2)技术实现步骤1)采集公安业务的样本数据,并提供分类体系和分类规则;2)对样本数据进行分析,整理警情分类标准,并对样本进行标注;3)对警情涉及的时间、地点、内容等进行数据分析,根据数据分析内容进行分类特征构建;4)利用深度学习方法训练样本数据,并对文本分类特征使用分类算法进行分析和分类算法参数调优;5)进行中间件接口开发,提供业务系统调用接口及警情信息分类能力,该阶段完成后进行实