NLP文本语义分析服务技术方案.docx
《NLP文本语义分析服务技术方案.docx》由会员分享,可在线阅读,更多相关《NLP文本语义分析服务技术方案.docx(132页珍藏版)》请在课桌文档上搜索。
1、NLP文本语义分析服务技术方案第一章项目概述11.1. 项目背景11.2. 建设目标11.3. 建设任务21.4. 建设周期21.5. 建设原则21.6. 建设依据2第二章需求分析62.1. 数据需求分析62.2. 技术需求分析62.3. 功能需求分析7第三章总体设计方案103.1. 总体技术路线103.1.1. 设计约束原则103.1.2. 关键核心技术1032总体架构和功能143.3. 网络部署153.4. 技术路线163.5. 系统安全建设173.5.3. 安全管理设计183.6. 系统性能要求19第四章文本语义分析服务建设内容204.1. 语义服务内容204.1.1. 概述204.1.
2、2. 文本结构化服务204.1.3. 要素抽取服务234.1.4. 分析挖掘服务254.1.5. 数据标注服务274.2. 语义模型定制及训练284.3. 标准接口服务294.4. 业务库建设30第五章业务场景详细设计方案315.1. 文本预处理315.1.1. 文本预处理目的及流程图315.1.2. 文本预处理流程描述315.1.3. 模块输入315.1.4. 模块输出315.1.5. 算法设计325.2. 文本语义分析345.2.1. 语义解析345.2.2. 语义服务355.3. 案件类型自动分类365.3.1. 数据准备365.3.2. 算法设计365.4. 案件文本要素抽取405.5
3、. 地址标准化425.5.1. 数据基础425.5.2. 分析流程设计435.5.3. 地名识别435.5.4. 地名标准化475. 6.案件文本自动摘要515.1.1. 数据准备515.1.2. 分析流程设计515.1.3. 算法设计535.7. 智能串并案605.7.1. 定义605.7.2. 应用分析615.7.3. 业务流程615.7.4. 案件关联挖掘分析算法设计625.7.5. 警情案情关联分析64第六章知识获取与维护686.1. 语言知识自动获取686.2. 语言知识维护726.3. 语言知识维护管理支撑工具74第七章分析挖掘引擎部署方案757.1.基础环境757.1.1, 硬件
4、环境757.1.2, 软件环境757.2. 安装文件757.2.1. 数据库脚本757.2.2. 服务安装包757.3. 系统安装流程767.3.1. 服务调用关系767.3.2. 基础软件安装767.3.3. 系统服务安装77第八章项目管理方案878.1. 项目组织结构和职责878.2. 项目组织实施管理888.2.1. 项目组织管理888.2.2. 项目沟通管理898.2.3. 项目实施方式908.2.4. 项目人力资源规划918.3. 项目沟通管理机制918.3.1. 各方的沟通机制928.4. 项目变更机制938.5. 项目跟踪948.5.1. 问题跟踪948.5.2. 客户反馈94第
5、九章项目质量管理959.1. 目的959.2. 质量管理969.2.1. 质量方针969.2.2. 质量保证活动(QA职能)97第十章培训及运行服务方案9810.1. 系统培训9810.1.1. 培训目的9810.1.2. 培训目标及对象9810.1.3. 培训方式9810.1.4. 培训内容9910.1.5. 应用软件维护服务内容9910.1.6. 系统平台运行维护内容10010.2. 运行服务措施10110.2.1. 故障分类、分析及处理10110.2.2. 技术支持和专家技术咨询服务10310.2.3. 应用服务运作流程10410.2.4. 应用软件修改和升级服务104附件105附件1L
6、inux系统JDK安装105附件2Linux系统下mysql数据库安装106附件3CRF+安装115附件4Tensflow安装116Vl第一章项目概述1.1. 项目背景为落实十九大精神和习近平总书记指示要求,直面QZ社会安全稳定发展,全面深化公安警务改革,着力提升服务改革发展大局的能力,大力实施“智慧新警务”战略,充分发挥公安机关社会治理主力军、生力军和先锋队作用,提升社会治理的智能化、科学化、精准化水平。当前,公安机关已逐步建立了各类公共基础信息资源库、人员社会行为动态信息库和业务信息系统,积累了大量的数据资源,这些数据资源和信息系统,大大提高了公安机关对案件侦破处理的效率和水平Q然而,庞大
7、的数据量以及价值信息的获取,还主要停留在利用经验积累进行人工分析的阶段,庞大的数据量对进一步提高公安机关案件破获带来瓶颈Q此外,公安情报工作是公安工作的重要组成部分,是公安机关履行智能职责的重要依据,是完善各项工作的重要手段。利用人工智能相关技术,抓住犯罪特征及犯罪分子的活动特点,从犯罪活动分析着手,研究和建立适于国家执法部门侦查需要的情报分析模型,实现从大量的数据中智能挖掘潜在的有用的情报信息,提高公安的犯罪活动发现效率和侦查破案的能力,为构建和谐社会保驾护航。1.2. 建设目标升级城安系统七期智能检索的语义分析功能,本期针对警情案件文本信息,通过利用人工智能的语义分析技术,将案件描述的基本
8、信息进行关键要素的自动抽取,如涉案人员名字、作案时间、案件描述性关键词、涉案工具、涉案金额等,形成有效的案情结构化数据,供智能感知大数据平台进行综合分析Q1.3. 建设任务通过利用人工智能的语义分析技术,自动抽取案件文本信息的关键要素,形成有效的案情结构化数据。提供文本结构化、要素抽取、分析挖掘和数据标注等服务。1.4. 建设周期合同签定后,将按合同期内完成平台建设。1.5. 建设原则全局性原则。按照“全市一盘棋”的建设思路,遵循QZ市顶层设计要求,统筹考虑市、区级平台的匹配衔接。集约性原则。在充分利用现有视频感知、计算存储等资源的基础上,补充必要设施设备,通过系统集成实现平台的共建、共享、共
9、用。实用性原则。紧紧围绕QZ市公安局实际工作需要,把满足工作需求和业务管理作为第一要素。可扩展性原则。为适应QZ市公安局未来发展需求,各子系统具有平滑的扩展能力和良好的可移植性Q先进性原则。采用开放式平台架构,实现“上联下接”的效果,并运用视频图像识别、机器深度学习等人工智能技术。1.6. 建设依据为保证文本语义分析服务的建设质量,系统设计将遵循相关业务、技术、数据等标准和规范Q1、政策依据2006-2020年国家信息化发展战略国家“智慧城市”试点指标体系国家“智慧城市”试点暂行管理办法国家电子政务“十二五”规划国家发展改革委员会关于印发“十二五”国家政务信息化工程建设规划的通知(发改高技(2
10、012)1202号)数字化城市管理模式建设导则(试行)(建城2009119号)交通运输部、公安部、安监管理总局三部委2014年第5号令道路运输车辆动态监督管理办法2、计算机信息系统类标准及规范软件工程国家标准(GTB856)计算机软件产品开发文件编制指南(GB/T8567-1988)计算机软件需求说明编制指南(GB/T9385-1988)计算机软件测试文件编制指南(GB/T9386-1988)计算机软件配置管理计划规范(GB/T12505-90)计算机软件可靠性和可维护性管理(GB/T12394-93)软件工程标准分类法(GB/T15538-1995)软件开发规范(GB8566-88)3、公安
11、信息系统设计相关标准治安管理信息数据备案及访问服务接口总体技术规范GA/T1226-2015公安数据元(GA/T543)系列标准公安信息系统应用支撑平台总体方案设计(公安部)公安部市县级公安综合信息系统基本功能公安部公安信息系统应用支撑平台总体方案设计公安信息中心技术建设总体框架(公科信20144号)公安信息系统应用日志安全审计技术规范(试行)(公传发2013516号)全国公安请求服务系统总体建设方案公安身份认证与访问控制管理系统规范GA/T552系列标准公安信息网电子签章系统技术规范(暂行)(公信通传发200731号)公安机关办理刑事案件程序规定(公安部令第127号)3、系统集成规范SJ/T
12、11291-2003面向对象的系统建模规范SJ/T11310-2005信息设备资源共享协同服务SJ/T11290-2003面向对象的系统建模规范4、安全安全技术防范规范工程技术规范(GB/T75-94)安全防范工程技术规范(GB50348-2004)安全防范工程程序与要求(GA/T75-94)安全防范系统验收规则(GA308-2001)安全防范系统通用图形符号(GA/T74-2000)安全防范工程程序与要求(GA/T751994)计算站场地安全要求(GB9361-88)国务院令147号中华人民共和国计算机信息安全保护条例第二章需求分析2.1.数据需求分析(1)公安处理数据来源于各个方面:包括网
13、络监控、笔录、证据数据、电话录音、历史案件库等等。数据量大且大部分都为非结构信息,系统不能有效的进行处理。(2)数据之间关系复杂,犯罪活动与犯罪人经常存在关联关系,而数据的整理过程也无法有效的记录数据与数据之间的种种隐藏关系。(3)噪音数据多,特别是信息监控数据存在大量无效数据或干扰数据,然而当前分析系统不能有效的进行区分,且警力资源有限,不能及2.2.技术需求分析(1)不支持语义搜索,公安机关在长期的信息化进程中积累了大量的数据信息,但现阶段对数据的应用上还停留在只能对结构化数据进行查询,尚未对非结构化或半结构化数据开展深度应用,从而导致搜索的问题返回结果多且不准确。(2)自动化程度低,从庞
14、大的数据中获取有价值的信息手段,还停留在利用经验积累进行人工分析的阶段,警力不足和数据量巨大对公安机关的案件侦破带来困难。(3)情报识别准确率低,针对大量的分析数据,目前主要依赖关键词等技术进行分析导致错误率很低,并且不能及时有效提取出所需的情报信息。(4)没有构建有效的公安知识图谱和基于知识图谱的推理分析。公安作为与海量证据、线索、数据、信息打交道的部门,充分发挥现有数据信息的价值,将门类庞杂、种类繁多的海量公安数据进行整合,采用先进的语义分析技术,全面而深入挖掘信息之间的关联关系,这对于提取关键线索、提高办案效率具有非常重要的现实意义,更对于优化警力部署、提前制定预案,将违法犯罪事件扼杀在
15、萌芽状态具有重大指导意义。2.3.功能需求分析(1)文本语义分析随着社会的进步和技术的发展,人们不再仅仅满足于获取多种信息和简单的使用信息,而是想在深层次上利用这些信息为组织的决策提供帮助。公安数据中存在大量的文本信息,而文本中蕴含着大量有价值的线索,这时便需要对文本进行语义解析,挖掘出其潜在的价值。文本语义分析是其他上层应用的基础,只有解析出每句话的语义结构才能抽取出语句中所需的成分,以及理解语句所表述的内容。这里所说的语义分析即对文本内容进行解析的过程,而具体怎么使用解析结构需要与具体应用对接,从而提供相应的语义服务。(2)案件类型自动分类随着信息技术的高速发展,公安领域的情报信息系统也面
16、临着海量数据,主要是文本数据带来的巨大挑战,传统的手工处理方式已经难以满足业务上的需求,必须采用更加自动化、智能化的文本分析技术来提高办案效率。而对案件进行自动分类是所有分析工作的基础,将相同的案件归类到一起可以将案件集中化处理,为后续的各种分析侦查提供便利性。(3)案件文本要素抽取案件要素信息抽取是指将非结构化的文本信息进行结构化处理,使得文本信息可以像结构化信息一样进行查询、比对、统计、检索、展示操作。针对结构化以后的文本信息,提供各种分析挖掘功能,如分类聚类分析、关联关系分析、相似度分析等。主要采用基于要素抽取模型对案件文本的重要信息进行抽取。通过对抽取目标进行系统的分析和定义,并针对抽
17、取的目标(包括时间、地点、人物、物品、群体等要素)分别完成抽取模型的构建,识别出与情报业务相关的案件信息,并将其组织成结构化的数据,抽取的信息包括常规命名实体(时间、地址等)、专业术语(作案工具等)等信息。(4)地址标准化地名在案件信息中属于一个重要的信息元素,但是案件文本中的地名由于人的描述风格原因经常不是标准化的格式,为了统一格式,能过清晰明了的知道地名详细信息,因此需要对案件信息中的地址进行抽取,并进行拆分、补全,对指挥中心的接警信息、处警信息等文本信息的地址进行归一化处理,实现人为随意编写的地址转化为标准地址Q(5)案件文本自动摘要描述案件信息的文本常常篇幅较长,在案件数量较大的情况下
18、去全文阅读占用大量的警务人员时间,为了快速的抓住案件的关键信息,提出了对案件文本进行自动摘要的需求。主要目的是通过语义分析技术对各类案件文本信息内容,进行特征分析,摘要生成,然后自动推送内容摘要信息。办文人员可以订阅自己关心的案件类型摘要数据,并可以在此基础上修改摘要内容。(6)智能串并案案件犯罪数据的分析与挖掘主要是通过对犯罪记录进行分析,从而发现犯罪行为的规律、趋势,了解不同犯罪行为之间的关联,以及何种状态会诱发何种犯罪行为,进行串并案分析,提供破案线索和情报,预测并预防犯罪。第三章总体设计方案3.1. 总体技术路线设计约束原则1.经济性:系统在保证性能强大、先进的同时应考虑经济性,保护原
19、有投资,充分利用QZ市公安局现有信息化成果。2 .可靠性:系统总体设计必须将可靠性放在第一位,在设计中充分考虑确保系统可靠运行的相关保障措施。3 .完备性:系统总体设计需要保证系统功能和数据的齐全、完备,不可遗漏。4 .标准化:系统设计过程中要尽量采用国际、国内、QZ市既定标准,尽量杜绝私有协议、标准,保证系统后期扩展、升级的便利性。5 .可扩充性:任何信息系统需要按照业务开展的需要不断调整、演变,系统设计应充分采用模块化、组件化设计,便于系统后期的改进与扩充Q3.1.1. 关键核心技术语义分析(SemanticAnalysis)是人工智能(ArtificialIntelligence)的一个
20、分支,是自然语言处理技术的几个核心任务,涉及语言学、计算语言学、机器学习,以及认知语言等多个学科,语义分析任务有助于促进其他自然语言处理任务的快速发展。人工智能中的语义分析技术,特别是深度学习(DeePLearning)技术近年来发展迅猛,已经在围棋对弈、自动驾驶、图像识别、语音识别等多个领域取得了突破性进展。语义分析技术主要分为基础技术和深度学习技术,其中基础技术中包括词语级的语义分析、句子级的语义分析、篇章级的语义分析,深度学习主要包括循环神经网络。(1)词语级语义分析词汇层面上的语义分析主要体现在如何理解某个词汇的含义,主要包含两个方面:词义消歧和词义表示。1)词义消歧词汇的歧义性是自然
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- NLP 文本 语义 分析 服务 技术 方案
链接地址:https://www.desk33.com/p-991124.html