欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > PPT文档下载  

    信息抽取技术.ppt

    • 资源ID:246432       资源大小:2.84MB        全文页数:77页
    • 资源格式: PPT        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    信息抽取技术.ppt

    信息抽取技术(Information Extraction),主要内容,信息抽取(IE)的引入及概念信息抽取相关研究活动信息抽取的层次和类型信息抽取系统及其应用中文信息抽取系统的开发,1.信息抽取(IE)的引入及概念,先从CLEF项目说起A Co-operative Clinical E-Science Framework(CLEF)Funded by the UK Medical Research CouncilDescriptive information:病历(Clinical histories)放射透视报告(radiology reports)病理学报告(pathology reports)染色体和图片注释数据库(annotations on genomic and image databases)技术文献(technical literature)网络资源(Web based resources),ROYAL MARSDEN NHS TRUST-PATIENT CASE NOTE 324A621F:MRS Dorothy Smith DOB:12/05/44 21,Park Crescent Basingstoke B12 Q13 16 Dec 1992 Seen in General Surgical This lady who has had a mastectomy and left open capsulotomy and removal of her prosthesis was seen by me in the clinic today on behalf of Mr Peterson.She has extensive bony lymphoedema in her left arm which does not seem to be getting any better although she is more or less reconciled to the problem.The original problem was that she complained of shooting pain in the direction of ulna nerve and although there does not seem to be any evidence of local,regional or distant recurrence the pain itself warrants management in a pain clinic.Mrs Smith could be seen in the pain clinic at the Marsden but as this would involve a lot of travelling would like to be treated nearer her home.I wonder whether it would be possible for you to investigate if there is a pain clinic available at Basingstoke as I am sure Dotty could be treated and benefit from its management.I have otherwise arranged for her to be seen in the clinic again in a years time.There are no signs of recurrence at this time.Mr Thomas Partridge,临床报告,#NHS TRUST-PATIENT CASE NOTE#:#DOB:1944 CLEF-RMH-Entry-Key:52A4F6DB2B46E AB 1992 Seen in General Surgical This lady who has had a mastectomy and left open capsulotomy and removal of her prosthesis was seen by me in the clinic today on behalf of XXXXXXXXXXX.She has extensive bony lymphoedema in her left arm which does not seem to be getting any better although she is more or less reconciled to the problem.The original problem was that she complained of shooting pain in the direction of ulna nerve and although there does not seem to be any evidence of local,regional or distant recurrence the pain itself warrants management in a pain clinic.XXXXXXXXX could be seen in the pain clinic at the XXXXXXX but as this would involve a lot of travelling would like to be treated nearer her home.I wonder whether it would be possible for you to investigate if there is a pain clinic available at XXXXXXXXXXX as I am sure XXXXX could be treated and benefit from its management.I have otherwise arranged for her to be seen in the clinic again in a years time.There are no signs of recurrence at this time.5213A4F612F1,从文本中实现关键信息抽取,根据模版或相关的知识资源标识出重要的信息及其相关关系,Interventions(曾经治疗),Problems(遗留的问题),Problem Site(问题部位),Locations(就医地点),Time(时间属性),从文本中实现关键信息抽取,收集抽取出的信息,Interventions,Problems,Problem Site,Locations,Time,也可跨越多个文档,形成病历,自动实现相关事件的链接?What happened&why?What was done&why?,乳房切除,caused_by,多骨淋巴球增多,12.10.20 Coryza:chest NAD:reassure13.10.20 URTI:wheezy:amoxycillin20.10.20 Anxiety:lump under arm:staging scan24.10.21 PEFR:300:10.11.21 PEFR:400:CXR requested12.11.21 CXR Basal Consolidation:erythromycin27.11.21:Chest clear:07.03.30 Depression:recurrence:Paroxetine19.04.30 WCC OK01.06.31:rpt Rx paroxetine18.10.31 Pain L arm:coproxamol03.03.31 Viral URTI:PEFR 350:salbutamol04.03.34 WCCAbnormal:30.05.34:BP,ECG NAD:,病历摘要,形成一个非常简短的病历摘要,CLEF-RMH-Entry-Key:52A4F6DB2B46E,Maria Sklodowska-Curie,针对目前的信息过载和数据泛滥的情况自然语言处理(NLP)人类语言技术(HLT)计算机语言学(CL)知识工程(KE)知识管理(KM)语义网络(Semantic Web)智能代理(Agent Based Computing)Web智能(Web Intelligence),欧洲美发达国家提出了“知识技术”(Knowledge Technologies)这一概念知识获取知识建模知识表示和可视化知识解析和共享知识重用知识检索知识的出版和分发知识维护,两条研究路线:基于KDD和Data Mining的线路。从结构化的数据(如数据库中的数据)中发现新的知识。基于自然语言处理(NLP)和文本挖掘(Text Mining)的线路。从非结构化或半结构化的数据(如Word、HTML、或PDF文件)发现新知识。“从大量的非结构化的数据中标识并抽取出事件的趋势和模型,并它们转换成为有用并可理解的信息”,集两种线路于一体的知识发现和知识表现的系统,1.信息抽取(IE),信息抽取(Information Extraction):目前日渐成熟,并得到越来越多人关注的文本挖掘方式,1.信息抽取(IE)的引入及概念,Hamish CunninghamInformation Extraction(IE)is a technology based on analysing natural language in order to extract snippets of information.信息抽取是一个输入/输出过程。输入:未知文本信息输出:固定格式、无二意性数据(信息)这些被抽取出来的数据可以直接显示给用户存储于数据库或电子表格中以供随后分析被用于索引系统,以便于将来进行检索访问,Douglas E.Appelt等信息检索和信息抽取对比信息检索仅仅从文件集(数据库)中找出相关的文献(数据)并简单地显现给用户而信息抽取不是仅仅指出某篇文献适合用户的需要,而是抽取真正适合用户的那些信息片段提供给用户,信息检索:获取一个与检索内容相关的文章的子集,用户得分析文章内容,信息抽取:抽取与用户所需内容相关的事实(件),用户分析事实(件)。,信息检索和信息抽取对比总结功能不同。处理技术不同。信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合(bags of words),不需要对文本进行深入分析理解;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。适用领域不同。由于采用的技术不同,信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。,主要内容,信息抽取(IE)的引入及概念信息抽取相关概念及研究活动信息抽取的层次和类型信息抽取系统及其应用信息抽取技术的应用前景中文信息抽取系统的开发,2.信息抽取相关概念与研究活动,IE的发展与以下研究活动密切相关:MUC(Message Understanding for Comprehension)MET(Multilingual Entity Task Evaluation)ACE(Automatic Content Extraction)DUC(Document Understanding Conferences)TDT.,2.1MUC,MUC之于IE,正如TREC之于IR也有人们认为MUC是Message Understanding Conference或Message Understanding Competition20世纪80年代未由美国国防部的DARPA(Defense Advanced Research Projects Agency)发起,2.1MUC,MUC唯一任务就是“信息抽取”:对自由文本进行分析,标识出某一特定类型的事件,并将有关这一事件的信息填写到相应的数据模板中总共进行7次:最初的MUC 1-2关注的是对电子邮件信息的抽取20世纪90年代之后的MUC 3-7主要关注对新闻文章的抽取,主题涉及恐怖活动、国际风险投资、企业成功管理经验MUC对于信息抽取的研究内容、信息抽取方式的分类、信息抽取系统的评价等都起到重要的促进作用,2.2MET,MET:Multilingual Entity Task Evaluation也是DARPA发起的一个测评项目。MET的主要是对日语、汉语以及西班牙语等多语种新闻文献进行命名实体抽取MET-1和MET-2测试分别于1996年和1998年进行,2.3ACE,ACE(Automatic Content Extraction)这一项目由美国国家安全局(NSA),美国商务部技术管理部门(NIST),以及中央情报局(CIA)一同主管。关注三种信息的自动化内容抽取:网络上的在线新闻、通过ASR(自动语音识别的)得到的广播新闻以及通过OCR(光学字符识别)得到的报纸新闻,两个目的:希望在自动化内容抽取基础之上,为数据挖掘、链接分析、自动摘要等打下基础通过将相应的信息提供给相应的分析师,以提高信息分析的能力。,2.3ACE,项目为期5年ACE Phase-1(1999.7-2000.12)优先发展的是实体探测及追踪(EDT,Entity Detection and Tracking)。ACE Phase2(2001-现在)被称为EDT+RDC。其中RDC为Relation Detection and Characterization。ACE第二阶段希望在第一阶段实体探测的基础之上,引入了对实体关系的评测,需要能够将标识出的实体之间的关系揭示出来。,2.4 DUC,DUC,Document Understanding Conferences是在DARPA的TIDES(Translingual Information Detection,Extraction,and Summarization program)基础之上发起的一个对“文本概括”进行研究测评的项目起于2000年,已经进行了DUC 01-06,DUC 2007也在规划之中目前,系统测评会议由美国商务部技术管理部门NIST来管理。,2.5 TDT,主要内容,信息抽取(IE)的引入与概念信息抽取相关概念与研究活动信息抽取的层次和类型信息抽取系统及其应用信息抽取技术的应用前景中文信息抽取系统的开发,3.信息抽取的层次和类型,MUC根据信息抽取内容以及所抽取出的信息的集聚水平的不一样,将信息抽取分为以下的几种主要类型NE。命名实体识别(Named Entity Recognition)MET。多语种实体识别任务(Multi-lingual Entity Task)信息抽取TE。模板元素(Template Element)信息抽取CO。参照(Coreference)信息抽取TR。模板关系(Template Relation)信息抽取。ST。情节模板(Scenario Template)信息抽取。,3.1 NE,NE(Named Entity Recognition)命名实体识别最为基础的类型,此类信息抽取需要系统能够识别出实体名,并将相应的实体名进行归类。MUC测评识别并抽取出人名,组织名,日期,时间,地点,以及某种类型的数字表达式(如货币数量,百分数),并在文本中对这些信息进行标注。NE具有非常直接的实用价值,在对文本中的名称、地点、日期等进行标注之后,即提供了对这些信息进行检索的可能。对于许多语言处理系统,NE都是其中一个很重要的组件。,3.1NE,The shiny red rocket was fired on Tuesday.It is the brainchild of Dr.Big Head.Dr.Head is a staff scientist at We Build Rockets Inc.NE:entities are rocket,Tuesday,Dr.Head and We Build Rockets,3.2 MET,MET(Multi-lingual Entity Task)多语种实体识别任务信息抽取MET除了能够对英文命名实体进行识别之外,还需要能够对多语种的命名实体进行识别,例如可以对中文、日文或西班牙文进行命名实体识别。,3.3 TE,TE模板元素(Template Element)信息抽取TE信息抽取将特定的描述信息与实体联系起来。它需要从文本的任何地方将与组织、人物或其它实体相关的基本信息抽取出来,并将这些信息作为实体的属性进行聚集,形成实体对象,3.3 TE,在MUC评测中,TE系统需要能够从文本中抽取特定类型的实体信息,并将这些信息填写到预先定义的小型的属性模板之中。例如对人物实体的模板元素抽取,需要信息抽取系统能够抽取出预先定义的人物的名称、职务、国籍等属性。,3.3 TE,The shiny red rocket was fired on Tuesday.It is the brainchild of Dr.Big Head.Dr.Head is a staff scientist at We Build Rockets Inc.NE:entities are rocket,Tuesday,Dr.Head and We Build Rockets TE:the rocket is shiny red and“Dr.Heads brainchild”.,3.4 CO,CO 参照(Co-reference)信息抽取CO涉及在进行NE或TE任务时,从文本中标识出对同一实体的不同表达方式。例如连接某同一实体的不同称谓。Tony Blair,The premier minister将某一名词和其相应的代名词进行连接。,3.4 CO,在MUC中,CO之所以得到重视,是因为它能够为创建TE和ST(见下文)打下基础。CO可以将散布在文本中不同地方的同一实体的描述信息连接起来。分析实体在文本中不同地方出现的情况实体在不同场合与其它实体之间的关系有助于情节信息的抽取。,3.4 CO,The shiny red rocket was fired on Tuesday.It is the brainchild of Dr.Big Head.Dr.Head is a staff scientist at We Build Rockets Inc.NE:entities are rocket,Tuesday,Dr.Head and We Build Rockets TE:the rocket is shiny red and Heads brainchild.CO:it refers to the rocket;Dr.Head and Dr.Big Head“are the same,3.5 TR,TR模板关系(Template Relation)TR需要在TE的基础之上标识出模板元素之间的关系。TR是MUC-7定义的一项新任务,需要抽取模板元素之间的相互关系。例如:职员和组织之间的关系(employee_of)产品和生产企业之间的关系(product_of)以及公司和地区之间的关系(location_of)etc,3.5 TR,The shiny red rocket was fired on Tuesday.It is the brainchild of Dr.Big Head.Dr.Head is a staff scientist at We Build Rockets Inc.NE:entities are rocket,Tuesday,Dr.Head and We Build Rockets CO:it refers to the rocket;Dr.Head and Dr.Big Head“are the same TE:the rocket is shiny red and Heads brainchild.TR:Dr.Head works for We Build Rockets Inc.,3.6 ST,ST 情节模板(Scenario Template)ST抽取某一事件中的事件信息并将事件信息与某个组织、人物或其它实体相关联。ST需要标识出特定事件及事件的相关属性,包括将事件中的各个实体填充到事件的相应角色中,通过各个对象之间的关系,能够还原出整个事件的“原型”。,3.6 ST,The shiny red rocket was fired on Tuesday.It is the brainchild of Dr.Big Head.Dr.Head is a staff scientist at We Build Rockets Inc.NE:entities are rocket,Tuesday,Dr.Head and We Build Rockets CO:it refers to the rocket;Dr.Head and Dr.Big Head“are the same TE:the rocket is shiny red and Heads brainchild.TR:Dr.Head works for We Build Rockets Inc.ST:a rocket launching event occurred with the various participants.,主要内容,什么是信息抽取(IE)信息抽取相关研究活动信息抽取的层次和类型信息抽取系统及其应用信息抽取技术的应用前景中文信息抽取系统的开发,4 信息抽取系统及其应用,4.1GATE4.2。4.3。4.4。4.5。,4.1 GATE,GATE(General Architecture for Text Engineering)1995开始,University of Sheffield纯Java语言开发的免费开源软件 编码方式是Unicode GATE支持的文档类型包括XML、RTF、Email、HTML、SGML以及纯文本文件,4.1 GATE,Gate项目组认为,典型的信息抽取系统的应当包括三大过程预处理过程命名实体探测过程事件探测过程。,预处理过程,其中预处理过程并不实现信息抽取,但它是信息抽取的前提。文本格式的检查(Format Detection)特征标记(Tokenisation)分词(Word Segmentation)句法分割(Sentence Splitting)语法标记(POS tagging)通过这些预处理,可以将文本分解成为有一定语言意义的语言片段,并对这些语言片段进行标记,使文本能够被转换成为更易于被信息抽取系统处理的模式,命名实体探测,命名实体探测过程实现对命名实体的探测,并通过参照实现实体之间的联系。在这一过程中,通常需要借助辞典来实现人物、组织、地点、时间等命名实体的探测,辞典中也可能会包括一些相应的指示词(如Ltd.提示公司名称)用以指示相应的实体内容。一些系统还具有语义标记的功能。如ANNIE系统,通过JAPE(Java Annotations Pattern Engine)书写的规则,能够对实体进行更深入的语义标注。,事件探测,事件探测过程是在命名实体探测过程基础之上实施的一个过程,它抽取某一事件中的事件信息并将事件信息与某个组织、人物或其它实体相关联,构造出事件的概貌。,4.1 GATE,GATE的作用:1)为语言处理软件规定了一个架构,提供了有组织的结构。2)提出了一个框架以及可以应用的类库,实现这个架构并且可以将其嵌入到各种不同的语言处理应用程序中。3)提供了语言工程的开发环境。这个开发环境构建在整体框架之上,并且提供了方便的开发组件的图形化工具。,4.1 GATE,GATE的应用领域:知识管理和语义网络、数字图书馆和文化遗产、E-science、生物信息学、人类语言技术、数字图书馆中的文档标注和处理、数字图书馆中的多媒体、E-science与网格、语义网络与知识技术、人类语言技术,4 信息抽取系统及其应用,除了GATE之外,还有很多IE系统和IE项目KIMArtEquAKTAmilcareArmadilloBioRATANP(Arizona Noun Phraser)DELOS WP5:Knowledge Extraction and Semantic InteroperabilityTAKE:Toolkit for Agent-based Knowledge ExtractionSKIF:A Distributed Knowledge Extraction Framework Based on Semantic Web Services BioMeKe:BioMedical Knowledge Extraction project,主要内容,什么是信息抽取(IE)信息抽取相关研究活动信息抽取的层次和类型信息抽取系统及其应用中文信息抽取系统的现状,5.中文信息抽取系统的现状,英文信息抽取相对成熟GATE对中文信息抽取的支撑不足在GATE的基础之上,中科院开发出了一个支持中文信息抽取的系统,初步解决了中文信息抽取问题。,5.中文信息抽取系统的现状,初步解决中文信息抽取,5.中文信息抽取系统现状,三个中文信息抽取的主要问题Chinese tokenizing Chinese gazetteersChinese named entity recognition,相应的处理方案,中文信息抽取,Chi Tokenizing,Chi IE,Chi Gazetteer,应用实验,应用实例,Chi Rules,中文预处理,中文分词与词性标注利用了ICTCLAS的研究(C+)成果词性标注算法:HMM(马尔可夫隐码模型)分词算法:图的N阶最短路径问题算法源码结构:Utility 共用函数模块 Unknown未登录词识别模块 Tag HMM标注模块 Segment词语切分模块 Result结果生成模块 Data概率数据文件 res Windows界面的资源,3.3 语料的收集、加工,语料的收集:训练语料与词表中文语料收集(人民日报标注语料库、哈工大信息检索研究室语料等)共125M,中文语料收集,3.3 语料的收集、加工,词表共95张英文词表,74张中文词表(世界城市、公司名称、国家形容词形式、人名等)制作30万词的中图法词表一张(txt与SQL),3.3 语料的收集、加工,共95张英文词表,3.3 语料的收集、加工,此外有约30万词的中图法分类词表、约37万词的中英对照词表共74张中文词表,命名实体识别,GATE系统是基于规则的信息抽取系统,通过JAPE语言的定义。需要针对中文重新写JAPE规则,英文JAPE规则,中文JAPE规则,最后的效果,搜索引擎中文档聚类研究方法,组长:于铁响组员:侯朝辉 姚军 李汉波 杨涛 王洋,。搜索引擎。聚类分析。聚类分析在搜索引擎上的 应用,搜索引擎简介,分类:根据采用的技术:1.目录式搜索引擎yahoo 2.全文搜索引擎 3.元数据搜索引擎,根据搜索引擎覆盖的领域:,1.通用型搜索引擎google baidu yahoo 特点:覆盖面大2.垂直型搜索引擎搜索火车票、机票信息的引擎 特点:有明显的用户需要、针对性强,搜索引擎结构体系,自动问答结构图,交互式问答系统结构图,

    注意事项

    本文(信息抽取技术.ppt)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开