信息检索技术.ppt
《信息检索技术.ppt》由会员分享,可在线阅读,更多相关《信息检索技术.ppt(59页珍藏版)》请在课桌文档上搜索。
1、信息检索技术,信息检索技术,一、信息检索技术综述二、信息检索的统计模型三、信息检索中的自然语言处理方法,一、信息检索技术综述,1、信息检索系统的定义与术语2、信息检索系统3、信息检索系统的评价4、信息检索简史,一、信息检索技术综述,1、信息检索系统的定义与术语 信息检索,最早是1952年由Calvin N.Mooers提出的,其原义包括海量信息的存储和查找两个方面的内容。信息检索按照信息源的不同分为3类(互联网、光盘数据库、网络数据库)信息检索定义 是指从非结构化的数据记录,特别是包含自由格式的自然语言文本的数据记录中获取与用户的信息需求相关的数据记录的系统、方法与过程。“非结构化”主要是与数
2、据库检索相区分。,一、信息检索技术综述,2、信息检索系统 一个信息检索系统是一个能够对数据全集的数据记录进行存储、组织与维护,并根据用户查询获取相关信息的系统。如下图所示:,一、信息检索技术综述,2、信息检索系统 信息检索系统由8个就基本处理模块和两大系统资源组成。基本处理模块是:用户接口模块、用户查询文本操作模块、文档文本操作模块、用户查询处理模块、索引构建模块、数据库管理模块、搜索模块、相关度排序模块等。两大系统资源是:语义词典和以数据库形式存放的数据全集,一、信息检索技术综述,2、信息检索系统 用户接口模块:是与用户交互信息,主要包括接受用户查询请求,根据用户对信息检索结果的反馈调整信息
3、检索系统的有关参数,显示用户查询的结果等。,一、信息检索技术综述,2、信息检索系统 用户查询文本操作模块:对用户的查询字串进行过滤停用词、词干抽取等处理,并转换为机器内部的用户查询表示形式。,一、信息检索技术综述,2、信息检索系统 文档文本操作模块:对文档数据库中的文档进行停用词过滤、词干抽取等处理,并将文档转换为机器内部的表示形式,供建立索引模块处理。,一、信息检索技术综述,2、信息检索系统 用户查询处理模块:是对用户查询的词汇进行同义词扩充,或者根据用户对信息检索的倾向性对查询的词汇进行转换处理。索引构建模块:是建立从词汇到该词汇出现的文档的倒排索引表,从而对用户查询中的词汇进行快速定位。
4、,插入内容:倒排索引,什么是倒排索引呢?请看下面的例子:假设文章1的内容是:aaa bbb ccc ddd文章2的内容是:bbb ddd yyy上面的对应关系是:“文章号”对“文章中所有关键词”。倒排索引把这个关系倒过来,变成:“关键词”对“拥有该关键词的所有文章号”。文章1,2经过倒排后变成:,插入内容:倒排索引,aaa 1bbb 1,2ccc 1ddd 1,2yyy 2当建好了上面所示的倒排索引后,一旦我们要查找哪些文章中含有某个关键字时,只需取出该关键词所对应的文章号就行了。比如我们查找aaa,返回1.查找ddd,返回1,2,一、信息检索技术综述,2、信息检索系统 数据库管理模块:将文档
5、以数据库的格式存储、管理和访问,搜索模块:根据用户查询,借助倒排序索引表和数据库管理模块从数据库中抽取出包含用户查询关键字的文档,相关度排序模块:逐一计算用户查询与搜索模块返回文档的相关度,最后将这些文档按照相关度由大到小排序。,一、信息检索技术综述,3、信息检索系统的评价 一个系统在实际应用中的时间和空间消耗是衡量一个系统优劣的重要指标。评价信息检索系统的一个核心因素即:相关性两个最常用的相关性指标是:精确度和召回率,一、信息检索技术综述,3、信息检索系统的评价精确度:是检索获取的相关数据记录个数与检索获得的所有数据记录个数的比值。它反映了系统能够返回与用户查询相关数据记录的能力。召回率:是
6、检索获取的与用户查询相关的数据记录个数与数据全集中所有与用户查询相关的数据记录个数的比值。反映了系统能够找到全部相关数据记录的能力。,一、信息检索技术综述,3、信息检索系统的评价精确度:Precision=召回率:Recall=A为信息检索系统获取的数据记录的集合,R为数据全集中所有与用户查询相关的数据记录的集合,一、信息检索技术综述,3、信息检索系统的评价Van Rijsbergen于1979年提出了E度量,将精确度和召回率结合起来,并赋予不同的权值:其中P为精确度,R为召回率,在0-1之间。,一、信息检索技术综述,4、信息检索简史1950年美Calvin N.Mooers首创“信息检索”1
7、958年美Luhn提出统计检索基本理论方法1960年Marson和Kuhns提出信息检索概率模型1965年美康奈尔大学Gerard Salton及其学生提出信息检索向量空间模型,并设计实现了SMART系统1966年在Cranfield项目中提出系统评价方法。,一、信息检索技术综述,4、信息检索简史1968年美Rocchio和Salton提出查询扩展方法1972年Lockheed公司推出DIALOG系统1980年代:模糊集、模糊推理、线性回归技术、通用向量空间模型1990年代:潜在语义索引技术、贝叶斯网络、神经网络技术基于互联网的大型搜索引擎信息检索技术向深度和广度发展,二、信息检索的统计模型,
8、信息检索领域的技术和方法可以划分为两大类:基于统计的方法和基于语义的方法。基于统计的方法主要是根据用户查询与数据全集中数据的统计量度计算相关性基于语义的方法对用户查询内容和数据全集中的内容进行语法语义分析。即对用户查询和数据全集内容理解的基础上进行两者的相关性计算。,二、信息检索的统计模型,概念:对实际信息检索过程加以抽象构成的数学模型。一个信息检索模型IRM=(D,Q,R)其中D是文档集合,Q是用户需求的集合,R:是集合D和Q的笛卡儿积到实数集R的一个映射,对每个用户查询q,每个文档d,映射R将(d,q)映射为一个实数,称为用户查询q与文档d的相关度。,笛卡儿积简单说明,笛卡儿积是集合论中很
9、重要的概念 举例:1,2,3 a,b,c,d=(1,a),(1,b),(1,c),(1,d),(2,a),(2,b),(2,c),(2,d),(3,a),(3,b),(3,c),(3,d)。,二、信息检索的统计模型,1、基于统计的信息检索模型2、布尔模型3、向量空间模型4、概率模型,二、信息检索的统计模型,1、基于统计的信息检索模型在统计模型中,文档被表示成关键词的集合,又称为文档的平面结构,关键词又称为索引词,p138文本表示示例词汇的权重表示该词汇的重要性。文档dj表示为一个N维向量,表示为 Dj=(w1,j,w2,j,wN,j),二、信息检索的统计模型,1、基于统计的信息检索模型在统计模
10、型假设文档中词汇彼此独立假设词汇在文档中没有二义性西文需要词干抽取中文需要分词,二、信息检索的统计模型,2、布尔模型文档中索引词只有0和1 两种取值,分别表示文档中包含该索引词和不包含该索引词。用户查询是由标准逻辑操作符AND,OR,NOT连接构成布尔表达式。例如:设关键词为k1,k2,k3,k4,k5,数据全集为:D1,D2,D3,D4,D5。,二、信息检索的统计模型,2、布尔模型其中D1=k1,k2,k3,k4,k5,D2=k1,k3,k4,D3=k2,k4,D4=k1,k3,k5,D5=k4,k5若用户查询为k1 AND(K1 OR NOT(k3)结果为:D1,D2,D4(D1,D3 D
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 技术
链接地址:https://www.desk33.com/p-246434.html