第1章信息检索基础知识.ppt
第1章 信息检索基础知识,主要内容,1.1 信息素养概述1.2 信息与信息源1.3 信息检索语言及技术1.4 信息检索原理及步骤,1.1 信息素养概述,1.1.1 历史发展,信息检索课是一门重要的方法和技能课,时代性强,特点突出。,1.1.2 信息检索的意义和目的信息检索是一切科研的前提和前奏,它贯穿于课题研究的始终。(查新-跟踪)继承和借鉴前人的研究成果,避免重复研究或少走弯路。对前人的研究进行发展和创新。研究思路和方法的学习与借鉴,有利于边缘学科的研究。,获取信息的能力对21世纪的大学生来讲,和外语交际能力、计算机应用能力一样成为衡量其基本素质的重要因素。对于一名科研人员来讲,如何从浩瀚的信息中找到自己所需的信息,尤其是网络时代,如何利用计算机对网上资源进行检索及利用,已经成为现代科研人员不可或缺的一种技能。,1.1.3 信息素养 Information iteracy,美国图书馆协会(ALA)1989年提出定义:信息素养是人们能够充分认识到何时需要信息,并有能力去获取、评价和有效利用所需要的信息的能力。信息素养是一种基本能力,是一种对信息社会的适应能力。,1.1.4 高校信息素养能力的评估标准,美国 ACRL(Association of College&Research Libraries)大学和研究图书馆协会标准 英国 SCONUL(Society of College,National and University Libraries)国家和大学图书馆协会标准 澳大利亚大学图书馆员协会 CAUL(Council of Australian University Librarian)的标准,美国 ACRL(Association of College&Research Libraries)大学和研究图书馆协会,高等教育中的信息素养能力评估标准(Information Literacy Competency Standards for Higher Education)2000年1月提出,包含:5项标准、22项具体的评价指标、86个可测定的细目,确定所需信息的种类和范围的能力;有效地获取所需信息的能力;批评地评估信息资源,将选择的信息融合入自己的知识基础和价值系统;有效地使用信息实现特定的目标;了解信息使用所涉及的经济、法律和社会问题,合理、合法地获取和使用信息。,1.2 信息与信息源,信息是物质存在的一种方式、形态或运动状态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消息中所描述事件的不定性减少。,1.2.1 信息的基本概念,1.2.1.1情报与文献工作词汇基本术语的定义:,1.2.1.2 信息的特点:,普遍性:信息是普遍存在的 载体的依附性:信息要依附一定的载体 时效性:反映的是特定时刻事物的运动状态和方式 传递性 共享性:在传递共享过程中无损失 可转换性:信息的物质载体形态可以相互转移变换 可伪性:人们主观想象、孤立认识理解 认识能力有限、动机不纯,时间传递,空间传递,1.2.1.3 信息的分类:,按照信息内容的性质划分:,自然信息生物信息机器信息社会信息,指自然界随时发生的现象,生物为繁衍、生存而表现出来的各种形态和行为,系统中用于传输、控制、以及交换的信息,人与人交流的一切信息。包括科技信息、经济信息、政治信息、军事 信息、文化信息,按照信息的加工程度分:,一次信息:指处在原始形式中的信息。包括阅读性图书、期刊性论文、科技报告、会议论文、专利说明书、学位论文二次信息:指通过对一次信息的加工、提炼、和浓缩而形成的、报道和查找一次文献的检索书刊。包括条目、索引、目录、题录、文摘三次信息:指对一次信息和二次信息进行汇集、综合、分析、评述等深度加工而形成的产物。包括词典、百科全书、年鉴、名录,教材属于?,按照信息载体的物理类型划分,印刷型:通过铅印、油印和胶印、复印、手写等为记录手段形成的,将知识附着在纸张上的一类文献。缩微型:以印刷型文献为母本,以感光材料为载体,利用光学技术将文字、图形、影象等信息符号按比例缩小的文献形式。声像、视听型:通过特定设备,使用声、光、磁、电等技术将信息表现为声音、图象、影视和动画等形式,给人以直观、形象的感受。电子型:通过计算机对电子格式的信息进行存储和处理。,1.2.2 信息源,信息源即信息的来源,是产生、载有和传递信息的一切物体、人员和机构。,信息源的分类:,文献信息源 电子信息源 实物信息源 口头信息源,1.2.2.1 文献信息源,理解文献的四要素:文献信息:属于信息,具有信息的一切性质和功能 符号系统:指图画、文字、公式、图表、编码,声像 和电磁信息等 记录方式:指将表达信息的符号系统通过特定的人工记录方式使其附着于一定的文献载体上 文献载体:不断演变,如纸质、音像、磁盘、电子。,1.图书(Book)2.期刊(Periodicals)3.专利文献(Patent Documents)4.标准文献(Standard Literature)5.会议文献(Conference literature),主要的文献信息源:,6.“灰色文献”(Gray literature)7.技术档案(Technical Records)8.科技报告(Scientific and Technical Report)9.政府出版物(Government Publication)10.学位论文(Dissertation),1.2.2.2 电子文献信息源,电子文献信息源是在电子媒介中产生,通过电子媒介得到的文献信息资源,它借助先进的通讯技术、计算机技术、多媒体技术,把信息资源收集、整理并加工成为电子化、数字化的一种新型文献信息载体。,目前的电子文献信息源大致分为:1.电子出版物:以磁、光、电材料作为信息的存储介质 2.网络信息源:通过网络传播的信息,包括公共信息、商务数据库等,1.2.2.3 实物及口头信息源,实物信息源 实物,包括自然实物和人工实物(人类文化的创造物如文物、产品等),内含着大量科技文化信息,口头信息 口头信息指通过交谈、讨论、报告等方式交流传播的信息。,1.3 信息检索语言及技术,信息检索语言,定义:是信息汇集、存储和检索时共同使用的一种约定性语言,是一种人为创造的人工语言,用来保证信息存储和检索的一致性,提高检索效率。,类型:分类语言 主题语言 代码语言 引文法,1.3.1 分类语言与分类表,以科学分类为依据,加上一些必要的规定来区分世界上所有的事物。分类能够将事物区分开来,揭示事物之间的本质的、内在的联系。,常用的分类法,中国图书馆分类法(中图法)中国科学院图书馆图书分类法(科图法)美国国会图书馆图书分类法(LCC)杜威十进制分类法(DDC)国际十进分类法(UDC),1.3.2 主题法和主题检索语言,标题词型主题检索语言 叙词型主题检索语言 关键词型主题语言,主题法系统构成,主题语言能够用于描述、存贮、检索信息主题而作为建立检索工具或检索系统的一种规范化的词汇,它能够与所要表达的事物概念达到一一对应。主题语言是直接用代表信息主题概念的主题词作为信息的标识的一种检索语言。,1.3.3 代码语言,根据事物的某些方面的特征,用某种代码系统来表达和排列事物概念,从而提供检索的检索语言。,1.3.4 引文索引语言,指以某一引文为检索词,标引和检索所有引用过该引文所代表的文献的一切文献的索引词的全体。,1.3.5 计算机检索技术,1.3.5.1 布尔检索 用布尔逻辑算符来表达检索词间的逻辑组配关系 与 或 非“与”逐步减少检出文献的数量,提高检出文献与检索要求的相关性,提高查准率。(A and B)(A*B)“或”扩大检索的范围,提高文献的检出数量,防止漏检,提高查全率。(A or B)(A+B)“非”使用较少,减少文献输出量,提高检索 词的准确性。(A not B)(A-B),布尔检索式的优先执行顺序,布尔检索式优先执行顺序通常是NOT、AND、OR。在有括号的情况下,先执行括号内的逻辑运算,在多层括号时,先执行最内层括号中的运算。查南京铁道职业技术学院(A)硕士生陈雷(B)的关于地铁安全性(c)的文章但不包含人为事故(D),1.3.5.2 位置算符:,位置检索也叫全文检索、邻近检索。所谓全文检索就是利用记录中的自然语言进行检索,词和词之间的逻辑关系用位置算符组配,对检索词之间的位置进行限制。如:美国DIALOG检索系统算符用法意义:(W)-With(nW)-nWords(N)-Near(nN)-nNear(S)-Subfield(F)-Field,1.3.5.3 截词检索,概念:又称词干检索、模糊检索。词干加截词符号,凡是有与该词干相同的文献均能被检出。很好解决中西文单词的派生形式,避免漏检现象的出现。检索系统不同,截词符也不同,常用有:*?#类型:右截断(前方一致)、左截断(后方一致)、左右同时截断(中间一致)作用:减少检索词的输入量、简化检索步骤、扩大检索范围、提高检全率。,前方一致:将截词符放在词根后面,词根*,右截断。是最常用的截词方式。Smith,A*=Smith,A.OR Smith,A.J.OR Smith,Alan J.Social*=social,socialist,socialistic,socialityComputer*=computer,computers,后方一致:即将检索词的词头部分截断,*词根,左截断,是较常用的截词方式。如:*computer=minicomputer,microcomputer中间一致:将字根左右词头、词尾部分同时截断,*词根*如:*computer*=minicomputer,microcomputer,computers,mincomputers,1.4 信息检索原理及步骤,1.4.1 信息检索的原理,1.4.2 检索步骤,信息检索的基本步骤,检索课题分析 检索课题的分析,即主题分析,以明确课题所包含的概念成份及其相互关系。这是检索策略制定的根本出发点,也是检索效率高低或成败的关键。要明确以下问题:1、分析课题的主要内容其所涉及的学科范围;2、所需文献的类型、语种、年代及文献量的范围;3、对查新、查准、查全的指标要求,及其侧重。,1.4.2.1 检索课题的分析,1.4.2.2 检索工具的选择,检索工具书:检索工具成千上万,工具书的类型,可按用途分为两大类13种小类:1.指示线索型检索工具(二次文献):(1)书目、馆藏目录(包括联合目录、各种档案基本目录);(2)索引:包括报刊、文集、代号、人名、机构、地名索引;(3)文摘;工具书指南;2.提供具体信息的工具书(三次文献):(1)词典;(2)百科全书;(3)传记资料;(4)手册;(5)机构名录;(6)地理资料;(7)统计资料;(8)年鉴;(9)政府文献;(10)引语工具书;(11)表册和图谱;(12)类书和政书。确定了工具书类型之后,还要根据编撰目的、材料收录范围和编排方法在同类型工具书中选择有希望获得所需信息的具体的工具书。任何检索工具都是根据特定的目的和读者群编制的。,分析检索课题的具体实例:例:我校一老师就课题“保土、治水、移民”查找文献,应如何确定具体的检索点?1、拆分大主题为小主题。经过与用户的交流,我们将课题拆分为如下几个检索点:1、近代以来我国森林覆盖率、区域覆盖变化情况及其原因;2、我国历代移民概况;3、建国以来中央领导人关于我国移民问题的讲话;4、黄河、长江水是何时由清变混的?2、明确课题要求的各种限制条件检索文献:期刊、学位论文、报纸、图书时限要求:一般来说,社会科学、基础科学、高层次的科学研究都要检索20年左右的相关信息,自然科学一般要求检索10年左右;就用科学,一般层次的研究一般提供5年的相关信息就能满足要求。3、查询的指标要求:查全,1.4.2.5 显示及判断检索结果,又称检全率、命中率,是指通过检索系统检出与某一检索提问相关的文献数与检索系统中与该提问相关的实有文献数之比。,查全率,查全率=输出的与检索课题相关的文献量*100%系统中与课题相关的文献量,又称检准率、相关率,指通过检索系统检出的与某一检索提问相关的文献数与检出文献总数之比。,查准率,查准率=输出的与检索课题相关的文献量*100%检索出的文献量,漏检率=100%-查全率误检率=100%-查准率,漏检率和误检率,获取原文的途径,(1)本单位图书情报部门。这是获取原文最方便的途径。应首先立足于本馆(或本情报所),其次才是附近的图书馆或情报中心。有人在着手解决这一问题时,一开始就把眼光转向外地的大图书馆,千里迢迢,不辞辛苦,以后却发现本馆藏有同样可以解决问题的文献资料。这类教训不少,原因之一是不善于利用目录。如果读者目录有缺省,应利用公务目录、典藏目录或各院系分馆的目录这类保存较好的、能完整反映馆藏的图书期刊目录。(2)掌握国内主要的或对口的图书情报机构的馆藏信息。利用联合目录或网络,由近及远地查找,或通过函索,委托出差人员代索,以及馆际协作获取原文。,1.4.2.6 获取原始文献,(3)从著者获取原文。给国外的论文著者写信索取复制件已是国际上通行的学术交流方式。据统计,全世界每年向著者索取抽印本达数百万件。索取抽印本要在论文发表后较短时间内进行。函索时,附上一些有价值的文献作为个人赠送或单位赠送也不失为一种礼貌而有效的方法。美国有一些情报机构开展这方面的服务,如研究图书馆中心(CRL)、国家技术情报服务中心(NTIS)、美国专利商标局(PTO)等,亦可以从学术团体指南这一类工具书中获得更详尽的情况。(4)从检索刊物出版机构获取原文。国外一些著名检索机构如美国化学文摘社(CAS)、情报科学研究所(ISI)等都可向用户提供原文。ISI设有原迹论文服务,可使用户看到彩色版图、照片及复杂的图象资料。有些非营利性出版物是商业书目所不收录的,要获取这些文献可以通过学术机构或信息服务名录获得有关信息,然后通过函索方式获取出版物。,(5)利用国际联机检索终端向国外订购原文。如果读者急需原文,而一般订购渠道又很慢,则可以采用这个途径。订购时需填写“联机订购原文申请单”,注明文档名称及代号、原文题目、著者、出处等等。这是一种较快的订购办法,一般半个月左右,但费用昂贵。,