数据库检索方式.ppt
《数据库检索方式.ppt》由会员分享,可在线阅读,更多相关《数据库检索方式.ppt(45页珍藏版)》请在课桌文档上搜索。
1、第四章,计算机信息检索的基本技术与方法,一、计算机信息检索的基本技术:布尔逻辑、截词检索、加权检索,位置算符等。在进行计算机检索时,有时有一些比较复杂的课题,如:“GPS在建筑中的应用”,既涉及GPS,又涉及建筑,还有“应用”,这时候就要编制出满足要求的计算机检索式,它是机检的基础。1布尔逻辑检索(Boolean Logic Retrieval)逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符(Boolean Logic Operators),即与、或、非三种运算符号,用它们可以表示概念之间的逻辑关系。,2 位置算符(Proximity Operators)位置算符是表示检索词之间
2、位置关系的一种运算符。由于英文对一句话有多种表达方法,写法可能不同。如:“GPS在铁路桥研究中的应用”这个课题,用英文表达可能是“Using of GPS in Railway Bridge”,也可能是“Using of GPS in Bridge of Railway”,因而可能编制出这样的检索式,GPS AND(Railway(2N)Bridge)我们可以通过位置检索提高检索的准确率,(1)(W)算符与(nW)算符 W 是word与 with的缩写。特点:W词序不变,中间不可插词,但两词间可有一个标点,连字符或空格。nW词序不变,中间可插入N 个词。如:potential(w)energy
3、可能检出potential energy and function 又如:gone(2w)wind 可能检出gone with the wind(2)(N)与(nN)算符 N是near的缩写 特点:N词序不限,中间不可插词,但两词间可有一个标点,连字符或空格。nN词序不限,中间可插入N 个词。如:econom?(2N)recovery可能检出economic recovery,recovery of the economy,(3)同字段检索A(F)B,F是field的缩写。特点:A、B两词必须出现在同一字段中,词序与词量不限。如:environment(F)impact/DE,表示两个词必须同
4、时出现在叙词字段内。(4)同句检索A(S)B,S是sentence的缩写。特点:A、B出现在同一自然句中(子字段),其词序与词量不受限制。如:electric(S)plant可检出electric power plants如:EI中的NEAR;PQDD中的W/n(两词间距小于n个单词,且前后位置任意),Pre/n(两词间距小于n个单词,且前后位置一定),3截词算符(Truncating operators)原因:在英语词汇中,一个词可能有多种形态,如词的单、复数形式的不同,英美拼写方法不同、词性不同等。如果检索时将这类词全部输入进去,会增加检索时间和费用,采用截词法可解决这一问题。所谓截词检索
5、,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中计算机会将所有含有相同部分标识的记录全部检索出来。常用“?”、“*”符号表示。(1)有限截词。即在检索词后后截几个有限的字母,如名词的单复数,动词的词尾变化等。如输入computer?表示有0-1个字母变化,可检出computer和computers.输入stud?表示截断处有0-3个字母变化,可检出study,studies,studied,studing.,(2)无限截断:在检索词后加一个“?“,表示该词后可加任意个字符。使用无限截词,所截词根不能太短,否则会输出许多无关文献,造成误检。如:computer?可检出com
6、puters,computering,computered,computerization.(3)中间截断:在检索词中间加一个或几个?号,主要解决一些英美拼写不同,单复数形式的不同的词的输入,可简化输入。如:输入wom?n可检出woman,women,各种算符在数据库中的实际应用位置算符,1)EI NEAR Bridge NEAR Piling*表示这两个词要彼此接近,前后顺序不限。W/n Pig*W/2pine*表示两个词的距离不能超过n个单词Adj Channel adj tunnel表示含有这两个词,两个词相邻,位置一定2)ISI Proceedings 用同句算符(SAME):如Cha
7、nnel same tunnel,表示channel 和tunnel 出现在同一句子中才符合检索条件。,3)CSA:,within X“表示两词之间不得多于x个词,前后位置任意 如“women within 8 movement”(顺序不定)4)Elsevier:ADJ表示两词相邻,前后顺序固定,与词检索的结果相同;NEAR或NEAR(N),表示两词相邻,中间可插入少于或等于n个单词,前后顺序可以发生变化,如果不使用(N),系统默认值为10,5)PQDD W/n(两词间距小于n个单词,且前后位置任意),Pre/n(两词间距小于n个单词,且前后位置一定)6)ProQuest W/n(表示连接两个
8、词之间可以插入n个词,前后位置可颠倒)如:Education w/5 intenet 表示education和internet之间可以插入5个词,并且前后位置可以颠倒。Pre/n(表示前后两词之间最多插入n个词,前后位置一定)如:U.S pre/n economic policy可检出U.S aideconomic policy,or U.S wartime economic policy。,截词符或通配符,如:CSAISI ProceedingsProQuestCA用通配符“?”和截词符“*”输入“patent*”,可以检索到 patent、patents、patented等,(无限截断)输
9、入wom?n,可以检索到woman和women。输入“fib?”,可检索到fiber和 fibre。(有限截断)而EI用“*”和“$”(词根算符)如:Optic*检索结果中包括以optic 开头后面加任意多个字母的词例如optic,optics,optical 等$manager(强调语义)检索出与该词根具有同样语意的词如$manage 将检出managers,managerial 和management 等词 通配符不能用在检索词的最前面,4括号检索(Parentheses)用于改变运算的先后次序,括号内的内容做优先运算。用“()”可以表示优先级。如比较(GPSORGIS)ANDChina
10、GPSORGIS ANDChinaEI 中的表示方法:Relevance AND(Aalbersberg within AU)OR(cool within AU),5、字段限制检索 组成数据库的最小单位是记录,一条完整记录中的每一个著录事项为字段。献书目型数据库的记录基本包括下列字段:(1)存取号字段(AN,Access Number)这是计算机检索系统为每个数据库的每篇记录规定的能被计算机识别的特定号码。在同一数据库中,每篇文献记录只有一个存取号;(2)篇(题)名字段(Title Field,/TI)(3)文摘字段(Abstract Field,/AB),(4)叙词字段或受控词字段(Dest
11、riptor Field,/DE;或 Controlled term Field-SU)这一字段是标引人员给文献标引的反映其主题概念的词,这些词来自规范化的词表。也称主题词。(5)自由词字段或非受控词字段(Identified Field,/ID;Keyword Field,/KY;Uncontrolled term Field)这一字段也是标引人员给文献标引反映其主题概念的词,但这些词不是规范化词表中的词。,(6)著者机构子段(corporate source,CS或AF)(7)刊名字段(journal,JN或ST)(8)出版年子段(publication,year,PY)(9)文献类型子段
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据库 检索 方式

链接地址:https://www.desk33.com/p-250692.html