第二章信息检索原理

来源：教研室

第二章信息检索原理

第一节信息检索及系统

一信息检索

信息检索(Information Retrieval) 是指将信息（主要指文献信息）按一定的方式组织和存储起来，并根据用户的需要找出相关信息的过程。

计算机信息检索服务始于 20世纪50年代。目前已成为人们获取文献信息最重要的手段。科学研究工作过程中的课题立项论证、技术难题攻关、跟踪前沿技术、成果鉴定和专利申请的科技查新等都离不开查询大量的相关信息，计算机检索是目前最快速、最省力、最经济的信息检索方法。

二信息检索的类型

（一）按检索内容划分

1 书目检索

是以书目文献为检索内容的信息检索。提供的一般为图书、期刊等的线索。

2 数据检索

是以数据为检索内容的信息检索，要求从检索系统存储的大量原始调查数据和其它统计数据中查出所需的数字资料。

3、事实检索

是以具体事项为检索内容的信息检索，要求从检索系统存储的各种原始信息资源中查出专门的事实材料。

4、全文检索

即检索系统存储的是整篇文章或整本图书。

5、图像检索

即以图形、图像或图文信息为检索内容的信息检索。

6、多媒体检索

是以文字、图像、声音等多媒体信息为检索内容的信息检索。

（二）按信息检索手段划分

1、传统信息检索

就是手工信息检索，是利用各种印刷型检索工具来查找文献的一种方法。

2、现代信息检索

现代信息检索即计算机信息检索，是指利用计算机和网络来处理和查找文献信息的检索方式。

三检索系统

系统构成：计算机、通信网络、检索终端、数据库组成。

1.计算机

计算机是检索系统的核心部分，它包括硬件和软件。通过一定的检索软件，它们能够进行信息的存储、处理、检索以及整个系统的运行和管理，相对地说，硬件部分决定了系统的检索速度和存储容量，而软件部分则是充分发挥硬件的功能，确定检索方法。

2.通信网络

通信网络是联系计算机系统和检索终端设备的桥梁，起着远距离、高速度、无差错传递信息的作用。整个通信网络分成资源子网和通信子网两部分，资源子网包含网络中所有的计算机、输入输出设备、各种软件资源和数据资源，负责全网的数据处理业务，向网络用户提供各种网络资源和网络服务；通信子网是由用作信息交换的结点计算机和通信线路组成的独立数据通信系统，承担全网数据传输、转接、加工和交换等通信处理工作。检索网络所用的通信线路，一般是公用电话线或专用线，国际联机检索系统则是由通信卫星和海底电缆构成的通信网络。

3.检索终端设备

检索终端设备是用户与检索系统相互传递信息，进行“人—机对话”的装置。有电传终端、数传终端和 PC 机终端等。现在基本上都是 PC 机终端，通常由计算机、调制解调器和打印机组成。调制解调器的作用是将计算机的数字信号转换为能够在电话线路等设备上传递的模拟信号，通过网络传递到其他的计算机或服务器上（称之为调制）；对于接收到的模拟信号，则由它再解调为数字信号，以便计算机能够识别（称之为解调）。它相当于现实生活中翻译官的角色。

4. 数据库

数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。是检索系统的信息源，也是用户检索的对象。数据库可以随时按不同的目的提供各种组合信息，以满足检索者的需求。检索系统中的数据库一般由各个数据库生产者提供，也有一些是系统本身自建的。

四检索系统的评价

（1）检索功能：主要指系统提供给用户的各种检索途径和检索入口，可供选择的越多，相对用户就越方便。

（2）检索技术：即系统是否允许用户使用各种检索技巧，以便更准确和快速地找到自己所需的信息。

（3）检索结果：即用户是否得到了内容全面、下载和使用均比较方便的检索结果。

（4）用户服务：主要是指在检索功能之外，系统还为用户提供了哪些服务。

五检索系统的检索功能

检索功能是指检索系统在检索界面上提供给用户的基本功能。它与系统的检索技术是紧密结合的。比较通用的检索功能有浏览、索引、简单检索、复杂检索、自然然语言检索等。

（1）浏览 Browse

由系统提供一个树状结构的概念等级体系，分层次按其属性及相互从属关系对知识进行并行或树状排列，逐级展开到最小知识单元。

（2）索引 Index

索引是一个线性表单，可以将任何一个标引字段中的概念按字母顺序不分级地线性排列起来。索引的种类很多，如人名索引、出版物索引、地名索引、主题索引、机构索引、分子式索引等。

（3）简单检索 Simple Search、Basic Search、Quick Search

即为用户提供一个简单的检索界面，帮助非专业或初入门用户方便地

提交检索式。

（4）复杂检索 Advanced Search、 Guided Search 、Expert Search

为专业用户、资深用户提供比较复杂的检索界面，可以构造比较细致的检索式，帮助用户进行精确检索。

（5）自然语言检索 Natural Language Search、 Intelligent Search

直接采用自然语言中的字、词甚至整个句子作为提问式进行检索的方法。

如：

什么是厄尔尼诺现象？

大西洋和太平洋的飓风

（6）命令检索

此又称指令检索，由检索用户自行输入各种检索命令进行检索。

例如：DIALOG联机检索系统 B 34，434

说明：B为begin的缩写，此指令意即打开34，434号数据库文档。

S computer/TI

说明：S为select的缩写，此指令意即在题名检索字段中检索 “computer”一词。

（7）二次检索在检索结果内进一步检索，使结果更精炼、准确。

智能检索技术

所谓智能检索，或称智能搜索，是相对现在的关键词索引和关键词匹配技术而言，是基于人工智能的网络信息检索技术，它融合了知识组织系统、自然语言理解、认识科学、用户模型、模式识别、数据库管理系统以及信息检索等领域的知识和先进技术，对于互联网这样一个分布的信息空间，采用人工智能方法是实现人机交互学习的一种较好的方法，可以代替人类完成繁杂信息的收集、过滤、聚类以及融合等任务，可以在互联网中导引用户，不仅在用户进行搜索、浏览时给予直接的支持，而且能够提供具有独立搜索功能的智能代理的幕后支持。

第二节信息检索语言

计算机检索的基本原理是将用户的检索提问词与数据库文献记录中的标引词进行对比，当提问词与标引词匹配一致时，即为命中，检索成功。由此可见，能否准确地检索出用户所需信息，关键在于能否准确地选择检索词。这里所说的“准确”，是指用户所选的检索词必须与数据库中标引文献记录所用的标引词一致。然而实际工作中，从事信息存储的人员与从事信息检索的人员绝大多数情况下不可能进行直接的思想交流，因而会造成存储信息与检索信息所依据的规则不一致，导致存入的文献检不出。为了避免这种情况发生，在信息标引人员与信息检索人员之间必须制定一种共同遵守的规则，即一种约定的相同标识和线路，这就是检索语言。

一检索语言的含义及作用

1 检索语言的概念

检索语言（information retrieval language）,是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。所谓检索的运算匹配就是通过检索语言的匹配来实现的。检索语言是人与检索系统对话的基础。

有了这种规则，信息标引人员在进行信息存储的过程中，就会对原始信息进行分析，找出其能代表信息的特征与检索语言（检索标识系统）进行对照标引，然后纳入检索系统；而信息检索人员在进行信息检索的过程中，则先对待查课题进行分析，归纳出各种信息特征，使之形成能代表需要的检索提问，然后把这些提问与检索语言（检索标识系统）进行核对，标引成检索提问标识。

　　如果没有检索语言作为标引人员和检索人员的共同语言，就很难使得标引人员对文献信息内容的表达和检索人员对相同文献信息内容需求时的表达取得一致，信息检索也就不可能顺利实现。

2 检索语言的工作原理

（1）存储：检索系统对文献内容进行分析，概括分析出若干能代表文献内容的语词，并赋予一定的标识，如题名、作者、主题词等，作为存储与检索的依据，然后纳入到数据库中。

（2）检索：检索人员首先要对检索课题进行分析，同样形成若干能代表信息需求的语词，然后通过检索系统在数据库中匹配具有同样语词和标识的文献，找到自己所需的信息。

3 检索语言的作用

（1）保证不同标引人员表征文献信息的一致性。

（2）使内容相同及相关的文献集中化。

（3）保证检索提问与文献信息标引的一致性。

（4）保证检索者按不同需求检索文献信息时都能获得较高的查全率和查准率。

二检索语言的类型　

1 自然语言（natural language）检索用词是从信息内容本身抽取的，主要依赖于计算机自动抽词技术完成，辅以人工自由标引（非依据词表的标引方法），是非规范词（uncontrolled term）。

（1）关键词（keyword）:直接从信息资源名称、正文或文摘中抽出的代表信息主要内容的重要语词。

（2）题名：信息资源的名称，如论文篇名、图书书名、网站名称等。

（3）全文：从资源的内部内容中自动抽取、查找，是目前网上各类搜索引擎使用的最多的方法。

（4）引文（quotation）：将文献所引用的参考文献的作者、篇名、来源出版物抽取出来进行标引。

自然语言的优点:

（1）新颖性强：一旦文献中出现某个新词语，即可直接使用这一词语作为检索入口，根本无需像受控语言那样冥思苦想地将其转换成另一规范词用于检索。

（2）检索方便：它解除了人工语言的种种限制，不需要复杂的检索规则，使用者能较快适应，易用性强。

（3）标引准确度高：自然语言采用从文献中抽词标引的方式，不容易发生误标引，适用于计算机检索。只要数据库的文献标题中含有该检索词，即视为命中，健全率较高。

自然语言的缺点:

（1）词汇量太大，给词汇的存储、加工和检索带来许多操作性方面的困难。

（2）当文献的主题很明白清楚地在标题或主题词中表达出来时，检索才会较成功，反之则失效。

（3）词汇具有模糊性，另外多义、近义、同义现象较多，给标引和检索带来困难。

2 人工语言

由人工创制的，采用规范词，用来专指某个概念或与之相应的概念。可以将同义词、近义词、相关词、多义词及缩略词规范在一起，由人工控制。包括分类检索语言、主题检索语言、代码检索语言。

（1）分类检索语言

按学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系，也称分类法。

中国图书馆图书分类法

美国国会图书馆分类法

杜威十进位分类法

IPC国际专利分类表

下面以《中图法》为例说明体系分类法的结构与功能。

　　　　《中图法》是体系分类法的典型代表，是现今国内图书情报部门普遍使用的一部分类法。

　　　　《中图法》的类目表由基本大类、简表、详表和复分表组成。

　　　　基本大类是分类法中的第一级类目，是对学科领域的基本划分。《中图法》共有二十二个基本大类，每个大类都用一个英文字母表示。如下所示：

　　　　A 马克思主义、列宁主义、毛泽东思想、邓小平理论

　　　　B 哲学宗教

　　　　C 社会科学总论

　　　　D 政治法律

　　　　E 军事

　　　　F 经济

　　　　G 文化科学教育体育

　　　　H 语言文字

　　　　I 文学

　　　　J 艺术

　　　　K 历史地理

　　　　N 自然科学总论

　　　　O 数理科学化学

　　　　P 天文学地球科学

　　　　Q 生物科学

　　　　R 医药卫生

　　　　S 农业科学

　　　　T 工业技术

　　　　U 交通运输

　　　　V 航空航天

　　　　X 环境科学劳动保护科学

　　　　Z 综合性图书

　　　　简表又称为基本类目表，是分别对每个基本大类，依据它的某些属性，作进一步划分后而形成的二、三级类目表。如：

　　　　Q 生物科学

　　　　 Q1 普通生物学

　　　　 Q2 细胞学

　　　　 Q3 遗传学

　　　 Q4 生理学

　　　　 Q5 生物化学

　　　　 ┇

　　　　详表又称主表或正表，由简表进一步细分而成的最小概念性分类表。

　　　　如：

　　　　I 文学

　　　　 I0 文学理论

　　　　 I1 世界文学

　　　　I2 中国文学

　　　　 I20

　　　　 I21 作品集

　　　　 I22 诗歌、韵文

　　　　 I23 戏剧文学

　　　　 I24 小说

　　　　 I242 古代至近代作品

　　　　 I246 现代作品

　　　　 I247 当代作品

　　　　 I247.4 章回小说

　　　　 I247.5新体长篇、中篇小说

　　　　 I247.7新体短篇小说

　　　　 I247.8故事、微型小说

　　　　 I25报告文学

　　　　 I26散文

　　　　 ┇

　　　 I3/7 各国文学

　　　　复分表是供主表中某些类目共同细分而从主表中抽出的一部分类目表。

使用体系分类检索语言编制的分类表按学科或专业集中文献信息，以学科概念的上下左右关系反映事物的派生、隶属、平行的关系，较好地体现了学科的系统性，能较好地满足族性检索的要求。其次，体系分类法用字母和数字表示类目，便于组织文献排架及目录系统，又适于文献信息的收集和编制手工检索工具。但由于体系分类法使用的是号码式语言作检索标识，一方面不直观，另一方面在检索文献信息时，必须将文字主题转换成分类标识，在转换过程中，容易产生差错，造成误检或漏检，影响检索效率。此外，体系分类法采用的是先组式检索语言，因此，增补新概念困难，修改不及时，不适应新兴学科和边缘学科的检索。

（2）主题检索语言：主题检索语言是以词语作为表达主题概念的标识，按字顺编排的检索语言。

标题词语言 是最早使用的一种主题语言。它以规范化的自然语义作为标识来表达文献涉及的主题概念，表达主题的词语称为标题。

单元词语言 是从文献内容中抽选出来的最基本的词汇、将代表最一般、最基本的、不可再分割的概念的词作为单独标引文献的单位。

叙词语言 是从自然语言中优选出来并经过规范化处理的名词术语。采用表示单元概念的规范化语词的组配对文献内容主题进行描述，也是目前使用最广泛的主题语言。

主题语言举例：下例为EBSCO出版公司Business Source Premier 数据库中选定“建议主题语” (据2008年数据)

(3）代码检索语言

就事物的某一方面特征，用某种代码系统来加以标引和排列，目前主要应用于化学领域。例如。化合物的分子式索引系统、环状化合物的环系索引系统等。

3 人工语言与自然语言的关系

与自然语言相比较，人工语言的检索效率要高于自然语言，查全率和差准率都比较高，但人工语言是基于印刷性资源产生的，对标引和检索来说，标引工作量大，需要不断维护，管理成本高，用户也不易掌握。因此，在数字资源飞速发展的今天，仅使用人工语言是远远不够的。

自然语言由于主要由系统自动标引完成，灵活、新颖、检索入口多、专指性好，管理和维护的成本较低，用户也不需要特别的学习和培训；但由于目前计算机的抽词技术还无法做到从自然语言文本中自动抽取最准确、充分表达信息资源内容的词，也无法自动规范自然语言和表现概念之间的关联，检索效率很低，具体表现在搜索引擎的使用上，利用搜索引擎检索出来的内容大部分是无用信息。

因此人工语言和自然语言并不是互相对立的，比较成熟的检索系统，通常是两种检索语言并用，互为补充，以保证较高的检索效率。

第三节数据库的构成与信息检索技术

一数据库的构成

1 数据库的定义

至少由一种文档（file）组成，并能满足某一特定目的或某一特定数据处理系统需要的数据集合。”通俗地说，数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。

2 数据库的构成

文档文档是书目数据库和文献检索系统中数据组成的基本形式，是由若干个逻辑记录构成的信息集合。从数据库的内部结构来看，通常一个数据库至少包括一个顺排文档和一个倒排文档。

记录记录是数据库文档的基本单元，是对某一实体属性进行描述的结果。一个数据库可能包含几千条甚至几十万条记录。在全文数据库中，一个记录相当于一篇完整的文献；在书目数据库中，一个记录相当于一条文摘或题录。

字段字段是构成记录的最小信息单元。一条记录包含着若干个字段。例如原始文献的篇名、著者、文献出处、出版时间、文摘、主题词、语种等。数据库记录的著录项目(字段)往往比手工检索多得多，这就决定了计算机检索能够提供比手工检索更丰富的检索途径。

以DIALOG书目数据库 E i Compendex Plus为例

AN= DIALOG NO:05985973 EI Monthly NO: EIP02016819224

/TI Title: On improving modeling of enterprise information system

AU= Author: Li, Y.; Liu, M.; Shao, Y.; Yang, H.C.

CS= Corporate Source: Northwestern Polytechnical Univ., Xi'an 710072, China

SO= Source: Xibei Gongye Daxue Xuebao/Journal of Northwestern Polytechnical

University v 19 n 3 August 2001. p 372-375

PY= Publication Year: 2001

CO,SN= CODEN: XGDUE2 ISSN: 1000-2758

LA= Language: Chinese

DT,TC= Document Type: JA; (Journal Article) Treatment Code: A; (Applications)

/AB Abstract: From analysis for the features of an enterprise information system, the architecture for the integrated model of the enterprise information system was proposed, which was derived from CIMOSA (computer integrated manufacturing open system architecture) reference model. /DE Descriptors: *Management information systems; Agile manufacturing systems; Industry; Information management; Manufacturing data processing

/ID Identifiers: Business activity; Business process; Enterprise information system; Object oriented model; Workflow technology

CC= EI Classification Codes: 912.2 (Management); 913.4(Manufacturing) 912 (Industrial Engineering & Management); 913 (Production Planning & Control; Manufacturing)

为了方便计算和检索，每一个字段都有自己特定的标识符：

TI: 篇名字段(Title)。

AU=: 著者字段(Author)。

CS=: 著者所在单位字段(Corporate Source)。

SO=: 文献出处字段(Source)，对于期刊文献包括期刊名称、卷、期、页等；对于会议文献包括会议名称、届次、时间、地点等。

PY=: 出版年代字段(Publication Year)。

CO,SN=: 期刊代码(CODEN)；国际连续出版物标准号(ISSN)。

LA=: 语种字段(Language)，指原文语种。

DT=: 文献类型字段(Document Type)。

TC=: 处理码字段(Treatment Code)，表示论文研究

的性质，A 表示应用，X 表示实验，T 表示理论，等等。

AB: 文摘字段(Abstract)。

DE: 叙词字段(Descriptor)，主题词表中的词。

ID: 自由标引词字段(Identifier)，非受控词表中的词，由标引人员根据文献内容确定。

CC=: 分类代码字段(Classification Code)。

二检索技术

1布尔逻辑检索即运用布尔逻辑算符（ Boolean operators ）

对检索词进行逻辑组配，表达两个概念之间的逻辑关系。

①逻辑“与”: 检索时，命中信息同时含有两个概念，专指性强。

A AND B A and B A*B

②逻辑“或”：检索时，命中信息包含所有关于逻辑A或逻辑B或同时有A和B的，可以扩大检索范围，适用于连接有同义关系或相关关系的词。

A OR B A or B A+B

③逻辑“非”: 命中信息只包括逻辑A、不包括逻辑B或同时有A和B的，排除了不需要的检索词。

A NOT B A not B A and not B A - B

④逻辑“异或”：命中信息包含逻辑A、也包含逻辑B，但不包含同时含有A和B的信息。

A XOR B

运算次序

①按算符出现的顺序

②默认AND优先运算，其次是OR、NOT

③默认OR优先运算，然后是AND、NOT

④也可以利用括号（）来改变运算次序

举例：

Commerce or Business

Document not Manuscript

硫、磷对金属延性和金属冲击强度的影响

（硫or磷）and(金属延性or金属冲击强度)

邻接矩阵在情报检索与情报分析中的应用

邻接矩阵 and（情报检索or情报分析）

人工智能及专家系统的研究情况

人工智能or专家系统

气溶胶对大气环境的影响

Aerosol and( air or atmosphere and environment)

2 位置算符检索

位置算符检索是用一些特定的算符（position operators）来表达检索词与检索词之间的关系。又叫邻接检索。

①W、 W/N、 WITH、 WITHIN
表示在此算符两侧的检索词位置相邻，按输入时顺序排列，也有数据库允许顺序颠倒。

例如： Education (W) school 或 Education WITH school

可检索出 Education school

Education schools

school of education

② (n W ) —— nWords
(nW) 表示在此算符两侧的检索词之间允许插入n个实词或虚词。

例如： electronic(1W)resources

可检索出 electronic resources

electronic information resources.
electronic information of resources.

③ N、Near、ADJ—两词相邻，顺序可颠倒

例如： Junior(N)high

可检索出 junior high

high junior

(nN) —— nNear

(nN) 表示两个词位置可以颠倒，两个词之间可插入n 个词。

例如： information(3N) retrieval

可检索出:

information retrieval

retrieval information

retrieval of information

retrieval of law information

retrieval of Chinese law information

Chinese law information system and retrieval

④ (F)—— Field
(F) 表示在此运算符两侧的检索词必须同时出现在一个标引字段内，如出现在篇名字段、文摘字段等。

⑤ (S) —— same
(S) 表示在此运算符两侧的检索词同时出现在一个段落中。

PRE---- 两次相邻，按输入顺序排列

3 短语检索 (phrase search)

短语检索（ phrase ），也称为词组检索，或字符串检索。它是将一个词组或短语用双引号“ "" ”括起作为一个独立运算单元，进行严格匹配，以提高检索准确度的一种方法。

如：用“George W. Washington”

另外，杂志名或专有名称使用短语检索可获得比较精确的检索结果

如： “图书馆”

“图书馆学报”

4 截词检索 (truncation search)

截词（ truncation ）检索，是指在检索标识中保留相同的部分，用截词符代替可变化的部分。

按照截词的位置不同分为前截断、后截断、中间截断

根据截词的数量不同可分为有限截断、无限截断

截词检索有时也称为通配符（wildcard）检索。一般情况下，*代替任意一个或多个字符。？代表一个字符。也有用$表示的。

有限截断与无限截断

无限截断：不限制被截断的字符数量，例如输入educat*，可以检索出：educator、 educators 、educated、educating、education、educational等等。

有限截断：限制被截断的字符数量，例如输入educat??，表示被截断的字符只有两个，可以检索educator，educated两个词。

■前截断

前截断是将截词符号置放在一个字符串左方，是后方一致检索。

如：在 www.onelook.com 网站中

*ology 可检索出：
geology sociology

Psychology archaeology biology ┅┅等等词汇。
又如：查找 *magnetic

electromagnetic 、thermomagnetic

electro-magnetic、thermo-magnetic

■后截断

后截断是最常用的截词检索技术,它是将截词符放在一串字符的右面。

如：system??

    system
    systems
    systemic

    如：comput *

    Comput* 可检出词汇有
    compute
    computer
    computing
    computability
    computable
    computation
    computational
    computative
    ┇

■中间截断

中间截断又称为中间屏蔽，是一种用截词符屏蔽词中不同字符的方法。

例如：wom?n 可以检索出woman 、women

defen?e 可以检索出defence 、defense

有些检索系统不支持使用截词符的截词检索技术，系统默认的是词根检索，即输入一个词，系统会自动检索出同一词根的一组词，例如输入gene，可以检索出gene、genic、genome等。这是一种智能检索方式，但要求系统内必须预先配置词根表。IEE/IEEE全文数据库默认词根检索。

5 字段限定检索 (field limiting)

Abstracts AB 文摘

Author AU 作者

Corporate Source\Orgnization\Company CS 机构名称

Descriptor\Subject DE 叙词、主题词

Document Type DT 文献类型

Full-text FT 全文

ISSN ISSN 国际标准连续出版物号

Journal Name\Publication Title JN 期刊名称

Keyword\Topic KW 关键词

Language LA 语言

Publication year PY 出版年

Title TI 题名

举例

Microcomputer??/de,ti,ab AND personal computer/ti,ab

JN=Wall Street

Library science IN DE

(原文出处)历史教学*（标题）翦伯赞

（minicomputer/DE OR personal computer/KY）AND PY=2002

（minicomputer/DE, TI OR personal computer/KY, TI）AND PY=2002 AND LA=English

▲ 西文数据库需要注重作者检索例如查找作者 Richard Stuart

可以有以下多找表达方式：Richard Stuart

Stuart R

Stuart ,R

Stuart ,Richard

其他检索技术

●区分大小写的检索：指西文检索系统中对用户检索式包含的大小写的处理方法。不同的系统吃力方式不同。例如：检索词为“Apple”,首字母为大写“A”，有些系统严格按照用户输入的大小写来处理，则检索结果只是“苹果”计算机、“苹果”牛仔裤或其他“苹果”品牌；有写系统则处理为：大小写全部包含，除“苹果”品牌外，还包括苹果等植物名称在内。

●禁用词表：在西文数据库检索中，系统对信息进行标引时，不能做标引词或检索词的词语，包括介词、冠词、代词、连接词、某些形容词或副词等。这部分词语由于使用频率过高，不能反映信息的实际内容，即使用户输入，系统也不会对其进行检索，又称停用词。如：a 、and、 in、 for、 she、 should、 the 、well、 only 等。由禁用词构成的词表称为禁用词表，不同检索系统的禁用词表略有不同，要注意查看。

检索实例：

1.检索有关克隆人立法方面的文章

“human cloning”AND legislat*

2.检索文昌鱼遗传多样性方面的文献

(文昌鱼 OR 头索动物) AND (遗传多样性 OR 基因 OR DNA）

3.检索生物基因工程技术方面的报道而排除生物基因工程公司方面的信息

“生物基因工程技术” NOT 公司　或

“生物基因工程技术”—公司

41999年出版的英文或法文的微型机或个人计算机方面的期刊

(microcomputer??/de,ti,ab OR personal computer/ti,ab) AND PY=1999 AND (LA=EN OR FR) AND DT=Serial

在实际的检索系统中，往往将上述多种检索技术混合使用，如要查找标题中含有“网络营销”的资料，可以运用布尔逻辑运算符AND、OR和截词检索，并将检索结果限制在题名字段，例：

（Web OR Internet OR WWW） AND market*

（web/TI OR Internet/TI OR WWW/TI） AND market*/DE

第二章 信息检索原理

第二章信息检索原理