欢迎您来到山东科技大学泰安校区图书馆! 2024-05-06 16:06:11 Monday

第三章 网络信息资源及其检索

来源: 教研室

 

第三章 网络信息资源及其检索
 
3.1 网络信息资源
   人们在日常的生活和学习中,经常会碰到这样一些问题:关于北京成功申办 2008 年奥运会,国内外媒体都作了什么报道和评论?美国大学的最新排名情况如何?法国有哪些名胜古迹? 20 世纪有哪些重大发明?以前,碰到这些问题,人们的第一反应是赶紧跑图书馆,找工具书和其他资料,而现在,人们首先想到的是上网。
    internet 是一个巨大的信息资源库,它的迅速发展和广泛使用使世界范围内的信息资源交流、共享成为可能,同时它也对传统信息组织、检索和获取方法形成了很大冲击。一方面,它为人们提供了一个更为广阔的信息检索空间,而另一方面,网络信息的发展特点就在于无限、无序、优劣混杂、缺乏统一的组织与控制。上网用户首先面对的是大量纷繁复杂的信息、数据、明显感觉到的是由信息过载引发的困惑和茫然。在网络信息世界这个浩瀚、动荡的信息海洋中,准确、及时、有效地找到、获取与自身信息需求相关、切题、适用的信息对所有网络用户来说都是十分重要的,同时也非常具有挑战意味。
     3.1.1. 网络信息资源特点
    网络 信息资源具有以下特点:
    1. 信息源丰富
    Internet 是个开放的信息传播平台,任何机构、任何人都可以将自己拥有的且愿意让他人共享的信息上网。在这个庞大的信息供应源中,起主导作用的主要有:公共图书馆、网络信息服务商、传统媒体、传统联机服务商、高等院校、科研机构、各类商业公司等。
    2. 信息内容多样性
    网络是信息的载体,信息是网络的灵魂。没有信息,网络就没有使用价值。 Internet 是信息的海洋,信息内容几乎无所不包。有科学技术领域的各种行业信息,也有与大众日常生活息息相关的信息;有严肃主题信息,也有体育、娱乐、旅游、消遣和奇闻趣事;有历史档案信息,也有显示现实世界的信息;有知识性和教育性的信息,也有消息和新闻的传媒信息;有学术、教育、产业和文化方面的信息,也有经济、金融和商业信息。
    3. 信息表现形式多样化
    Internet 是一个集声音、图像、文字、照片、图形、动画、电影、音乐为一体的包罗万象的综合性信息系统。你可以伴着优雅的音乐,循着链路随意在网上漫游,看看精美的网页、阅读精彩的文件,使学习成为一种浪漫、愉快的旅程。
    4. 信息时效性强
    利用 Internet 信息制作技术,能很快地将信息传播到世界各地。由于几乎在事件发生的同一时间内,就能将信息快速制作、上网,因此,网上信息的更新周期短、内容新颖。
    5. 信息具有交互性
    Internet 是交互性的,不仅可以从中获取信息,也可以向网上发布信息。 Internet 提供讨论、交流的渠道。在 Internet 上可以找到提供各种信息的人:科学家、工程技术专家、医生、律师、教育家、明星以及具备各种专长和爱好人们;也可以找到一些专题讨论小组,通过交流、咨询获得专家和其他用户的帮助,同时也可发表个人的见解。
    6. 信息关联性
    Internet 的信息组织是基于超文本的,因此,有关联的信息之间通过链接形成一个相互联系的信息渠道,人们可以由此及彼、由远而近、顺藤摸瓜、找到想要的信息。
    7. 信息的开放性
    由于 Internet 是一个全球性分布的结构,大量信息分别存储在世界各地的服务器与主机上,随着时间的推移和知识的更新,在不断补充新的信息同时也不断淘汰旧的信息,以保证其信息的整体数量和使用价值及网络灵活性。
    8. 免费信息资源丰富
    Internet 大部分是免费的,只要你有时间、有一定的检索经验,肯定可以从网上找到大量的你所需要的免费信息。
    9. 信息组织的局部有序性与整体无序性
    各搜索引擎和站点目录都收集大量 Internet 的站点,并按照专业和文献信息类型分类,实现了信息组织的局部有序化。但是,由于 Internet 急剧膨胀,仍有大量信息被淹没在信息的海洋里,这种无序性必将影响信息检索的系统性、完整性和准确性。
 
    3.1.2. 网络信息资源的种类
    Internet 信息资源可按照信息来源、信息时效性或网络传输协议来分类。
    1.按信息来源划分
    Internet 信息资源按信息来源可划分为政府、公众、商用等信息资源。
    政府信息资源。各国政府纷纷在 Internet 上发布有关该国家与政府的各种公开信息,进行国家与政府的形象展示。政府信息主要包括各种新闻、统计信息、政策法规文件、政府档案、政府部门介绍、政府取得成就等。
    ② 公众信息资源。公众信息资源,即为社会公众服务的机构所拥有信息资源,包括:公共图书资源、科技信息资源、新闻出版资源、广播电视信息资源等。
    ③ 商用信息资源。商用信息资源,即商情咨询机构或商业性公司为生产经营者或消费者提供的有偿或无偿的商用信息,包括产品、商情、咨询等类型的信息。
    2. 按信息存取方式划分
    Internet 信息资源按信息时效可划分为电子邮件型、图书馆目录、书目与索引、全文资料及电子出版物、数据库等信息资源。
    电子邮件型信息资源。凡是通过电子邮件方式进行交流的信息都属于 E-mail 型的信息资源。它并不局限于个人之间的通信,还包括报告、论文、文献目录、甚至整本书、整本期刊。
    图书馆目录资源。网络上的图书馆目录不再受时空限制,用户可以在家里或办公室查阅、检索。
    书目与索引资源。 Internet 上有大量历史、政治、经济、物理、化学、矿业、化工、建筑等许多学科的书目与期刊索引资源。
    全文资料及电子出版物资源。全文资料及电子出版物已越来越多地通过 Internet 提供有偿或无偿使用。
    数据库信息资源。数据库信息资源是 Internet 中最为庞大的部分,又可分为科学技术数据库、商业广告数据库、教育娱乐数据库等。
    3.按网络传输协议划分
    Internet 信息资源按网络传输协议可划分为 www 、 Telnet 、 FTP 、 E-mail、用户服务组、 Gopher 等信息资源。
    ① www 信息资源: www(World Wide Web, 简称 www 或 Web) 信息资源是建立在超文本、超媒体技术以及超文本传输协议 HTTP(Hyper Text Transfer Protocol) 的基础上,集文本、图形、图像、声音为一体,并以直观的图形用户截面展现和提供信息的网络资源形式。
    www 其实是 Internet 中一个特殊的网络区域,这个区域是由网上所有超文本格式的文档 ( 网页 ) 集合而成。超文本文档里既有数据又有包含指向其他文挡的链 (Links) 。链使得不同文档里的相关信息连接在一起,这些相互链接的文档可以在一个 www 服务器里,也可以分布在网络上的不同地点。通过这些链,用户在 www 上查找信息时可以从一个文档跳到另一个文档,而不必考虑这些文档在网络上的具体地点。
    ② Telnet 信息资源 :Telnet 信息资源是指借助远程登录,在网络通信协( Telecommunication Network Protocol )的支持下,可以访问共享的远程计算机中的资源。 Telnet 使用户可以在本地计算机上注册到远程计算机中的资源。使用 Telnet ,用户可以与全世界许多信息中心、图书馆及其他信息资源联系。
    Telnet 远程登录的使用主要有两种情况:第一种是用户在远程主机上有自己的帐号,即用户拥有注册的用户名和口令;第二种是许多 Internet 主机为用户提供了某种形式的公共 Telnet 信息资源,这种资源对于每一个 Internet 用户都是开放的。
    (上机操作:开始--运行--输入“cmd”调出系统自带dos环境,尝试使用telnet登陆山大总校bbs系统。在dos提示符后输入telnet bbs.sdu.edu.cn,回车即可看见以下登陆界面。)
 
    ③ FTP 信息资源: FTP 信息资源是指利用文件传输协议 FTP ( File Transfer Protocol )可以获取的信息资源。 FTP 使用户可以在本地计算机和远程计算机之间发送和接收文件, FTP 不仅允许从远程计算机上获取、下载文件( Download ) , 也可以将文件从本地计算机拷贝传输到远程计算机( Upload )。 FTP 是目前 Internet 上获取免费软件和共享软件资源不可缺少的工具。ftp工具下载
     (上机操作:打开浏览器在地址栏输入 ftp://202.194.3.15 附注:该ftp服务器只允许校园网内40个匿名用户同时访问。登陆后可看到如下界面)
    ④ E -mail 信息资源: E -mail是 Internet 上应用最广泛的一种信息资源服务方式。它的使用机制是模拟邮政系统,使用“存储—转发”的方式将用户发出的邮件沿着一条逻辑通道转发到目的主机的信箱中。与常规的邮政相比,电子邮件的传递几乎没有时间上的延迟,而且它可以同时发送给多个接收者或转发给第三者。除了普通的文本外,电子邮件还可以传递非文本的文件。通过在发信端将数据编码为文本格式后寄往收信端,再由收信端将其解码成原来的文件。如此机壳船松土、文、声、像、视频等多种形式的数据。
     (尝试使用OutlookExpress--操作系统自带,接收电子邮件如下图所示,使用教程http://www.pconline.com.cn/pcedu/soft/wl/email/10112/19021.html,不同邮件服务器pop3;smtp参数不同,均可在其web邮箱登陆网页上查询到,例如sohu的:http://help.sohu.com/article_usershow_detail.php?id=960)
 
    
    ⑤ 用户服务组信息资源:Internet 上各种各样的用户通信或服务组是最受欢迎的信息交流形式,包括:新闻组( Usenet News Group )、邮件列表 (Mailinglist) 、专题讨论组 (Discussion Group) 、兴趣组 (Interest Group) 等。这些讨论组都是由一组对某一特定主题有共同兴趣的网络用户组成的电子论坛,在电子论坛中所传递与交流的信息就构成了 Internet 上最流行的一种信息资源。
    (上机操作:打开浏览器在地址栏输入news://news.newsfan.net/(新帆新闻组)回车后,操作系统会自动调出自带的 OutlookExpress打开新闻组列表,如下图所示,具体操作可以参考http://www.pconline.com.cn/pcedu/soft/wl/email/10206/68651.htmlhttp://www.9238.net/stone/news.htm这两篇帖子。)
 
    ⑥ Gopher 信息资源: Gopher 是一种基于菜单的网络服务 ,它为用户提供了丰富的信息,并允许用户以一种简单的、一致的方法快速找到并访问所需的网络资源。全部操作是在一级级菜单的指引下,用户只需在菜单中选择项目和浏览相关内容,就可完成对 Internet 上远程联机信息系统的访问,无需知道信息的存放位置和掌握有关的操作命令。
     (上机操作:首先需要下载gopher登陆客户端,在server name项中输入“gopher.ohiolink.edu”(俄亥俄图书馆信息网),其余默认即可确定登陆,如下为登陆成功的界面。客户端WSGOPHER下载:)
 
    ⑦ BT信息资源:BT(Bit Torrent)实际上是一个多点下载的P to P(Peer to Peer)资源,可以简单的理解为基于BT协议。其特点简单的说就是:下载的人越多,速度越快。这也是相对http下载和ftp下载最大的优势。
    BT首先在提供上传这一端把一个文件分成了多个部分,甲在服务器随机下载了某个部分(A),乙在服务器随机下载了另外一部分(B),之后,甲的BT软件会根据情况到乙的电脑上去拿乙已经下载的那一部分(B),乙则到甲的电脑上去拿甲已经下载好的那一部分(A),这样,不但减轻了服务器端的负担,也加快了甲乙双方的下载速度,效率也提高了。比如丙连到服务器去下载可能只有几KB,但到甲和乙的电脑上去下载就快得多(此时甲和乙都是服务器)。所以,用的人越多,相当于服务器越多;下载的人越多,同时提供上传的人也越多,速度就越快。其下载原理图如下:
    使用bt资源需要了解的几个名词: 
    1.种子:在BT下载中,把上传资源给其他人下载的电脑称为“种子”,种子数越多,说明正在提供上传的电脑数量越多。在下载前请先看一下相关资源的种子数,在下载完成后也最好先做上一段时间的“种子”,然后才关闭程序。 
    2.客户端:下载bt资源必须安装的工具软件。例如:BitTorrent;BitComet;Bit Spirit;BitTorrent Plus!等,均可在http://www.skycn.com天空软件园获取。 BitComet下载
    3.BT站点:发布bt种子文件的网络平台(并不含有其资源文件)。
    优化bt使用的措施; 
    1.为硬盘设置较大的Cache(缓存)空间。
   Windows默认只有512KB的Cache显然不够,如果内存在256MB以上,开大一些Cache应该可以减少硬盘读写,提高性能。一般设在8MB~16MB效果最好,我设的是32MB。运用“regedit",找到[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\SessionManager\MemoryManagement\IoPageLockLimit]这一键值,如果没有找到IoPageLockLimit,就要新建,类型为DWord。根据你的内存修改其十六进制值:8000为32MB,4000为16MB,其它的值依此类推这个数值就是你要设定的多少KB的Cache转为十六进制后的值。当然别忘了重新启动计算机。 
    2.降低BT的优先级
   由于BT占用的系统资源较多,使用时可能对系统的性能产生一定的影响,可以用任务管理器降低BT的优先级,这样即使它要占用资源,也不会对其他的应用程序产生太大的影响。选取进程标签,右键点击BT软件进程,在设置优先级选单中选择低或者低于标准。 
    3、少开几个下载窗口
   许多人在下载的时候总是喜欢同时进行五六个直载任务,希望下载能够快一点,好减轻一点硬盘的负担,我发现那样反而有害,更多的连接就会对硬盘有更频繁的访问。而带宽又是固定的,多开几个任务反而会使每个任务平均分配到的带宽减少,速度根本快不了的。
    4.不要太长时间开机下载
B   T下载狂人常常整日整夜开着机站它自已下载,三五天不关机是常事。这样的情况导致硬盘温度过高,加速其老化和疲劳,况且现在的7200转的高速硬盘发热量都是很大。如要机箱的散热条件不是很好的话,那就更惨了。
    5.尽量不要非正常关机或者重启。
   在启用写缓存后如果系统非正常关机或者重启会增大磁盘物理损坏与丢失数据的可能性。
    BT下载慢的一些原因:
 1、不是公网用户。内网用户不能提供主动连接,所以较慢。
 2、各个运营商网络接口速率不高 。
 3、下载者上传速率不高。因为BT优先处理上传较快的人。
 4、发布时seed的多少,还与发布者的速率相关,还有下载的人数越多相应的下载速度就越快(这就是BT的最大优点)。
 5、用户的防火墙阻碍作用 。
BT原理应用的衍生
 1、bt网络电视:ppStream;pplive等。
 2、emule;maze等。
常用bt发布平台推荐:
1,http://bt.5qzone.net/ ------------------教育网内最大
2,http://www.btchina.net/ ----------------bt中国
3,http://www.btcube.com/------------------BT魔方
4,http://bbs.icefish.org/-----------冰鱼综艺
5,http://bt.fkee.com/-----------飞客BT搜索引擎
6,http://bbs.btbbt.com/-------------------BT之家
   (上机操作:首先安装好bt客户端软件,登陆http://bt.5qzone.net/教育网内最大的bt种子发布平台,点击欲下载的资源种子,系统会自动调用bt软件连接并且下载,如下图所示:)
 
 
 
3.2 Internet 信息组织
   在 www 、 Telnet 、 FTP 、用户服务组、 Gopher 这些资源中发展最快的是 www 。 www 的超媒体、超文本的特性使之在 Internet 信息存储与检索领域独占鳌头,目前 Internet 大多数信息的组织与发布都是采用超文本这种特殊的信息组织方式。
    3.2.1.超文本
    所谓超文本( Hypertext ) , 就是非线性文本。一般人们阅读的文本( text )都是从上而下,从左到右排列,但在超文本中,内容是按超链接( Hyperlink )组织。用户单击文本中加以标注的一些特殊的关键词或图像,就能打开另一个文本。比如说,你在 www 上找到最新上映的新片的介绍,点击感兴趣的链接,就可以连到有关的影评、演员剧照、甚至可以欣赏精彩片段,点击相关链接,又可以访问出售该片海报、唱片、和其他宣传品的网上超市等等。用户根本无须知道信息存储的具体位置,只需轻轻点击鼠标,按照事先安排好的链接,一层层地浏览、查询下去。而超媒体 (Hypermedia) 又进一步扩展了超文本所链接的信息类型,利用超级链接将超文本和各种媒体信息连接在一起。用户不仅能从一个文本跳到另一个文本,而且可以激活一段声音,显示一个图形,或播放一段视频图像。在 Internet 中,每个 Web 服务器不仅提供其自身拥有的信息数据,还利用超级链接指向其他的拥有相关信息的 Web 服务器,而这些服务器又指向更多服务器,通过这种内部的链接机制,使遍布全球的主机形成了一个相互联系、资源共享的有机整体。
    3.2.2. 超文本传输协议
    超文本信息传输协议 HTTP ( Hyper Text Transfer Protocol )是浏览器直接与 Web 服务器之间相互通信的协议,即 www 客户机和服务器用于在网上传输、响应用户请求的协议。任何一个 HTTP 会话包括四个步骤:连接、请求、应答与关闭。
    3.2.3. 超文本标识语言
    超文本标识语言 HTML ( Hyper Text Markup Language )是一种为 www 建立超文本文件的专门编程语言。它通过标记和属性对一段文本的语义进行描述,进行文件与文件及文件内部不同部分之间的链接。 HTML 文档由文件、格式代码和到其他文档的链接组成。
    3.2.4. WWW
    WWW (World Wide Web) 是建立在客户机 / 服务器模式之上,以 HTML 语言和 HTTP 协议为基础,通过 Internet 把遍布世界各地的服务器连接起来,构成的一个环球信息网络空间。其特点是:
    1. 使用超文本技术。利用文本加连接技术,用户只要用鼠标点击页面有特殊颜色或有下划线的文字时,就会出现新的解释或访问更多的信息。
    2. 使用 HTML 语言。使用 HTML 语言使信息的组织与显示更加规范有序,让 www 浏览器可以识别。
    3. 采用客户机 / 服务器模式。采用客户机 / 服务器模式,即在 Web 上,由客户机提出请求,连接到服务器,找到相应的由 HTML 语言描述的文本,用户可以在客户机上浏览这些信息。
    4. 功能强大,使用简单方便。 www 设计的界面友好、接口简单。用户只要知道要找的信息的服务器及其要浏览的文挡名,输入它的网址,就可以利用 www 系统达到网上检索信息的目的。
    3.2.5.统一资源定位器
    统一资源定位器 (Uniform Resource Locator, 简称 URL), 是 www 系统使用的一种特殊地址。每一个文件无论它以何种方式存在何种服务器上,都有一个唯一的 URL 地址,该地址不仅指明信息资源所在目录和文件名,还指明信息文件存在于网络的哪个节点的计算机上,以及可以访问的方式等。只要用户正确地给出了一个文件的 URL 地址, www 服务器就能准确无误地将它找到并且传送到发出检索请求的 www 客户机上去。因此, URL 可以看成是一个文件在 Internet 上的标准通用地址。
    URL 的一般格式如下:
    < 通信协议 > : //< 主机 >/< 路径 >/< 文件名 >
    其中, < 通信协议 > :指提供文件的服务器所使用的通信协议。如 www 的 HTTP 协议, Gopher 的 Gopher 协议, FTP 的 FTP 协议等;
< 主机 > :指上述服务器所在主机的 IP 地址;
    < 路径 > :该文件在上述主机的路径;
    < 文件名 > :该文件的名称。
    例如, 代表 www 山东科技大学泰安校区图书馆简介的 URL 。
    由此可见 , 通过 www 浏览器可提供多种 Internet 服务的访问。 www 浏览器实际上为用户提供了一个统一的、一致性的交互接口 , 该接口利用 URL 中的 < 通信协议 > 信息来选择相应的客户程度 , 以访问相应的 Internet 上主机或服务器的信息 .
    3.2.6. 主页
    所谓主页 (homepage), 从表面上理解 , 就是某个单位、学校、企业甚至政府、城市、国家在 Internet 上为自己建立起来的门面。人们从 Internet 访问这些地方的网站,首先都会接触到这个门面,并根据它的引导进一步查询该网站上的有关内容。用户首先在键盘上输入一个 IP 地址,接着系统响应其访问请求,并通过网络将对方的主页信息传递到用户的计算机上,这时屏幕上出现的通常是经过精心设计的图形界面,就是通常所说的主页。按照微软公司的比喻,如果把 www 当作是 Internet 上的大型图书馆,则每个站点就是一本书,每个 Web 页面就是书的一页,主页则是书的封面和目录。用户可以从主页开始,通过 Web 链接访问各类信息资源。
 
3.3 网络信息资源检索
现代信息检索的历程中,我们经历了从检索工具书到计算机检索再到 Internet 检索的各个阶段,每个阶段、每种检索方式都有它的特点与局限性。 Internet 信息检索所具有的多样性、灵活性远远超出了传统的信息检索,我们需要继承与沿用在传统信息检索中心业已形成的某些检索思维模式及一些已成定势的检索方法,更需要掌握 Internet 信息检索所具有的特点、了解影响信息检索的因素,通过实践提高获取信息的能力。
    3.3.1 网络信息检索的特点
    1.信息检索空间的拓宽 网络信息的检索空间比之传统的情报检索是大大的拓宽了,它可以检索因特网上的各类资源而检索者不需要预先知道某种资源的具体地址。其检索范围覆盖了整个因特网这一全球性的网络之网络,为访问和获取广泛分布在世界各地的、成千上万台服务器和主机上的大量信息提供了可能。这一优势是任何其他信息检索方式所不具备的。如国际商用联机检索也只能是检索某一台、某几台主机或某局部网络内的若干数据库。
    2.交互式作业方式 所有的网络信息检索工具都具有交互式作业的特点,能够从用户命令中获取指令,即时响应用户的要求,执行相应操作,并具有良好的信息反馈功能。用户可以在检索过程中及时调整检索策略以获得良好的检索结果,并能就所遇到的问题获得联机帮助和指导。
    3.用户界面友好且操作方便 网络信息检索对用户屏蔽了个局部网络间的物理差异(包括各主机的硬件平台、操作系统等软件上的差异、客户程序和服务程序版本上的差异、信息的存储方式以及各种不同的网络通信协议的差异等),使用户在使用这些服务时感到明显的系统透明度。检索者使用自己所熟悉的检索界面和命令方式输入查询提问就可以实现对各种异构系统数据库的访问、检索。
 
    3.3.2 Internet 信息检索方法
    要想在 Internet 上获得自己所需要的信息,就必须知道这些信息存储在哪里,也就是说要知道提供这些信息的服务器在 Internet 上的地址(即 URL),然后通过该地址去访问服务器提供的信息。在 Internet 上, www 信息资源的一般查询方法有:基于超文本的信息查询、基于目录的信息查询和基于搜索引擎的信息查询。
    1. 基于超文本的信息查询—浏览
    这是在因特网上发现、检索信息的原始方法。通过超文本链接逐步遍历庞大的 Internet ,从一个 www 服务器到另一个 www 服务器,从一个目录到另一个目录,从一篇文章到另一篇文章,浏览查找所需信息的方法称为浏览,也称基于超文本的信息查询方法。
    基于超文本的浏览模式是一种有别于传统信息检索技术的新型检索方式,它已成为 Internet 上最基本的查询模式。利用浏览模式进行检索时,用户只需以一个节点作为入口 , 根据节点中文本的内容了解嵌入其中的热链指向的主题,然后选择自己感兴趣的节点进一步搜索。在搜索过程中,用户会发现许多相关的节点内容根本没被自己所预想到,而是在浏览过程中不断蹦出来,提醒用户注意它。这种方式可以在很短的时间内获得大量相关信息,但也有可能在“顺链而行”中偏离了检索目标,或迷失于网络信息空间中,而且找到合适的检索起点也不容易。
    随着 www 服务器的急剧增加,通过一步步浏览来查找所需信息已非常困难。为帮助用户快速方便地搜寻所需信息,各种 www 信息查询工具便应运而生,其中最有代表性的是基于目录和基于搜索引擎的信息查询工具,而利用这些工具来查找信息的方法就被称为基于目录和基于搜索引擎的信息查询方法。
    2. 基于目录的信息查询
    为了帮助 Internet 上用户方便地查询到所需要的信息,人们按照图书馆管理书目的方法设置了目录。网上目录一般以主题方式来组织,大主题下又包括若干小主题,这样一层一层地查下去,直到比较具体的信息标题。目录存放在 www 服务器里,各个主题通过超文本的方式组织在一起,用户通过目录最终可得到所需信息的网址,即可到相应的地方查找信息,这种通过目录帮助的方法获得所需信息的网址继而查找信息的方法称为基于目录的信息查询方法。
    有许多机构专门收集 Internet 上的信息地址,并编制成目录提供给网上用户。 Yahoo 就是一个非常著名的基于目录帮助的网址,其目录按照一般主题组织,顶层按经济、计算机、教育、政治、新闻、科学等分成 14 大类目录,每一大类又分成若干子类,层层递进。
    基于目录的信息查询也有其局限性:由于其管理,维护跟不上网络信息的增长速度,导致其收录范围不够全面,新颖性、及时性可能不够强;且用户要受标引者分类思想的控制。
    3.基于搜索引擎的信息查询
    这是较为常规、普遍的网络信息检索方式。搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具。用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果提供给用户 (在Internet 上是一系列节点地址)。它一般支持布尔检索、词组检索、截词检索、字段检索等功能。利用搜索引擎进行检索的优点是:省时省力,简单方便,检索速度快,范围广,能及时获取新增信息。其缺点在于:由于采用计算机软件自动进行信息的加工、处理,且检索软件的智能性不是很高,造成检索的准确性不是很理想,与人们的检索需求及对检索效率的期望有一定差距。
    搜索引擎实际上是 Internet 的服务站点,有免费为公众提供服务的,也有进行收费服务的。不同的检索服务可能会有不同界面,不同的侧重内容,但有一点是共同的,就是都有一个庞大的索引数据库。这个索引库是向用户提供检索结果的依据,其中收集了 Internet 上数百万甚至数千万主页信息,包括该主页的主题、地址,包含于其中的被链接文档主题,以及每个文档中出现的单词的频率、位置等。
    3.3.3 影响Internet 信息检索的因素
    影响 Internet 信息检索的因素很多,如信息资源质量、检索软件、用户水平等。
    1. 信息资源质量对信息检索的影响
    丰富的信息资源为 Internet 信息检索系统提供了庞大的信息源,但由于其收集、加工、存储的非标准化,给信息检索带来难题。
    ① 信息资源收集不完整、不系统、不科学,导致信息检索必须多次进行,造成人力、物力和时间上的浪费。
    ② 信息资源加工处理不规范、不标准、使信息检索的查全率、查准率下降。
    ③ 信息资源分散、无序、更换、消亡无法预测,因此用户无法判断网上有多少信息同自己需求有关,检索评价标准无法确定。
    ④ 信息资源由于版权和知识产权问题,也给信息检索带来麻烦。由于 Internet 是一个非控制网络,所有网上公用信息均可以自由使用、共同分享,网上电子形式的文件极易被复制使用,这样就容易引起知识产权、版权及信息真伪等问题。
    ⑤ 信息的语言障碍问题。目前 Internet 上 80% 以上的信息是以英语形式发布,英语水平低和不懂英语的人很难利用 Internet 上庞大的信息资源。对中国用户来说,虽然网上中文信息剧增,但还是需要查询西方国家先进科技信息,由于缺乏汉化软件、自动翻译系统尚未成熟,因此,语言障碍也影响了广大用户对网上信息资源的开发与应用。
    2. 检索软件对信息检索的影响
    Internet 将世界上大大小小、成千上万的计算机网络连在一起,成为一个没有统一管理的、分散的但可以相互交流的巨大信息库,这意味着人们必须掌握各种网络信息检索工具,才能检索到自己所需要的网络信息资源。但是由于 Internet 信息组织的特殊性和目前检索工具自身存在的一些问题,给信息检索带来一些问题。
    ① Internet 上的信息存放地址会频繁转换和更名,根据检索工具检索的结果并不一定就能获得相应的内容。
    ② 基于一个较广定义的检索项,往往会获得数以千万计的检索结果,而使用户难于选择真正所需的信息。
    ③ 每种检索工具虽然仅收集各自范围内的信息资源,但也难免使各种检索工具的信息资源出现交叉重复现象。
    3. 用户水平对信息检索的影响
    在 Internet 这个开放式的信息检索系统中,用户不仅要自己检索信息资源,同时还进行信息资源的收集、整理、存储工作。因此, Internet 用户的信息获取与检索能力对信息检索有着直接的影响。
    ① 用户对信息检索需求的理解和检索策略的制定关系到信息检索的质量。
    ② 用户的计算机操作能力及网络相关知识的掌握程度影响着信息检索的效率。
    ③ 用户对网络信息检索工具的应用熟练程度影响着信息检索的效果。
    用户的外语水平影响着信息检索的广度与深度。