欢迎您来到山东科技大学泰安校区图书馆! 2024-05-06 07:51:41 Monday

第四章 搜索引擎及其使用

来源: 教研室

 

第四章 搜索引擎及其使用
 
4.1 搜索引擎概述
 Internet 是一个广阔的信息海洋,漫游其间而不迷失方向有时会是相当困难的。如何快速准确地在网上找到需要的信息已变得越来越重要。搜索引擎( Search Engine )是一种网上信息检索工具,在浩瀚的网络资源中,它能帮助你迅速而全面地找到所需要的信息。
    4.1.1. 搜索引擎的定义
    搜索引擎是一种能够通过 Internet 接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统。它是一些在 Web 中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的 Web 网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务。一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词。当用户输入关键词( Keyword )查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接。搜索引擎既是用于检索的软件 ,又是提供查询、检索的网站。所以,搜索引擎也可称为 Internet 上具有检索功能的网页。
    搜索引擎也是目前 Internet 对信息资源进行组织的主要方式 。搜索引擎由网上机器人 (Spider 或 Robot) 自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引。由于不需要人们的介入 ,速度得以大大的提高。其覆盖面和及时性也得以大大的提高 。 Spider 或 Robot 是一种软件,它沿着 WWW 文件的链接在网上漫游,记录 URL 、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和 URL 、文件的大小、语种以及词出现的频率。它的运行方式为 :从一个或一组 URL 开始,访问该 URL 所指 HTML 文件中所有的 URL 锚链,然后再以这些新的 URL 为起始点,继续进行本地索引,直到再也没有满足条件的新的 URL 为止。在记录新的 URL 时,可以进行分析和判断,从中去掉不需要或不想要的 URL ,这不但提高了本地索引的速度,也减少了索引文件在本地所占用的磁盘空间,搜索引擎将 HTML 格式文件取到本地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分 ( 如关键字和一些指定词等 ) 存储到数据库中,形成本地查询数据库,以后再查时就不必到远地去重新获取 HTML 格式文件了 。
    搜索引擎的数据检索方式主要是关键字的匹配方式 , 如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式等 。能为用户提供全文索引、约束性检索、基于布尔关系的查询方式,并对查询结果根据某种算法和规则评分和排序。
    引擎系统虽然能在 WWW 信息资源范围内自动发现新的信息 ,对其所覆盖的资料进行自动更新 ,并根据检索规则和从其他服务器上得到的数据类型对其进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务 ,根据用户的请求返回相应的结果 ,但是由于系统需将 HTML 文件传送至本地然后分析,大量占用昂贵的网络带宽和 CPU 资源,资源消耗过大,增加被搜索结点的负担 ;又由于链路效率太低,对一些连接代价很大的获得索引,难免有不能及时加入的新 WWW 地址。
    此外,由于各搜索引擎标引方式没有统一的规范,有的对网页全文进行索引 ,有的仅标引网页的标题、 URL 、关键段落的前几个单词或文本的前 100 个词 ,生成关键词的技术也不一样 ,有的支持 MetaTags ,接受网页制作者自定义关键词和摘要,有的则不支持 MetaTags ,仅仅利用网页的前几行字作为摘要 。另外,搜索引擎大多采用自然语言标引和检索,没有受控词表,同义词和近义词得不到控制 ,词间的关系得不到揭示 。因此 ,搜索引擎的信息组织与标引缺乏控制 ,信息查询的命中率、准确率、查全率差强人意 ,往往是输入一个检索式,得到一大堆网页地址 , 但其中大部分是冗余信息。
    4.1.2. 搜索引擎的主要任务
    各种搜索引擎的主要任务都包括以下三个方面:
    ① 信息搜集。各个搜索引擎都派出绰号为蜘蛛 (Spider) 或机器人( Robots )的“网页搜索软件”,在各网页中爬行,访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,从而创建出一个详尽的网络目录。由于网络文档的不断变化,机器人也不断地把以前已经分类组织的目录更新。
    ② 信息处理。将“网页搜索软件”带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容。在进行信息分类整理阶段,不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异。有的搜索引擎把“网页搜索软件”发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址、篇名、特点的段落和重要的词。故有的搜索引擎数据库很大,而有的则较小。当然,最重要的是数据库的内容必须经常更新、重建,以保持与信息世界的同步发展。
    信息查询。每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径。分类目录查询是以资源结构为线索,将网上的信息资源按内容进行层次分类,使用户能依线性结构逐层逐类检索信息。关键词查询是利用建立的网络资源索引数据库向网上用户提供查询“引擎”。用户只要把想要查找的关键词或短语输入查询框中,并按“ Search ”按钮,搜索引擎就会根据输入的提问,在索引数据库中查找相应的词语,并进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链接形式)。用户只要通过搜索引擎提供的链接,就可以立刻访问到相关信息。
 
4.2 搜索引擎的种类
     WWW上有很多功能强大的搜索引擎,至今已有1000多个,且处于不断的发展中.为了便于使用,人们按照工作语种、内容组织方式及搜索范围等方式对它们加以区分。
    1.按工作语种区分
    搜索引擎按工作语种可以区分为下列类型:
    ① 单语种搜索引擎。单语种搜索引擎是指搜索时只能用一种语言查询的搜索引擎。
    ② 多语种搜索引擎。多语种搜索引擎是指那些可以用多种语言查询的搜索引擎。如“ Altavista ”,该网站可以用 25 种语言进行查询。
    2.按内容组织方式区分
    搜索引擎按内容组织方式可以区分为下列类型:
    ① 目录式搜索引擎(网站级)。目录式搜索引擎提供了一份按类别编排的 Internet 网站目录,各类下边排列着属于这一类别的网站的站名和网址链接,有些搜索引擎还提供了各网站的内容提要。
    目录式搜索引擎有两种基本类型 :一种是由主题专家日常建立和维护的学术性专业目录,以满足科研人员的需要;另一种是为普通大众和商人服务的商业目录。
    有相当一部分人没有使用目录式搜索引擎,其实,学术性专业目录所列出的网址,是经过仔细挑选和注释过的,有一定的质量保证,在使用因特网时,没有理由忽视目录式搜索引擎。当检索一个范围较广的题目,并希望浏览一下与该题目相关的、被推荐的网址时,目录式搜索引擎是会非常有用的,尤其适合那些“希望了解某一方面的信息,并不严格限于查询关键字”的用户。
    Yahoo!( http://www.yahoo.com/)是Web上最流行的目录式搜索引擎之一 ,是最大的商业目录,但对它的不足之处应有足够的认识。当使用 Yahoo!检索时,检索到的仅是标题和简短的描述语,并且Yahoo!倾向于索引较大网站的网页,因此,任何重要的较小网站的网页也许会消失在Yahoo!上。
        类似的还有中文搜狐( http://www.sohu.com.cn)、雅虎中国简体版(http://cn.yahoo.com/)与繁体版(http://chinese.yahoo.com)等等
    ② 全文搜索引擎(网页级)。当全文搜索引擎搜索到一个网站时,会将该网站上所有的文章(网页)全部记录下来,并收入到引擎的数据库中。只要用户输入查询的关键词在引擎数据库中的某个主页中出现过,则这个主页就会作为匹配结果提供给用户。
    3.按搜索范围区分
    搜索引擎按搜索范围可以区分为下列类型:
    ① 独立搜索引擎。这类搜索引擎检索时只在自己的数据库内进行,由其反馈出相应的查询信息,或者是相链接的站点指向。每个独立的搜索引擎都会有自己的查询特色,例如:目录查询、全文查询、简单查询、高级查询等。目前常见的搜索引擎如 Yahoo! , AltaVista , Excite , Infoseek 等,都属于这一类。
    ② 多元搜索引擎。多元搜索引擎又称集成搜索引擎或元搜索引擎。它是将多个独立搜索引擎集合在一起,提供一个统一的检索界面,当用户提出检索提问后,它会将其发送给多个搜索引擎,同时检索多个数据库,并进行相关度排序后,将结果显示给用户。利用这类搜索引擎能够获得更大范围的信息源,检索的综合性、全面性也有所提高。不过这样的搜索引擎的缺点是查询时间相对较长。
    比较著名的元搜索引擎有
    1.Vivisimo http://www.vivisimo.com/
    调用多种搜索引擎,并对返回的结果自动分类,界面友好,简单易用。
    2.Mamma http://www.mamma.com
    1996年面世,自称为“搜索引擎之母”的并行元搜索引擎,可同时调用7个最常用的独立搜索引擎,并且可查询网上商店、新闻、股票指数、图像和声音文件等资源。其特点是检索界面友好,检索选项丰富,主要包括:可控制调用的独立搜索引擎、选择使用短语检索功能、设定检索时间、设定每页可显示记录数等。另外,Mamma支持常用检索语法在不同搜索引擎中的转换,还提供了专门检索页面文件标题的特殊检索服务,以及通过E-mail传输检索结果的特色功能。检索结果以相关性排序,内容包括网页名称、URL、文摘、源搜索引擎。
    3.EZ2WWW http://www.ez2www.com/
    调用AllTheWeb, AltaVista, Google, Open Directory, Teoma, Wisenut and Yahoo等搜索引擎,高级搜索功能提供1000多种专项资源检索,可进行目录检索。
 
4.3 主要的英文搜索引擎
目前, Internet 上的搜索引擎有数百个,比较有影响的英文搜索引擎有 Yahoo ! AltaVista 、 Excite 、 Infoseek 、 Lycos 、 Google 等。掌握它们的使用方法,对快速有效地查询网上信息资源会有很大帮助。
       4.3.1 GOOGLEWWW.GOOGLE.COM
     Google成立于1998年,几年间迅速发展成为目前规模最大的搜索引擎,并向Yahoo、AOL等其他目录索引和搜索引擎提供后台网页查询服务。目前Google每天处理的搜索请求已达2亿次!而且这一数字还在不断增长。Google数据库存有30亿个Web文件。属于全文(Full Text)搜索引擎。Google允许以多种语言进行搜索,在操作界面中提供多达30余种语言选择,包括英语、主要欧洲国家语言(含13种东欧语言)、日语、中文简繁体、朝语等。同时还可以在多达40多个国别专属引擎中进行选择。Google股票2004年8月19日在纳斯达克市场上市,发行价为85美元.美国东部时间10月21日(北京时间10月22日)消息,受到第三财季好得出奇的业绩的刺激,Google公司的股价周五再创历史新高346.43美元,其市值短暂跨越1000亿美元。这个市值不仅是竞争对手雅虎的两倍,比创建66年的惠普公司还高出200亿美元。
 
    图 4-11 中文google首页

一:Google传统搜索服务
1,文件类型限定检索:
     Google已经可以支持13种非HTML文件的搜索。除了PDF文档,Google现在还可以搜索Microsoft Office (doc, ppt, xls, rtf) 、Shockwave Flash (swf)、PostScript (ps)和其它类型文档。新的文档类型只要与用户的搜索相关,就会自动显示在搜索结果中。
举例:
计算机网络 filetype:ppt
东北人都是活雷锋 filetype:swf
site:wh.sdu.edu.cn filetype:swf
site:wh.sdu.edu.cn filetype:doc 山东大学威海分校
site:wh.sdu.edu.cn filetype:jpg 校园风光
2,英汉互译
     Google 给中英文单词互译带来了极大的方便。您只需输入一个关键词(“翻译”,“fy” 和“FY” 任选其一)和要查的中 (英) 文单词,Google返回的网上字典链接让您即刻便可知道您要查的词的英文(或中文)翻译。如果是中译英,Google还会直接显示您要查的单词的英文释义。
举例: 翻译 字典; fy apple
3, 英文在线词典.
     通过“使用偏好”设置进入英文Google界面,输入你要查的单词。举个例子,我想查一下suggest的用法。命中结果页面的右上方单词suggest下出现了一个横线,点击这个链接,就跳转到另外一个网站“http://www.dictionary.com/”,Google已经把单词提交给该网站的查询脚本。看看这个网站所提供的详尽解释。 (仅用于英文google)
4,集成化的工具条方便搜索。
     Google提供了工具条,集成于浏览器中,用户无需打开Google主页就可以在工具条内输入关键字进行搜索(图4-12)。此外,工具条还提供了其他许多功能,如显示页面PageRank等。最方便的一点在于用户可以快捷的在Google主页、目录服务、新闻组搜索、高级搜索和搜索设定之间切换。欲安装Google的工具条,可以访问“http://toolbar.Google.com/”,按页面提示可以自动下载并安装。不过,Google工具条目前只支持IE5.5以上版本。
 
 图 4-12 Google工具条
5,天气查询
    天气情况也是人们经常要查询的信息之一,Google提供的天气查询来自于一个更新及时的中文气象网站,适合中国人使用。用户输入中文和英文都可以查询,例如要了解奥运会期间雅典的天气情况,可以按照下列方法输入:雅典 天气 或 athens tq返回的查询结果中会在第一条出现一个“雅典天气预报”,用户点击后就可以看到当天雅典的天气情况。如果地名相同者,用户还需要进行一次选择。
二:Google新的搜索服务
1Google Maps http://maps.google.com
    Google Maps是Google公司提供的地图服务(见图4-12-1),包括局部详细的卫星照片。2005年6月20日,Google Maps的覆盖范围从原先的美国、英国及加拿大扩大为全球。它能提供两种图:一是矢量地图;二是不同分辩率的卫星照片(跟Google Earth上的卫星照片基本一样)。目前国内可以搜索到Beijing、Shanghai等大城市的卫星地图。现在Google Maps仍处于测试阶段。
图 4-12-1  Google Maps
提供两个国内城市卫星图片链接,更多的可自己搜索获取:
图 4-12-2 Google Maps--北京天安门
2.Google 本地搜索 http://bendi.google.com/
    Google 本地搜索是一种 Google 搜索服务(见图4-12-3),其功能是帮助您查找位于某个特定地理位置的公司。通过 Google,您可以搜索万维网;而通过 Google 本地搜索,您可以找到一家步行就可以到达的汽车零部件商店。Google 本地搜索现在包括77个城市的地图信息和多于100个城市的黄页信息。由于该产品仍为测试版本,某些城市的数据量没有另外一些城市的数据量大。跟详细使用帮助可以参考:http://bendi.google.com/help/faq_local.html
图 4-12-3 Google 本地搜索
3. Google 视频搜索 http://video.google.com/
    Google在庆祝其7岁生日之际,也顺便的对其视频搜索服务进行了修补(见图4-12-4),Google video目前可以在浏览器一个大的视频窗口中提供视频搜索回放,免去了以前需要下载完才能认知是否符合自己需要的痛苦。在视频窗口的下面是对该视频片段的简要的概述,包括长度,并且将数据链接到了原始的网站上。
 
图 4-12-4 Google 视频搜索
4.Google桌面搜索 http://desktop.google.com/
    通过 Google 桌面,可以轻松访问计算机和网上的信息(见图4-12-5)。 这款桌面搜索应用程序能够对电子邮件、计算机文件、音乐、照片、聊天记录以及浏览过的网页进行全文搜索。通过搜索您的计算机,Google 桌面使您轻松将信息纳入搜索范围内,而不必手动组织文件、电子邮件和书签。 用它来搜索计算机如同使用 Google 搜索网络一样方便。Google 桌面不仅能搜索您的计算机,而且还能使用补充工具栏从网上收集新的信息。补充工具栏是 Google 桌面的新增功能,用于显示您的新邮件、天气情况和股票信息、个性化新闻和 RSS/Atom 供稿源及其他信息。 补充工具栏可自动进行个性化设置,无需任何手动配置(当然,您也可以根据需要自行定制)。
 
图 4-12-5 Google 桌面搜索
5.Google学者 http://scholar.google.com/
    Google Scholar专为学术领域准备,搜索内容包括论文、书籍、预稿、摘要以及技术报告等(见图4-12-6)。通过Google Scholar,你可以搜集来自全美出版商、专业机构以及大学的学术资料。
图 4-12-6 Google 学者搜索
三:Google 在其它领域的延伸
1.Google 邮箱服务 http://www.gmail.com
    2004年四月Google率先推出1GB超大容量的免费电子邮件服务「Gmail」(见图4-12-7),更是直接挑战其他免费或收费E-mail服务公司,Gmail 是一种新型的 Webmail,能够给用户带来全新的体验。它基于这样一个理念,即您无需删除邮件,而且始终可以找到您需要的邮件。Gmail的邮箱界面干净整洁,而且没有广告。虽然目前是Gmail的测试阶段,但它的官方信息已经表示今后不会在邮箱中放置影响用户操作的干扰广告,只会放置文字链接广告。免费邮箱能做到这一点已经很不错了。到目前为止,Gmail仍处于Beta测试阶段,尚未全球开放大众使用,需要现有用户的邀请才能注册账户。
 
图 4-12-7 Google gmail
2.Google Talk http://www.google.com/talk/
    Google Talk是Google公司于2005年8月24日推出的一款实时通讯工具(见图4-12-8)。支持文字信息、电子邮箱以及网络语音交流三种通讯方式。Google Talk是采用开源的Jabber/XMPP client 的开放通用标准,该标准可以通过协议与众多的IM软件互联互通,这在IM发展路程上也是一个重要的改变。 Google Talk与Gmail进行了整合,使要用Google Talk,必须有Gmail的帐号,用Gmail帐号直接登录。并支持检查Gmail信件。现在Goolgle Talk正处于测试阶段。
图 4-12-8 Google gmail
4.3.2 Yahoo !(http://www.Yahoo.com
    Yahoo !是 Internet 上最受欢迎的搜索引擎,也是访问频率最高的一个门户网站。它是由美国斯坦福大学的华裔博士杨致远与他的同学 David Filo 于 1994 年开发的,目前,由美国多家公司与个人资助。 Yahoo! 具有覆盖范围广、连接速度快、数据容量大、使用方法简单等特点;提供了两种模式的检索方式:分类目录检索和关键词检索。其主页如图 4-1 所示。
    1. 分类目录检索
    Yahoo !主页的顶端是一些常用的的链接,例如购物、黄页、寻人、城市地图与旅行社等;主页的底部是 Yahoo !自己的链接,例如 Yahoo !在其他国家的站点;主页的中部是 Yahoo !的分类目录,它按内容分为 14 个大类: Arts&Humanities( 艺术与人文科学 ) 、 Business&Economy (商业与经济)、 Computer&Internet( 计算机与因特网 ) 、 Education( 教育 ) 、 Entertainment( 娱乐 ) 、 Government( 政府 ) 、 Healthy( 健康 ) 、 News&Media( 新闻与媒体 ) 、 Recreation&Sports( 休闲与体育 ) 、 Reference( 参考资料 ) 、 Regional( 地区 ) 、 Science ( 科学 ) 、 Social Science( 社会科学 ) 、 Society&Culture( 社会与文化 ) 。每个大类又分若干小类,每个小类有数以千计的相关网站与网页信息。用户可以根据要查找的内容所属的类目,选择分类目录中的某一类或者某类下的一个小类。例如,要查找多媒体技术方面的信息,首先在 Yahoo !主页的分类目录中选择“ Computer&Internet ”大类,进入有关计算机领域的页面。在该页面中,列出计算机领域的多个小类,如 Art , Bibliographies , Commtimedia 等。点击“ Multimedia ”,将会进入有关多媒体技术的页面。
 
     图 4-1 Yahoo !主页
    2. 关键词检索
    如果用户知道自己要查找的主题概念,就可以使用 Yahoo !的关键词检索方式。直接在检索框中输入关键词,然后单击右侧的“ Search ”按钮或按回车键, Yahoo !会找出满足检索条 件的记录,并出现搜索结果返回页。
    在搜索结果返回页中,包括以下五方面的信息:
    (1) 满足搜索条件的 Yahoo !分类目录( Categories );
    (2) 满足搜索条件的站点链接( Web Sites );
    (3) 含有页面索引的 Yahoo !分类目录( Web Pages );
    (4) 满足搜索条件的新闻文章列表( Related News Stories );
    (5) 满足搜索条件的网络事件列表( Net Events );
    在搜索结果返回页底部给出了其他搜索引擎的链接点,当用户对 Yahoo !的搜索结果不满意时,可以启动其他搜索引擎搜索同一个关键词。在搜索结果返回页的底部,还有一个文本输入框,通过它可以进行其他搜索工作。
    Yahoo !的搜索引擎还支持一些特定的操作符,用于对查找的内容进行限定,其用法参见表 7-1 。
    3. 高级检索
    在 Yahoo !主页中,点击“ Search ”按钮右侧的“ Advanced ”链接,进入 “ Advanced Web Search ” 页面(见图 4-2 )。
 
    图 4-2 “ Advanced Web Search ”页面
    在该页面中,用户可以对搜索范围和结果加以限制。在 “ Advanced Web Search ” 页面中,用户可以选择四种搜索方式:
    ① 完全匹配 Show results with all of these words 。如果输入的检索词由几个单词组成,则搜索结果必须包含输入的所有单词。相当单词间的“与”关系。
    ② 精确检索 Show results with the exact phrase 。将输入的检索词作为一个完整的词组,搜索结果中必须包含准确短语。
    ③ 任意匹配 Show results with any of these word 。如果输入的检索词由几个单词组成,则搜索结果只需包含其中某个单词。相当单词间的“或”关系。
    ④ 排除检索 Show results with none of these word。如果输入的检索词由几个单词组成,则搜索结果中一定不包含“-”后面的那些单词。
    Yahoo !使用的操作符及示例
    操作符 作 用 示 例
    “”
    将引号中的检索项作为一个固定词组来搜索。
    输入“ Computer Network ”,则在搜索结果中 Computer Network 必须作为词组出现。
    *
    用在词干后,搜索出同一词干的所有结果。
    输入 Comput* ,则搜索出 Computer 、 Computing 、 Computation 等以 Comput 开头的单词。
    +
    用于检索词前,表示该检索词必须出现在检索结果中。
    输入 +Movie ,则检索结果必须包含 Movie 。
    —
    用于检索词前,表示该检索词不能出现在搜索结果中。
    输入― Violence ,则搜索结果一定不包含 Violence 。
    t
    仅限定在网页标题中搜索。
    输入 t : Football ,则搜索出只在网页标题中包含 Football 。
    u
    仅限定在网址中搜索。
    输入 u : Art ,则搜索出只在网址链接中包含 Art 。
    在“ Advanced Web Search ”页面中 ,可以选择两种搜索范围:
    (1) Updated 可以指定搜索的时间范围,包括任何时间、三个月、六个月或一年。
    (2) Site/Domain 可以在一个专门网址或最高域中搜寻结果。
 
    4.3.3 AltaVista http://www.altavista.com
    AltaVista 是由前 DEC 公司于 1995 年开发的,是 Internet 上最大的搜索引擎,在它的搜索数据中包含了 2,200 万个主页、 3,000 万个 URL 和 13,000 个新闻组的全文信息。 Alta Vista 的搜索范围非常大,就连一些鲜为人知的偏僻站点也能找到,因此它的搜索结果十分丰富。所以,使用 AltaVista 时,用户需要花更多的时间在搜索结果中寻找自己想要的信息。
    AltaVista 主页提供两种检索模式:分类目录检索和关键词检索。关键词检索模式又分为简单检索与高级检索两种方式。
 
    图:4-3 AltaVista 主页
    1. 分类目录检索
    AltaVista 支持分类目录检索,用户可以根据要查找内容在分类目录中选择相应的类目,点击后出现该类目所包含的子类,这样只要逐级点击相应的类目便可检索到所需的信息。例如,要检索有关 Intranet 技术的站点,可依次选择 Computer & Internet → Network &Communication → Intranet → Technology ,单击最后一级目录中的“ Technology ”链接项,就会列出一系列有关 Intranet 技术的站点链接。
    2. 简单检索
    使用简单检索方式,只需直接在检索文本框中 ( 即在 “ Find this ” 主题输入框 )键入检索词,检索词可以是单词、词组或短语,然后点击“ Search ”按钮或按回车键, AltaVista 就会在数据库中找出满足检索条件的记录,显示在检索结果返回页。在检索结果返回页中,列出了所有符合检索条件的主页,如果主页数量很多,可能会分为几个页面显示。在检索文本框下面,给出了一些与检索词相关的链接,用户还可以通过这些链接从不同方面进行搜索。
    如果需要对检索的内容加以限制,可以在进行检索输入时采用以下方法:
    ① 如果用户先在“Language drop-down menu” 语言下拉菜单中选择某种语言,然后输入检索词进行搜索,则在搜索结果中只显示用该语言编写的站点。该菜单有25种语言供选择,通过它可限制所搜索文献的语种,包括中文。
    ② “ Find results on ” 检索限定,主题输入框下圆形按钮,用来指定搜索范围,可限定在Web、新闻、讨论组或产品等某一个或某几个区域搜索,缺省值是 ” The Web ”
    ③ 如果输入的检索词全是小写字母,则 AltaVista 会对大写和小写字母都进行搜索;如果检索词中包含大写字母,则只对大写字母进行搜索。
    ④ 如果在检索词前加“ + ”,则该单词一定要出现在搜索结果当中;如果在检索词前加“―”,则该单词一定不能出现在搜索结果中。如要查找国外经济学教育的资料,可键入: Education + econom* - China
    ⑤ 如果检索词后加通配符“ * ”,则会搜索到以该词为相同词根的多个单词。例如,键入 big*,将搜索出big、 bigger、 biggest、 bigwig.
    ⑥ 如果要对搜索结果进一步细化,可以单击“ Refine Your Search ”链接,这时会出现 AltaVista 的细化页面。在该页面中,显示了各类信息在搜索结果中所占的比例。用户可以在每类信息前选择“ Require ”或“ Exclude ”,要求在细化过程中保留或排除这类信息。还可以使用“ Refine Again ”按钮再次进行细化。
    AltaVista 简单检索可使用自然语言作为检索提问,如想查找美国现任总统布什的资料,可键入 ”Where can I find information about George W. Bush?” ;还可使用词组检索,当用词组检索时,要用“”将词组包括起来,如“ electronic commerce ”引号中的内容作为字符串进行匹配,也可用标点符号或下划线、圆点等一些特殊符号创立一个词组。
    3. 高级检索
    要使用高级检索方式,可以单击 AltaVista 主页中的“ Advanced ”链接,会进入高级检索页面。该页面提供有搜索时间、检索结果排序等选择项。
    AltaVista 高级检索支持布尔逻辑运算符并允许构建更为复杂的检索表达式。表 4-3 介绍了 Altavista 采用的布尔逻辑运算符。如果使用括号将运算符组合使用,则可以使布尔表达式更加丰富。
    表 4-3 Altavista 的布尔逻辑运算符
    运算符 替代符 功能描述
    AND & 逻辑“与”,查找包含所有指定单词的主页。
    OR ︱ 逻辑“或”,查找至少包含一个指定单词的主页。
    NOT ! 逻辑“非”,查找不包含其后的指定单词的主页。
    NEAR/n ~ 邻近检索,查找包含指定的两个单词的主页,在两个单词之间间隔的单词数不能超过 n 个。
    4.特殊检索
    AltaVista 不仅支持文本信息的检索,还支持一系列特殊检索方式。表 4-4列出了特殊检索的操作符及其功能。
    表 4-4 Altavista 的特殊检索操作符
    操作符 功能描述
    Domain :域名 在指定域中搜索主页。例如,输入 domain:cn ,表示在中国域中进行搜索。
    Host :主机名 在指定主机中搜索主页。例如,输入 host:www. altavista.com ,表示在 altavista 主机中进行搜索。
    Image :文件名 搜索包含指定图像文件名的主页。例如,输入 image:fish ,表示搜索包含名为 fish 的图像文件的主页。
    Link : URL 搜索包含指定链接的主页。例如,输入 link : www.altavista.com ,表示在所有链接到 altavista 的主页中进行检索。
    Text :文章 搜索包含指定文本的主页。例如,输入 text : football ,表示搜索所有包含 football 的主页。
    Title :文本 搜索标题中包含指定文本的主页。例如,输入 title : computer ,表示搜索在标题中包含 computer 的主页。
    url :文本 搜索 URL 中包含指定文本的主页。例如,输入 url : home ,表示搜索在 URL 中包含 home 的主页。
   
    4.3.4 Excite http://www.excite.com
    Excite 是 Internet 上的一个经典的搜索引擎,也是最受欢迎的搜索引擎之一。它收集了 5000 万个网页信息,其网页索引是一个全文数据库。 Excite 最大的特点是提供概念检索,即搜索引擎不仅查找包含关键词的主页,还查找包含与关键词有关的概念的主页。 Excite 主页(见图 4-4 )提供了两种检索方式:分类目录检索与关键词检索。
     图 4-4 Excite 主页
    1. 分类目录检索
    Excite 支持分类目录检索方式,在该主页中部列出了分类目录。用户可以根据查找内容的类别在分类目录中选择相应的类目,系统会显示该类目中包含的所有子类。经过多次选择后,就可以访问到包含查找内容的站点。
    2. 关键词检索
    要使用关键词检索方式,可以在检索文本框中键入关键词,然后点击“ Search ”按钮, Excite 在数据库中查找与关键词相匹配的记录,然后进入搜索结果显示页。在搜索结果显示页中,列出了所有符合检索条件的记录。
    Excite 与其他搜索引擎类似,可以使用“ + ”与“ - ”指定或排除某个单词,也可以使用布尔逻辑运算符 AND , OR , NOT 以及括号构成复杂的检索表达式。为了从众多的搜索结果中找到自己所需要的信息,还可以对搜索结果进行细化和设定搜索范围等。
    4.3.5 Lycos http://www.Lycos.com
    Lycos 创立于 1995 年,是 Internet 上资格最老的搜索引擎之一。它的特点是功能强大,搜索范围广。 Lycos 几乎覆盖了 Internet 上 90% 的主页,可以进行包括 WWW 、 FTP 与 Gopher 等多种服务的搜索。由于 Lycos 的学术背景,它可以搜索到其他搜索引擎找不到的偏僻站点,比如一些面向教育或非赢利组织的站点。 1999 年 11 月, Lycos 与新加坡电信合资建立“ Lycos Asia ,”为新加坡、中国(以及香港、台湾地区)、印度和东南亚等 9 个国家与地区提供区域性搜索服务。 Lycos 中文网址是 http: //cn.Lycosasia.com
    Lycos 主页(见图 4-5 )提供分类目录检索、关键词检索和一种称为 TOP 50 Websites 的主题目录服务。
     图 4-5Lycos 主页
    1. 分类目录检索
    Lycos 的分类目录位于其主页中部。用户根据所要查找的内容所属类别在分类目录中选择对应类目,点击后, Lycos 会显示该类目中所包含的所有子类,依次选择下去,直至访问到包含查找内容的站点出现。
    2. TOP 50 Websites 主题目录
    Lycos 提供了一种很有特色的服务— TOP 50 Websites 主题目录,它是 Internet 中最早而且最优秀的主题目录。 TOP 50 Websites 主题目录中所列的站点是由专家精心挑选的各类优秀站点,它是浏览和查询专业站点的最佳途径。在 Lycos 的“分类目录”检索页面中,可以看到“ Lycos Top 50 ”链接,点击该链接就可以进入图 6-5 所示的主题目录页面。如果在该页面中选择 Education 连接,就会进入显示教育方面的优秀站点的页面。
    3. 关键词检索
    使用关键词检索的方法是,在 Lycos 主页上部的 “ Search for ”检索文本框中键入关键词,然后点击该框右侧的“ Go Get It !”按钮。 Lycos 在其数据库中查找与输入关键词匹配的记 录,然后进入检索结果显示页。在检索结果显示页中,分别显示四类结果信息:
    ① 满足检索条件的分类目录( Categories );
    ② 满足检索条件的站点链接( Web Sites );
    ③ 满足检索条件的新闻与媒体( News&Media );
    ④ 满足检索条件的 Web 页面( Web Pages );
    如果想有效地使用 Lycos ,就必须了解 Lycos 提供的各种操作符及其它们的功能,如表 4-7 所示。
 
    表 4-7Lycos 的操作符及功能
    操作符 功能描述
    “ ” 将引号中的检索词作为词组搜索。
    + 加号“ + ”后的检索词必须出现在搜索结果中。
    - 减号“ - ”后的检索词不能出现在搜索结果中。
    AND 逻辑“与”,查找包含所有指定单词的页面。
    OR 逻辑“或”,查找包含至少一个指定单词的页面。
    NOT 逻辑“非”,查找包含 NOT 前单词,但排除 NOT 后单词的页面。
    BEFORE 查找包含指定的两个单词的页面,而且前一个单词一定要在后一个单词之前。
    NEAR/n 查找包含指定的两个单词的页面,在这两个单词之间插入的单词数不得超过 n 个。
    ADJ/n 查找包含指定的两个单词的页面,在这两个单词之间插入的单词数要等于 n 个。
    FAR/n 查找包含指定的两个单词的页面,在这两个单词之间插入的单词数不能少于 8 个。
    $ 截词符,查找包含以该词为词根的所有单词的页面。
    4. 高级检索
    高级检索的用法是,单击 Lycos 主页中检索输入框下方的“ Advanced Search ”链接,进入“高级检索”页面,如图 4-8 所示。
    在高级检索页面中,用户可以通过 Lycos 提供的各种选择项来优化检索结果:
    ① 选择搜索方式: 有 4 种可供选择的搜索方式, 默认为“ any of the words ”,通过它用户可以使用特定的高级搜索选项。
    ② 限定 搜索域:检索的结果限定在规定的域中。
    ⑶ 选择搜索语言:有 34 种可供选择的搜索语言,默认为“ All language ”,通过它可以搜索用特定语言编写的页面。
    ④ 搜索结果的过滤。
    图 4-6 Lycos 的高级检索页面
 
4.4主要的中文搜索引擎
 4.4.1 百度 (http://www.baidu.com
    目前百度是世界上规模最大的中文搜索引擎。于 1999 年底由李彦宏及徐勇创建于美国硅谷。2000年1月,百度公司在中国成立了她的全资子公司百度网络技术(北京)有限公司,随后于同年10月成立了深圳分公司,2001年6月又在上海成立了上海办事处。2005年8月5日晚11点40分,百度公司正式在美国NASDAQ挂牌上市,目前市值约30多亿美元。
    4-13 百度 搜索引擎页面
    百度搜索引擎简要说明
    1.使用两个以上检索词的检索逻辑
    ① 逻辑“与”
     百度的逻辑“与”使用词间空格,即,检索词之间留一个空格,其含义为使空格前后的两个检索词在同一个网页中出现。输入以空格分割的多个检索词搜索,可以获得更丰富的搜索结果。例如,搜索 [ 数字 图像 处理 ] ,可以找到数十万篇网页。而搜索 [ 数字图像处理 ] ,则只有严格含有 " 数字图像处理 " 连续 6 个字的网页才能被找出来。因此,要查的检索词较为冗长时,应将它拆成几个检索词来搜索,词与词之间用空格隔开。不过,多数情况下,输入两个检索词搜索,就已经有很好的搜索结果。
    ② 逻辑“或”
     逻辑“或”用于扩展检索范围。百度的逻辑或使用 "|" 。例如:要查询 " 图片 " 或 " 写真 " 相关资料,无须分两次查询,只要输入 [ 图片 | 写真 ] 搜索即可。百度会提供跟 "|" 前后任何检索词相关的网站和资料。
    ③ 逻辑“非”
     逻辑非用于排除含有某些词语的资料,以缩小查询范围。百度的逻辑非使用 "-" ,但减号之前必须留一空格,语法是 "A -B" 。例如,要搜寻关于 " 武侠小说 " ,但不含 " 古龙 " 的资料,可使用 [ 武侠小说 -古龙 ]
    2.限定字段检索
    ① 在指定网站内搜索
    有时候,你如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式是在查询内容的后面加上“site:站点域名”。
例如,天空网下载软件不错,就可以这样查询:msn site:skycn.com 注意,“site:”后面跟的站点域名,不要带“http://”和“/”符号;另外,site:和站点名之间,不要带空格。。
    ② 在标题中搜索
    网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。使用的方式是把查询内容中特别关键的部分用“intitle:”领起来。
例如,找林青霞的写真,就可以这样查询:写真 intitle:林青霞
注意,intitle:和后面的关键词之间,不要有空格。
    ③ 在网址中搜索
    网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url中出现的关键词。
例如,找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao
上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。
注意,inurl:语法和后面所跟的关键词,不要有空格。
    ④精确匹配——双引号
    如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。如果您对这种情况不满意,可以尝试让百度不拆分查询词。给查询词加上双引号,就可以达到这种效果。
例如,搜索 上海科技大学 ,如果不加双引号,搜索结果被拆分,效果不是很好,但加上双引号后,“上海科技大学”,获得的结果就全是符合要求的了。
    3.百度的特色功能
    ①天气查询
    使用百度就可以随时查询天气预报。再也不用四处打听天气情况了。在百度搜索框中输入您要查询的城市名称加上天气这个词,您就能获得该城市当天的天气情况。例如,搜索“北京天气”,就可以在搜索结果上面看到北京今天的天气情况。百度支持全国多达400多个城市和近百个国外著名城市的天气查询。
    ②专业文档搜索
    很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在。百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行了全文搜索。要搜索这类文档,很简单,在普通的查询词后面,加一个“filetype:”文档类型限定。“Filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型。
    例如,查找计算机网络方面的论文,可以输入检索式“计算机网络 filetype:doc”,点击结果标题,直接下载该文档,也可以点击标题后的“HTML版”快速查看该文档的网页格式内容。
您也可以通过 百度文档搜索 界面(http://file.baidu.com) ,直接使用专业文档搜索功能。
    4.百度其它搜索服务
    ①百度地图搜索 http://map.baidu.com/
    百度联合国内知名的电子地图服务提供商MAPBAR.COM推出的本地化地图搜索服务。通过百度地图搜索,您可以找到指定的城市、城区、街道、建筑物等所在的地理位置,也可以找到离您最近的所有餐馆、学校、银行、公园等等。百度地图搜索还为您提供了路线查询功能,如果您要去某个地点,百度地图搜索会提示您如何换乘公交车,如果您想自己驾车去,百度地图搜索同样会为您推荐最佳路线。
    更详尽介绍请参考:http://www.baidu.com/search/map_help.html
    ②百度手机 http://mobile.baidu.com/
    百度手机汇集了国内多家移动增值服务提供商提供的移动增值产品资源,面向所有手机移动终端用户提供检索服务。热门铃声、亲情点歌、缤纷彩铃、热辣彩图、传情动画、时尚资讯,为手机娱乐、手机生活增添更加精彩的一笔。
    ③百度影视 http://movie.baidu.com/
    百度影视是百度汇集了国内多家著名宽频影视服务提供商的影视片资源,面向互联网所有用户提供宽带视频检索服务。网民注册后可以通过百度影视搜索到上万部影片、专题片及电视剧,并可在线观看或下载观看。此次推出的百度影视实行包月注册方式,用户登陆影视搜索页面,通过银联或银行进行网上支付。包月费用为每月30元。    
    4.4.2 一搜( http://WWW.YISOU.COM
    一搜(yisou.com)是雅虎公司基于全球领先的YST(Yahoo Search Technology)技术,在中国推出的独立搜索门户。一搜于2004年6月21日正式发布,具有简洁专业、海量、客观精准、国际化、稳定等特质,是值得依赖的专业搜索门户。
  一搜的产品特色
     海量:
     可以搜索全球50亿网页,5.5亿图片,1000万音乐,网页搜索支持38种语言,居国际领先水平
     客观精准:
     先进的搜索分析与排序技术(而非人工干预)保证了结果的客观与精准。搜索技术相关性分析是利用文本、来源、相关链接及其他特定文件的特征进行分析,以决定文件与查询的相关性。YST不仅对网页内容分析,而且分析链接结构及查询意图(linkflux技术),这种新的搜索方式更加适合越来越复杂、变化多样的网络。这一技术在同行业中非常独特。
    国际化:
     一搜强大的根基——雅虎YST技术,是雅虎花重金打造的领先的搜索技术。在过去的两年中,雅虎公司用26亿美金收购了5家国际知名搜索服务商: Inktomi(著名的互联网搜索结果提供商,MSN, Amazon, eBay搜索服务提供商), Overture(全球最大的搜索广告商务提供商), Fast, Alta Vista, Kelkoo(欧洲第一大竞价网站)。在美国总部,有400余名资深工程师组成的YST全球核心开发团队,其中博士70余名。很多team leader都是华人。
    一搜拥有庞大的网页库,并提供38种语种搜索,如当用户打入韩文关键字,会发现大量韩文搜索结果。
     稳定:
     雅虎公司正在将全球中文服务器群(1000余台服务器)迁至中国。此举措将保证国内用户享受到国内最快最稳定的搜索服务。这也是国内其它搜索服务商无法比拟的技术投资优势。
图 4-14 一搜 搜索引擎主页
     一搜的图片搜索具备翻译后搜索全球图库的功能,既将输入的中文字符翻译成英文单词然后自动在全球图库中搜索,见下图所示:
默认在中文图库中搜索:
 
    更多一搜的使用技巧请见http://music.yisou.com/help.html/
    4.4.3 天网搜索 (http://www.tianwang.com)
    天网搜索(http://www.tianwang.com)的前身是北大天网(http://e.pku.edu.cn)。北大天网由北京大学网络实验室研究开发,是国家重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果。北大天网于1997年10月29日正式在CERNET上向广大互联网用户提供Web信息搜索及导航服务,是国内第一个基于网页索引搜索的搜索引擎。北大天网见证了中国互联网和中文搜索引擎发展的历史并参与其中,她是国内中文搜索领域的一面旗帜!
 
    4-15 天网搜索引擎页面
   1、WWW 检索
    ① 简单查询
    在“天网”主页(见图4-16)上,用户在文本框中输入想要查询的关键词,然后按下“搜索”按纽。
    ② 复杂查询
    用户可以对多个查询词进行逻辑操作实现复杂查询, WWW 查询支持下面三种逻辑操作:
    ● “ & ”,用“ A&B ”进行查询的结果是既包含查询词 A 又包含查询词 B 的文章。
    ● “ - ”,用“ A-B ”进行查询的结果是包含查询词 A 而不包含查询词 B 的文章。
    ● “ | ”,用“ A | B ”进行查询的结果是至少包含 A 和 B 中一个查询词的文章。
    对于空格分开的查询词与用 & 分开的查询结果一样。
    2、FTP 检索
    天网文件搜索即搜索ftp文件也搜索www文件。天网文件搜索引擎已经是国内最为大型的ftp搜索引擎,也是国际上名列前茅的ftp搜索引擎,目前搜集了2万多个ftp站点,为2000万文件条目建立索引,目前天网搜索引擎维护的文档数量达到6亿之多,并正在以平均每月一千万页文档的数量扩大着规模。天网搜索的中文文档数量超过4亿,其中包括html、txt、pdf、doc、ps、ppt等多种类型的文档和资源。
       在天网主页点击“资源”进入 FTP 检索页面(见图4-16-1)。
4-16-1 天网ftp搜索引擎页面
     ● 按类别搜索文件。在输入框里输入如上说明的匹配串,点击“分类搜索”下的各种类型,如“图像”、“音乐”、“电影”、“压缩”、“文档”、“程序”、“目录”、“源码”,则搜索引擎在指定的类型里搜索文件。比如点击“图像”,则在所有的图像文件里查找与匹配串相符的文件。
    ● 使用资源分类列表。天网搜索引擎为用户常用的搜索提供了快捷方式,使用起来极为简单,直接选择网页下方分类列表中你感兴趣的内容即可。目前提供了四种常见分类影视、音乐 、软件 、游戏。
    4.4.4 SOGUA搜索(http://www.sogua.com
   SoGua.com 是以音乐为主题的娱乐性专业网站,不仅是国内最大的娱乐资源平台,也是全球最知名的音乐搜索引擎之一。
图 4-14 SOGUA 搜索引擎主页
    一、基本搜索
    SoGua的搜索引擎提供方便快捷的查询界面,仅需选定您所要找的搜索类型,再在搜索框中输入搜索内容并敲一下回车键(Enter),或单击"Go"按钮即可帮助您找到最想要的内容。
    操作步骤:
1.选定"搜索类型",例如:音乐、电影、游戏、翻唱、专辑、歌词、软件、flash。
2.在"搜索文本框"中输入"搜索关键词"。
3.单击"搜索"按钮。
4.在"搜索显示页"中会出现您所搜索对象的结果列表。 
    二、搜索关键词
1.关键词:就是您输入搜索框中的文字,也就是您想寻找的东西。
2.关键词可以是任何中文、英文、或中文英文数字的混合体。
例如,您可以搜索[爱情故事]、[love story]、 [Happy 2000]、[叫我一声My Love]。
3.关键词您可以输入一个,也可以输入两个、三个、四个,您甚至可以输入多个关键词。
    三、小窍门
    使用SoGua的搜索时,如果您想缩小搜索范围获得更精确更丰富的搜索结果,只需输入更多关键词进行搜索,不需要在关键词之间加上“/”或“+”,只要在关键词中间留空格就行了。
    四、英文大小写
    SoGua的搜索引擎不区分英文字母大小写。所有的字母均当做小写处理。
例如:搜索"love story"、"LOVE STORY"或"Love Story",得到的结果都是一样的。
     4.4.5 【全库网】(http://www.123cha.com)
    提供IP查询、手机号码归属地、邮政编码、长途电话区号、身份证号码验证专业在线查询,结果仅供参考。