元搜索工作原理及起源
易管天下·宁夏搜索引擎研究 www.nxseo.org 来源:网摘
元搜索引擎又称多搜索引擎,它可以同时查找多个单搜索引擎的www站点.按其搜索机制可分为并列式和串行式.并行式元搜索引擎指将查询要求同时发向各个独立的搜索引擎,然后将结果按特定的顺序提供给用户。串行式元搜索引擎是将查询要求先发给某个独立的搜索引擎,待其返回结果再将请求发给另一个搜索引擎,并行式元搜索引擎运行模式好,搜索时间短。
世界上最早的元搜索是metacrawler,它是infospace inc.的一部分,初始网上运行时间为 1995年,是由华盛顿大学的学生erik和教授oren etzin共同开发研制的。它是万维网搜索引擎metacrawler的姐妹引擎,是一个并行式的元搜索引擎。具有同时调用Google、Yahoo、Ask Jeeves About、LookSmart、Teoma Overture、FindWhat等搜索引擎的功能,然后按相关度给出精确,详细的结果。输入网址http://www.metacrawler.com进入主页面。
它可以对网页、图像、音频、多媒体、新闻、购物等进行选择检索,还提供了如下高级检索功能:
提高你检索的品质(Qualify Your Search):你可以创建一个特定的检索,查询一个精确的字段,或者排除包含特定词的页面。
使用布尔逻辑符检索(Use Boolean Terms):在关键词中使用and,or和not布尔逻辑检索符,使得检索结果更精确。
最后更新页面(Last Page Update):使用After来查询特定日期后更新的结果,使用Before来查询在特定日期千更新的结果。同时选择After和Before,将检索出两个日期之间的结果。
域名过滤(Domain Filter):可以排除以.com、.gov、.edu结尾的域名,你也可以包括一个特殊的包含.com的域名。
成人过滤(Adult Filter):可以包含或者过滤掉Web检索结果中的成人内容。
语言选择(Language Selection):可以选择返回结果所用的语言。
结果展示(Results Display):可以选择检索结果排序的方式,按与检索词的相关性排序或者按搜索引擎展示结果的顺序排序。
搜索引擎功能和性能的术语
简单搜索(Simple Search)指输入一个单词(关键词),提交搜索引擎查询,这是最基本的搜索方式。
词组搜索(Phrase Search)指输入两个单词以上的词组(短语),提交搜索引擎查询,也叫短语搜索。现有的搜索引擎一般都约定把词组或短语放在引号“”内表示。
语句搜索(Sentence Search)指输入一个多词的任意语句,提交搜索引擎查询,这种方式也叫任意查询。不同搜索引擎对语句中词与词之间的关系的处理方式不同。
目录搜索(Catalog Search)指按搜索引擎提供的分类目录逐级查询,用户一般不需要输入查询词,而是按照查询系统所给的几种分类项目,选择类别进行搜索,也叫分类搜索(Classified SearCh)。
高级搜索(Advance Search)指用布尔逻辑组配方式查询,也叫定制搜索。常用的逻辑运算为AND(和)、 OR(或)和NOT(非)。
上述前3种搜索方式可以合称为词语搜索(Word Search),与高级搜索和目录搜索一起构成3类常见搜索方式。
在所有搜索方式中,还可使用通配符,就像DOS文件系统用“*”作为通配符一样,通配符用于指代一个串字符,不过,每个搜索引擎所用的通配符不完全相同,大多用“*”或“?”,少数用“$”。