搜索引擎的工作原理
非常感谢虫虫的邀请,使我有机会和大家做关于搜索引擎排名方面的交流。由于水平有限,可能有些观点,不是100%正确,希望大家原谅。那么下面我们就正式开始吧。今天的讲座目录提要是:
SE工作原理概述
网络蜘蛛的爬行过程
如何编制索引
分词的计算方法
一个完整的搜索引擎响应过程范例
答疑
SE工作原理概述
大家应该都有在自己的电脑的硬盘上查找某个文件的经历吧。比如你在C盘查找“my.txt"这样一个文件,可能需要4分钟时间,
那么我们知道,如果搜索引擎也是用这样慢的响应速度的话,它会被用户淘汰的。搜索引擎,每天要响应几亿次用户的搜索请求,每天=24小时约=于1万秒.换句话说每秒要响应1万次左右用户的搜索请求,如果它不能在1秒之内完成1万次响应,则属于失败。
根据我们的经验,如果搜索引擎,不能把搜索结果事先储存起来,而是象我们一样,每次都从数据库里查找的话,那么你也太小瞧这些SE发明人了。其实我们很容易知道,也经过GG官方资料证实,对于所有的词,GG都已经建立了索引。所谓的索引,就相当于一本字典,通过索引,我们可以快速定位到用户输入的查询的词。这样,SE可以在非常短的时间内根据相关性的算法,把搜索结果的前1000项结果返回给用户。当然,如果用户输入的不止是一个词,它有可能输入一句话或者一个词组。则GG自然有一套分词方法,将输入的一句话或者一个词组分解成一个一个的词。然后对于每一个词,进行相关性的运算,最后将最符合相关性的前1000项结果返回。
刚才我们讲了第1部分:SE工作原理概述 ,下面我们讲一下蜘蛛的爬行过程。
蜘蛛的爬行过程
无论是哪一个搜索引擎,都有自己的“蜘蛛”,当然名字可能不叫蜘蛛,但其作用都是一样的,尽可能多的将网络上的网页建立快照。据保守估计,GG至少收录了200亿个页面,蜨TTP/1.1 200 OK
Server: Huadun-Server/3.0
Content-Length: 336
Content-type: text/html
/> -->