易管天下搜索引擎研究(SEO)
中国网站综合托管服务--企业网站专职保姆,精心呵护您的网站。
关于我们 | 业务介绍 | 在线支付 | 网站地图 WWW.EGTX.NET
今天是: 新版首页】‖【旧版入口】‖【易管财经】‖【IT资讯
企业建站 | 维护助理 | 代管之家 | 网站优化 | 推广精灵 | 客户中心 | 技术交流
下载中心 | 在线留言
中国SEO 地区分类: | 北京SEO | 上海SEO | 天津SEO | 广州SEO | 深圳SEO | 成都SEO | 西安SEO | 其他地区
百度,google等搜索引擎的网络蜘蛛基本原理
易管天下-最新信息:《百度,google等搜索引擎的网络蜘蛛基本原理 》!网站托管,网站保姆,网站SEO,网站优化,以及搜索引擎研究,SEO技术等
今日头条

·2008年第三期(宁夏地区)职业SE
·苹果股价因虚假报道创52周新低 S
·网络暴力间接逼死崔真实 韩国拟立
·商业周刊:网上支付仍然充满机遇
·谷歌重现“2001年生活” 北京房价
·腾讯拍拍获得中国电子商务十年企
·鲍尔默:微软宁要97%市场份额 不
·传eBay最早于下周一公布大幅裁员
·百度将旗下影视频道资产注入联合
·黑客劫持服务器盗取网民游戏账号

技术交流
·元搜索工作原理及起源
·什么是元搜索引擎?走近中文元搜
·网站推广-QQ营销推广
·网站推广-百度空间推广
网站维护

·SEO网站优化在网站建设中的作用
·网络营销的七条基本规则
·跟踪和统计分析使你的网站更好的
·谷歌Google警告勿使用Clocking:
·网站SEO策略怎么制定

客户中心
·宁夏SEO,宁夏网站SEO,宁夏网站优
·如何成为百度新闻源?--易管答疑
·宁夏企业网站运营的好帮手
·《易管兵法-网站运营策略》
·深圳酒店预定网优化方案
相关连接:
上一篇:全球十大搜索引擎工作原理
下一篇:SEO实验:解除网站信息收录疑难(一)
相关网络广告:

百度,google等搜索引擎的网络蜘蛛基本原理

网络蜘蛛

网络蜘蛛基本原理

网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页面的平均大小为20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。

在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。

广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。

由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取(下小节会介绍),但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全**的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。

网站与网络蜘蛛

网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。今年4月,淘宝http://www.taobao.com)就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。网站是否就无法和网络蜘蛛交流呢?其实不然,有多种方法可以让网站和网络蜘蛛进行交流。一方面让网站管理员了解网络蜘蛛都来自哪儿,做了些什么,另一方面也告诉网络蜘蛛哪些网页不应该抓取,哪些网页应该更新。

每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User-agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider,Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。如果网站管理员发现某个蜘蛛有问题,就通过其标识来和其所有者联系。下面是博客中

本新闻共6页,当前在第1页  1  2  3  4  5  6  

合作媒体:中国SEO实验室 网站导航: 首页 | SEO研究 | SEO教程 | SEO培训 | SEO资源 | SEO工具 |
站内搜索 :
    
网站托管,网站建设与维护,网站优化与推广,网站运营及策划等综合服务。是专业的网站保姆,精心呵护网站。我们的网址:www.egtx.cn |或| www.egtx.net
相关连接:| 硬件技术 | 软件技术 | 网络技术 | SEO技术 | 维护技术 | 建设技术 | 制作技术 | 技术交流 |