您当前的位置: 首页 > 汽车点评

络蜘蛛深度优先还是广度优先

2020-11-16 15:47:01

络蜘蛛:深度优先还是广度优先

A5任务 SEO诊断选学淘宝客 站长团购 云主机

络蜘蛛 学名Spider,又叫 络爬虫 ! 关于络蜘蛛的概述这里就不多讲了 今天我主要想说的是 关于 蜘蛛的爬行设计的方式与方法

我们可以分为2种:

那么什么是深度优先? 什么是广度优先?有甚么用? 上海SEO (SWJ) 下面为大家讲授 !

本人学知浅薄 只会用 通俗的话与道理与大家分析 如有毛病请及时联系我 所以还请大家多多见谅包括!

一种是 深度优先策略 一种是 广度优先策略! 以下我们就围绕这2点进行分析 SWJ 非常欢迎大家一起交换 学习与探讨!

深度优先 顾名思义就是 让 络蜘蛛 尽可能的在抓取页时 往页更深层次的发掘进去 讲求的是深度!

也泛指: 络蜘蛛将会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路以后再转入下一个起始页,继续跟踪链接!

以下我发张图 大家看下: (下面这张是 简单化的页连接模型图 其中A为出发点 也就是蜘蛛索引的出发点!)

总共分了5条路径 供蜘蛛爬行! 讲求的是深度!

(下面这张是 经过优化的页连接模型图! 也就是改进过的蜘蛛深度爬行策略图!)

根据以上2个表格 我们可以得出以下结论:

图1:

路径1 == A -- B -- E -- H

路径2 == A -- B -- E -- i

路径3 == A -- C

路径4 == A -- D -- F -- K -- L

路径5 == A -- D -- G -- K -- L

经过优化后

图2: (图片已经帮大家标上方向了!)

路径1 == A -- B -- E -- H

路径2 == i

路径3 == C

路径4 == D -- F -- K -- L

路径5 == G

深度爬行的优点是:

络蜘蛛程序在设计的时候相对比较容易些把 其他我也没发觉有甚么优点... 还有就是 蜘蛛的这类 勇往直前 的精神 值得学习下! ^_^

深度爬行的缺点是:

缺点么 多了一点点 呵呵! 每次爬行一层 总要向 蜘蛛老家 数据库访问一下 问问老总有必要还要爬下一层吗! 爬一层 问一次.... 援用1句高人的话 如果一个蜘蛛不管3721不断往下爬 极可能迷路 更有可能爬到国外的站去.. 本来目标是中文站 由于IP的问题 国外IP做了中文站的话.... 就容易去他人 老家 了..这样不但增加了系统数据的复杂度 更是增加的服务器的负担 我想没有一家搜索公司会愿意则样的把,...除非头脑 秀 了 .. ^_^

接下来 我们介绍下普遍使用的 广度优先策略 大家休息下 喝杯咖啡 看的也累把 我写的也累.... ^^

广度优先 在这里的定义就是 层爬行

甚么叫 蜘蛛 层爬行?

就是一层一层的爬行 依照层的散布与布局 去索引处理与抓取页! 固然SE不会派一个蜘蛛去的 每层会派一个或多个蜘蛛Spider去抓取内容!

(下面这张就是 广度优先策略图(层爬行图))

大家一看就明白了把 聪明的人 下面的文章也不需要看了 答案已告知你了 ^ ^

根据以上表格 我们可以得出以下结论路径图:

路径1 == A

路径2 == B -- C -- D

路径3 == E -- F -- G

路径4 == H -- i -- K

路径5 == L

广度爬行的优点是:

广度相对深度 对数据抓取更容易控制些! 对服务器的负栽相应也明显减轻了许多! 爬虫的分布式处理 使的速度明显提高! 其他的想也可以想到拉!

广度爬行的缺点是:

暂时还没观察到有什么缺点 呵呵 就好比 DIV+CSS样式表(层布局)一样道理 你觉得有甚么缺点吗?

难道是新人不会这个问题? ^ ^

不会不要紧 下载这本电子书去看看 下载地址:

其他还有甚么建议意见 请多多指教与批评 上海SEO负责人SWJ 非常欢迎各位SEO爱好者 一起交换 学习与探讨SEO优化技术,站策划也可以 ^_^ 联系方式见首页底部!

转自 上海SEO

结肠炎
美容水果
五官整形
小儿厌食的各种表现
尿路感染
推荐阅读
图文聚焦