网络爬虫的一点疑问,望指教

陈阳阳阳 发布于 2013/11/02 15:13
阅读 316
收藏 1
爬虫一般是由一个(数个)种子URL开始,然后解析页面上的link从而发现新的url,请问我这个说法正确吗? 假如上面说法正确,假如现在有一个a页面,没有任何页面中包含link到此页面的link,那么这个页面是不是永远不会被爬虫爬到?
加载中
0
Yu_Yang
Yu_Yang
爬虫的原理就是数据结构中的"图", 从一个节点开始使用深度优先或者广度有限算法来遍历, 如果没有链接指向a页面,那么它肯定就不在这个图中,所以爬虫就抓不到的. 前不久百度不是说360浏览器侵犯用户隐私就是这么干的,百度的工程师创建一个页面,这个页面和你说的a页面类似,所以它不会被搜索引擎索引,可是用360浏览器访问后,360搜索就可以搜索到了,因此就可以得出结论360浏览器至少把用户的浏览记录上传到了自己的服务器上.很邪恶.....
0
奔小康
奔小康
要想爬遍整个互联网得有很多个种子。
0
蔡小峰
蔡小峰
我猜也是的  顶1L 2L
0
yak
yak
可以把这个a页面当成一个种子
0
寒川
寒川
如果单独的一个a页面,神马也不做,肯定是不会被收录,但是可以将a提交給搜索引擎。
0
yak
yak
提交给搜索引擎以后,然后流氓公司的营销人员就开始不停打电话来骚扰,交钱吧,来做竞价排名
0
kiwivip
kiwivip
那个叫‘孤岛’,得自己主动提交给SE.
0
s
sosozzzx

推荐使用神箭手云爬虫,完全在云上编写和执行爬虫,不需要配置任何开发环境,快速开发快速实现。 

简单几行 javascript 就可以实现复杂的爬虫,同时提供很多功能函数:反反爬虫、 js 渲染、数据发布、图表分析、反防盗链等,这些在开发爬虫过程中经常会遇到的问题都由神箭手帮你解决。 

返回顶部
顶部