jsoup爬虫获取网页信息

梦想在飞 发布于 2013/09/11 16:51
阅读 852
收藏 2

@Leon温陵 你好,想跟你请教个问题:对你分享的虎嗅网抓取代码,狠是受益匪浅,但是我想问你 :“根据虎嗅网文章url的特点,构造请求URI ”,这个如果是新浪新闻,url不固定怎么解决。(也就是怎么样点击进去大的网址,能获取到大网址下边的列表链接信息呢?)

加载中
0
loyal
loyal
Document doc = Jsoup.parse(content);
Elements tds = doc.select("a");.........................
0
梦想在飞
梦想在飞
谢谢,我要是的 怎么解决我想获取的网页的urI,
0
zheng_pat
zheng_pat
1楼回答你了。 Elements tds  这个里面应该就包含url信息
0
stevenliu
stevenliu
爬虫原理 你知道吧 主要有个种子服务!首页爬到的url丢到 url列队 抓取列表 像抓取咨询类的网站 其实是有模版算法的!
返回顶部
顶部