小白想写java爬虫

和我谈谈你 发布于 2016/10/21 18:39
阅读 650
收藏 1

       小白做作业要整理南昌市所有景区并将之分类,我想写一个Java爬虫来爬取,请教各位大神该如何做呢?我尝试过百度,并没有得到想要的答案。知乎上说可以用百度地图开放平台,我注册后发现要使用api。我刚入门java对api没有了解 ,所以我来论坛求助。希望各位大神帮帮我,谢谢^_^.

     

加载中
1
SevensChan
SevensChan

用地图API的话自然也简单很多确定好坐标place search整理下response就可以。

针对网页来爬的话 简单的按照几个步骤
1. 首先找到有
南昌市所有景区的数据源(网页)。
2. 然后分析下目标网页是分页模式拿数据还是ajax模式拿数据
3(a) 分页模式的话就java 发出 http请求 获得response 根据html格式利用正则等手段把自己想要的数据拿出来就可以
3(b) ajax模式的话,打开chrome F12(假设你用chrome) 选择Network标签,会看到一堆的请求,找到获取数据的请求, 根据url 和 header的参数 用java 发出 http请求,同样获得response(一般是json也可能是xml)再分析。
4. repeat step 3 直到所有data拿出来 再作清理整理。

这是我最初接触爬数据的小步骤,当然中间也可能会遇到其他问题 例如需要登录等 善用搜索工具解决问题 加油吧

0
yak
yak
http://www.oschina.net/p/webmagic
0
抢小孩糖吃
抢小孩糖吃
个人建议用python爬
和我谈谈你
和我谈谈你
我刚学java不久,还不会其他语言。我想弄个小点的程序做一下自己的作业,也算学以致用
0
sprouting
sprouting

java搞网站开发

易语言写外挂

Python写爬虫

c++写游戏

Android开发手机。。。。。似乎有点什么不对

愉悦混乱
愉悦混乱
回复 @waitliu : 不是JAVA吗
waitliu
waitliu
世界上最好的语言是PHP
0
0
ff100
ff100

你可以看下这个文档,怎么用爬虫,http://webmagic.io/docs/zh/。
然后找个南昌市所有景区的网站,把数据爬下来。

不知道你要用那个开发平台的api,你可以先把处理问题的流程给梳理下。有那些难点。然后再来提问。

0
fuljia
fuljia
http+jsoup
0
缘待尽
一起交流学习呀,群121022714
返回顶部
顶部