怎么样写一个通用型的爬虫

Falbert 发布于 2014/12/16 09:57
阅读 940
收藏 0
URL地址
http://bj1zy.chinacourt.org/article/index/id/MzAwNgAhEwMiAAA%3D.shtml
http://bjhdfy.chinacourt.org/public/?LocationID=0900000000
http://cyqfy.chinacourt.org/public/index.php?LocationID=1400000000
http://fsqfy.chinacourt.org/public/more.php?LocationID=0301000000
http://bjgy.chinacourt.org/article/index/id/MzAwMjAwBiPCAAA%3D.shtml
http://bjgy.chinacourt.org/article/index/id/MzAwMjAwNjAwMSACAAA%3D.shtml
http://bjgy.chinacourt.org/article/index/id/MzAwMjAwNgCRhAEA.shtml
http://bjxcfyw.chinacourt.org/oweb/dealSspt.do?action=listGgxx&type=2
http://ftqfy.chinacourt.org/public/more.php?LocationID=0402000000
http://ftqfy.chinacourt.org/public/more.php?LocationID=0404000000
http://www.bjcourt.gov.cn/zxxx/index.htm;jsessionid=116CE8CD815C56C15F3933822F8735F8?zxxxlx=100013001
http://www.fjcourt.gov.cn/page/public/courtreport.aspx
http://www.xacourt.gov.cn/zxgk/&newsCategoryId=37.html
http://fzptfy.chinacourt.org/article/index/id/MzQvMjAwMTAwNiACAAA%3D.shtml
http://fzptfy.chinacourt.org/article/index/id/MzQvMjBINiAOAAA%3D.shtml
http://www.fjjjfy.gov.cn/
http://www.fszjfy.gov.cn/pub/court_7/sifagongkai/fayuangonggao/kaiting/
http://ssfw.szcourt.gov.cn/frontend/anjiangongkai/session?cc=0
http://www.bafy.gov.cn/Multilevel.aspx?p1=6&p2=57&type=2
http://www.gzhzcourt.gov.cn/FYGG.jsp?oper=15&type=130
http://www.gdhdcourt.cn/SwgkList.aspx?types=ktgg
http://www.gdcourts.gov.cn/ecdomain/framework/gdcourt/hnohoambadpabboeljehjhkjkkgjbjie.jsp
http://szlhqfy.chinacourt.org/article/index/id/M0g3NjAwNTAwMiACAAA%3D.shtml
http://nsqfy.chinacourt.org/swgk/ggl_more.php?LocationID=0602020000
http://dyfy.dg.gov.cn/ywxt/bgt.jsp?oper=8&type=51#
http://www.court.gov.cn/zgcpwsw/gd/gdsfsszjrmfy/fssscqrmfy/zx/
http://byfy.by.gov.cn/zxzx/bgt/index.html

最近学校的一个项目要用Java写爬虫,流程基本都是先爬取新闻的列表,然后再抓取新闻的正文,但这些网站的样式都不一样,上面是一些链接,要爬取的还有上百个,怎么样可以很好解析出所需的字段(标题、日期、类型、原告、被告之类)现在我是用Jsoup去解析html,然后一个一个找对应标签,但网站样式太多了,针对每个网站去改Jsoup要select的属性,重复劳动很多,大家有没有好的解决方案


加载中
0
旧城的骁珖
旧城的骁珖
python 的这个爬虫 框架 Scrapy 还是蛮方便的
Falbert
Falbert
回复 @wxg4osc : 多谢指点,我去学习下Scrapy
旧城的骁珖
旧城的骁珖
@Falbert Scrapy 方便之处,就在于支持xpath 针对指定网站找好搜索入口url及其数据的xpath 即可轻松处理。解析烦神在于你不精通任何一个爬虫框架程序
Falbert
Falbert
Thank you , 爬虫把页面爬下来倒不是很难,主要解析很烦神,这些页面样式都太乱了
返回顶部
顶部