webmagic 列表页

庄的生活录 发布于 2018/01/15 10:16
阅读 97
收藏 0

@安小乐 你好,想跟你请教个问题:

我在初步学习webmagic

我抓取的列表页的网站是http://www.fjqi.gov.cn/xxgk/tzgg/index.htm

 

http://www.fjqi.gov.cn/xxgk/tzgg/index_1.htm 

 

http://www.fjqi.gov.cn/xxgk/tzgg/index_2.htm 

的规律 我写成正则表达式 

 URL_LIST = "https://www\\.fjqi\\.gov\\.cn/xxgk/tzgg/\\w+\\d+\\.htm 

我不会正则表达式 我是模仿您们的一些例子写的

详细页 http://www.fjqi.gov.cn/xxgk/tzgg/201801/t20180112_480093.htm

http://www.fjqi.gov.cn/xxgk/tzgg/201712/t20171225_479980.htm

我写的 URL_POST = "https://www\\.fjqi\\.gov\\.cn/xxgk/tzgg/\\w+/\\w+\\.htm"

我写的类是

package test;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

public class a implements PageProcessor {
     
     public static final String URL_LIST = "https://www\\.fjqi\\.gov\\.cn/xxgk/tzgg/\\w+\\d+\\.htm";
                        
     public static final String URL_POST = "https://www\\.fjqi\\.gov\\.cn/xxgk/tzgg/\\w+/\\w+\\.htm";
                                       
        private Site site = Site
                .me()
                .setDomain("blog.sina.com.cn")
                .setSleepTime(3000)
                .setUserAgent(
                        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");
       
        
        
        public void process(Page page) {
           System.out.println(11111);
            //列表页
            if (page.getUrl().regex("http://www.fjqi.gov.cn/xxgk/tzgg/.*").match()) {
                page.addTargetRequests(page.getHtml().xpath("//div[@class=\"gl_content\"]").links().regex("http://www.fjqi.gov.cn/xxgk/tzgg/.*").all());
                                                           //div[@class=\"articleList\"]                                            
                page.addTargetRequests(page.getHtml().links().regex("http://www.fjqi.gov.cn/xxgk/tzgg/.*").all());
                //文章页
            } else {                                          
                page.putField("title", page.getHtml().xpath("//div[@class='xl_content']/h1").toString());
                        
            }
            
          
      
           
        }

        public Site getSite() {
            return site;
        }

        public static void main(String[] args) {
            
            Spider.create(new a()).addUrl("http://www.fjqi.gov.cn/xxgk/tzgg/").run();
                                       
        }
}

加载中
0
安小乐
安小乐

list_reg="http://www.fjqi.gov.cn/xxgk/tzgg/index_?\\w?.htm";

detail_reg="http://www.fjqi.gov.cn/xxgk/tzgg/(\\d+)/([t0-9_]*).htm";

庄的生活录
我放上去还是爬不了
返回顶部
顶部