webmagic 列表页url的正则表达式怎么写

庄的生活录 发布于 2018/01/15 09:45
阅读 298
收藏 0

webmagic 列表页的URL 正则表达式怎么写 像这样的规律 http://www.fjqi.gov.cn/xxgk/tzgg/index.htm http://www.fjqi.gov.cn/xxgk/tzgg/index_1.htm http://www.fjqi.gov.cn/xxgk/tzgg/index_2.htm 要怎么写 我是写成这样的但是是错的 我写成正在规则 URL_LIST = "https://www\\.fjqi\\.gov\\.cn/xxgk/tzgg/\\w+\\d+\\.htm"; 我写的不能跑的例子

 

public class a implements PageProcessor {

public static final String URL_LIST=  "https://www\\.fjqi\\.gov\\.cn/xxgk/tzgg/\\w+\\d+\\.htm"; 

public static final String URL_POST =

"(https://www\\.fjqi\\.gov\\.cn/xxgk/tzgg/\\w+/\\w+\\.htm"; 

private Site

site=Site.me() .setDomain("blog.sina.com.cn") .setSleepTime(3000) .setUserAgent( "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31"); 

public void process(Page page) {

 //列表页 if (page.getUrl().regex(URL_LIST).match()) { page.addTargetRequests(page.getHtml().xpath("//ul[@class=\"list\"]").links().regex(URL_POST).all()); //div[@class=\"articleList\"] page.addTargetRequests(page.getHtml().links().regex(URL_LIST).all()); //文章页 } else { page.putField("title", page.getHtml().xpath("//div[@class='xl_content']/h1").toString()); } } public Site getSite() { return site; } public static void main(String[] args) { Spider.create(new a()).addUrl("http://www.fjqi.gov.cn/xxgk/tzgg/").run(); } }

加载中
返回顶部
顶部