有关webmagic的一个疑惑

1085115928 发布于 2016/12/09 16:01
阅读 344
收藏 0

@黄亿华 你好,想跟你请教个问题:

经朋友介绍,刚刚接触您的webmagic爬虫,觉得真是很棒,可对使用手册里的例子爬虫的这行代码不是很懂,您方便给解释下嘛,最好能结合具体网页结构解释下

page.putField("author", page.getUrl().regex("https://github\\.com/(\\w+)/.*").toString());


加载中
0
HZ先生
HZ先生
这个就是正则获取url上的片段啊
1
1085115928
其他的page.putfield(),后面都是根据xpath或css选择器得到自己想要的内容的,这个page.getUrl().regex("'").toString()得到的是哪儿的内容啊
返回顶部
顶部