请教webmagic使用中,一个产品的内容分布在2个不同的页面中,该如何抓取?

chris_cheng 发布于 2014/11/24 15:07
阅读 616
收藏 0

【开源中国 APP 全新上线】“动弹” 回归、集成大模型对话、畅读技术报告”

@黄亿华  你好,想跟你请教个问题:

    我现在的需求是这样的,抓取一个网页上面的产品信息,但是有部分产品信息是动态JS显示的,就是说一个产品的信息由 当前产品页的信息和一个动态JS链接的产品页的另一部分信息组成,所以我分了2次去抓取,请问抓取之后怎么把产品信息合并在一起并持久化呢,还有一个问题,关于@注解中,@TargetUrl,@HelpUrl如何动态的传人参数?如下:

@TargetUrl("http://job.liepin.com/[\\d_]+")
@HelpUrl("*sojob/\\?setdefault=true&curPage=\\d+")
public class LieTouJobInfo implements AfterExtractor {
    @ExtractBy("//div[@class=\"title-info\"]/h1/text()")
    private String title="";
    @ExtractBy("//p[@class='job-main-title']/text()")
    private String salary="";
    @ExtractBy("//div[@class=\"title-info\"]/h3/text()")
    private String company="";
    @ExtractBy("//div[@class=\"content content-word\"]/html()")
    private String description="";
    @ExtractBy(value = "岗位要求:(.*?)",type = ExtractBy.Type.Regex)
    private String requirement="";
    private String source="lietou.com";
    @ExtractByUrl
    private String url="";
    private String urlMd5="";

加载中
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部