【开源中国 APP 全新上线】“动弹” 回归、集成大模型对话、畅读技术报告”
@黄亿华 你好,想跟你请教个问题:
我现在的需求是这样的,抓取一个网页上面的产品信息,但是有部分产品信息是动态JS显示的,就是说一个产品的信息由 当前产品页的信息和一个动态JS链接的产品页的另一部分信息组成,所以我分了2次去抓取,请问抓取之后怎么把产品信息合并在一起并持久化呢,还有一个问题,关于@注解中,@TargetUrl,@HelpUrl如何动态的传人参数?如下:
@TargetUrl("http://job.liepin.com/[\\d_]+")
@HelpUrl("*sojob/\\?setdefault=true&curPage=\\d+")
public class LieTouJobInfo implements AfterExtractor {
@ExtractBy("//div[@class=\"title-info\"]/h1/text()")
private String title="";
@ExtractBy("//p[@class='job-main-title']/text()")
private String salary="";
@ExtractBy("//div[@class=\"title-info\"]/h3/text()")
private String company="";
@ExtractBy("//div[@class=\"content content-word\"]/html()")
private String description="";
@ExtractBy(value = "岗位要求:(.*?)",type = ExtractBy.Type.Regex)
private String requirement="";
private String source="lietou.com";
@ExtractByUrl
private String url="";
private String urlMd5="";