请教爬虫问题--获取css控制的图片的地址

fogu 发布于 2014/01/01 10:13
阅读 579
收藏 1

大家好,我在写爬虫,爬网站内容和图片,现在遇到一个问题,比如一个图片在使用审查元素可以看到,但是查看源代码看不到,这样的话我使用下面的获取网页内容的方法就得不到这个网页图片的地址,请问有什么方法可以解决这个问题吗?

BufferedReader br = null;
try {
br = new BufferedReader(new InputStreamReader(url.openStream()));
String row = null;
while (null != (row = br.readLine())) {
this.content.append(row);

网站地址:http://hair.allwomenstalk.com/,比如第一张图,审查元素可以看到图片地址为http://img.allw.mn/hair/thumbs/109/655.jpg,但是查看源码是看不到的,他是用css控制的。




加载中
0
masonmei
masonmei
需要对CSS 进行解析并下载对应资源文件
0
f
fogu

2楼正解,用htmlunit可以

 WebClient webClient = new WebClient();
// 设置webClient的相关参数
webClient.setAjaxController(new NicelyResynchronizingAjaxController());
webClient.getOptions().setJavaScriptEnabled(true);
webClient.getOptions().setCssEnabled(false);
webClient.getOptions().setTimeout(35000);
webClient.getOptions().setThrowExceptionOnScriptError(false);
       HtmlPage htmlPage = webClient.getPage(url);        
    
content=htmlPage.asXml();
       return content;

返回顶部
顶部