PHP采集网页内容 求指点

wwwmmm 发布于 2012/06/25 20:14
阅读 902
收藏 0
PHP
<?php

	$url="http://www.dapenti.com/blog/blog.asp?subjectid=70&name=xilei";

	$con=file_get_contents($url);
	
	$con=iconv("gbk","utf-8",$con);
	
	preg_match("/<li><a href=more.asp\?name=xilei&id=([0-9]+)>(.+?)<\/a><\/li>/",$con, $matches);
	
	
	
	//拼接内容页面的URL
	$url="http://www.dapenti.com/blog/more.asp?name=xilei&id=".$matches[1];
	
	$con=file_get_contents($url);
	
	$con=iconv("gbk","utf-8",$con);
	
	preg_match("/<!-- google_ad_section_start -->([\s\S]*)<P><SPAN style/i",$con, $content);
	
	//匹配获取页面内容里的图片
	$str=$content[1];
	
	preg_match_all("/src=\"([^^]*?)\">/",$str,$img);
	
	//print_r($img);
	//图片的数量
	$len=count($img[1]);
	
	$date=date('Ymd');
	
	for($i=0;$i<$len;$i++){
		$imgname=$date.$i.".jpg";
		//copy($img[1][$i],"image/".$imgname);  
	}
	
	echo $str;

?>

获取一个页面的内容  如上代码 内容已经获取 图片也已经获取了 

但是需要把内容里面的图片URL替换为自己已经获取到的图片的URL 

写到这里 不懂了 求指点  

以下是问题补充:

@wwwmmm:还有个问题 是 获取的内容 最后面有一段广告 这个广告内容有时候会变......这个 采集的时候 怎么自动 去除啊 大神 (2012/06/25 20:17)
@wwwmmm:难道 要手动来吗 (2012/06/25 20:17)
@wwwmmm:我试了一下str_replace 替换 出现 有点乱码 (2012/06/25 20:25)
加载中
0
龙上
龙上
对方的网页编码跟你的编码不一样所以要转换.使用正则替换图片地址.
0
wwwmmm
wwwmmm

引用来自“龙上”的答案

对方的网页编码跟你的编码不一样所以要转换.使用正则替换图片地址.
我转了啊 上面 已经转过 编码了啊
0
龙上
龙上
使用mb_convert_encoding()函数进行转换编码,iconv有些字符会转换失败.
0
蟋蟀哥哥
蟋蟀哥哥

全是正则不麻烦嘛?会用jquery不?像jquery一样采集自己想要的内容:

Php simple HTML DOM

返回顶部
顶部