用PHP抓取亚马逊的产品排行榜遇到的正则问题

淡风无云 发布于 2015/07/11 10:08
阅读 354
收藏 0

原代码地址:http://www.amazon.cn/gp/bestsellers/grocery/2134633051/?pg=1&ajax=1

因为我是编外PHPer,对正则不太了解(其实对php也只是皮毛)。我想通过正则的方式将这个页面的产品名称、图片、排名。应该怎么写?没有头绪,求各位大神给予帮助

加载中
0
开源小姐
开源小姐
不会正则,可以考虑用 http://simplehtmldom.sourceforge.net/
0
bigTreee
bigTreee

比较繁琐的事情,一步步来,写了个demo用来获取产品标题,仅供参考,在vim中可以匹配成功,php或者js中的正则可能会有一点点小区别,主要是反斜线的障碍:

<div class="zg_title"> *<a \+href="[a-z_:/.0-9-=?&%]\+" *>\([\u4e00-\u9fa5 ,0-9()]\+\)<\/a><\/div>


稍微解释下:

 

淡风无云
淡风无云
谢谢!!在vim中的确通过。PHP中语法有点差别,我再试一下。谢谢!!
0
MockMan
MockMan
xpath也比较简单
MockMan
MockMan
回复 @淡风无云 : http://www.oschina.net/search?scope=all&q=xpath
MockMan
MockMan
回复 @淡风无云 : http://www.ibm.com/developerworks/cn/xml/x-xpathphp/
淡风无云
淡风无云
xpath是Python吧?PHP能使用吗?
0
星知
既然对正则表达式不熟,就不要用正则,就用字符串匹配来分析一下即可,找出页面中各个需要提出信息的前后特征字符串,一个循环就出来了。
返回顶部
顶部