phpQuery网页采集不全,只有部分采集到

leejava 发布于 2017/06/16 10:33
阅读 198
收藏 0

phpQuery网页采集不全,只有部分采集到

通过firebug把网页代复制下来保存为一个本地网页的话,采集没有问题,所有内容都能采集到,但是在线采集的话只能部分采集,问题出在一个嵌套的表格,外层表格可以采集到,而内层table采集不到,难道是编码的问题吗,网上找了编码方法试了也不行,百度搜“采集不全”的问题也搜不到,只好请教各位大神了,已经煎熬了几天了,

采用的版本:

phpQuery-0.9.5.386-onefile,mysql5.5.56,php5.4.45,Apache24

离线网页测试电脑xp32位,采集成功;在线网页测试电脑win7 64位

,采集不全

采集不到的位置:<TR needSplitTable="Y">行中的TABLE id=splitTable 内容采集不到

网页关键代码如下:

<TR>
    <TD style="FONT-SIZE: 12px" height=10 colSpan=12><B>&nbsp;&nbsp;机构承诺:</B>鉴定工作遵循公平公正、主体合法、程序规范、方法科学、结论准确的要求。 </TD>
</TR>
<TR needSplitTable="Y">
    <TD class="tableclass tableinside" style="BORDER-BOTTOM-STYLE: none; PADDING-BOTTOM: 0px; PADDING-TOP: 0px; PADDING-LEFT: 0px; MARGIN: 1px; BORDER-LEFT: medium none; PADDING-RIGHT: 0px" vAlign=top colSpan=12>
        <TABLE id=splitTable style="BORDER-COLLAPSE: collapse" cellSpacing=0 cellPadding=0 width="100%" border=0 name="splitTable">
            <TBODY>
                <TR>
                    <TD style="FONT-SIZE: 22px; BORDER-BOTTOM-STYLE: none" height=35 vAlign=middle colSpan=12 align=center><STRONG>送检检材和样本情况</STRONG></TD>
                </TR>
                <TR>
                    <TD style="FONT-SIZE: 16px" height=35 vAlign=middle colSpan=12 align=right>编号:4100002017050125</TD>
                </TR>
                <TR height=28>
                    <TH class=td1 align=center><NOBR>序号</NOBR></TH>
                    <TH class=td2 colSpan=2 align=center><NOBR>物证编号</NOBR></TH>
                    <TH class=td2 colSpan=2 align=center><NOBR>名称</NOBR></TH>
                    <TH class=td2 align=center><NOBR>数量</NOBR></TH>
                    <TH class=td2 align=center><NOBR>包装情况</NOBR></TH>
                    <TH class=td2 align=center><NOBR>提取部位</NOBR></TH>
                    <TH class=td2 align=center><NOBR>处置情况</NOBR></TH>
                    <TH class=td2 style="BORDER-RIGHT-STYLE: none" align=center><NOBR>备注</NOBR></TH>
                </TR>

加载中
0
_yg
_yg

很简单,程序抓到的页面跟普通方式访问的不一致,放爬虫的一个小手段,你得伪装成正常的用户的访问,header 的东西不能少

0
梅开源
梅开源

这个是有点不健壮有bug的,至少几年前我试是这样。

返回顶部
顶部