能不能用jsoup把网页中的“心得”部分选出来。

dirtymac 发布于 2013/07/09 20:29
阅读 462
收藏 0
<div class="comment-content">
                              
                            
                                                                                                                                     
                            <dl>
                                <dt>心  得:</dt>
                                <dd>手机是第一次在京东购买,其实没看到手机心里很忐忑,但今天打开包装,真的很开心,外观没有瑕疵。用起来还可以。推荐给大家啊。很感谢京东员工的辛劳,谢谢你们啊。收到东西我一直很满意!!!</dd>
                            </dl>
                                                        <dl> 
                                <dt>晒  单:</dt>             
                                <dd>            
                                    <div class="comment-show-pic"> 
                                    <table cellspacing="10">
                                    <tbody>
                                    <tr>                                
                                      
                                                                        <td>             
                                        <a class="comment-show-pic-wrap" href="http://club.jd.com/bbsDetail/764903_dbabc133-8a49-4567-9339-e1a99359a5f5_1.html" target="_blank" clstag="shangpin|keycount|product|shaipic">                       
                                            <img alt="" src="http://img30.360buyimg.com/shaidan/s128x96_g10/M00/17/15/rBEQWFFzsDsIAAAAAAP8y28mU-MAAEnvgHbsOcAA_zj941.jpg?v=20120828">   
                                        </a> 
                                    </td>                     
                                      
                                                                        <td>             
                                        <a class="comment-show-pic-wrap" href="http://club.jd.com/bbsDetail/764903_dbabc133-8a49-4567-9339-e1a99359a5f5_1.html" target="_blank" clstag="shangpin|keycount|product|shaipic">                       
                                            <img alt="" src="http://img30.360buyimg.com/shaidan/s128x96_g10/M00/17/15/rBEQWVFzsFEIAAAAAAK0e6NgM7QAAEnvgIM0FsAArST501.jpg?v=20120828">   
                                        </a> 
                                    </td>                     
                                      
                                                                        <td>             
                                        <a class="comment-show-pic-wrap" href="http://club.jd.com/bbsDetail/764903_dbabc133-8a49-4567-9339-e1a99359a5f5_1.html" target="_blank" clstag="shangpin|keycount|product|shaipic">                       
                                            <img alt="" src="http://img30.360buyimg.com/shaidan/s128x96_g10/M00/17/15/rBEQWVFzsGAIAAAAAAQUkp8wUxEAAEnvgLk_jgABBSq899.jpg?v=20120828">   
                                        </a> 
                                    </td>                     
                                      
                                                                         </tr>
                                    </tbody>
                                    </table>               
                                    <span clstag="shangpin|keycount|product|shaitext">
                                    <em class="fl" style="color:#9C9A9C;margin-right:5px;">共8张图片</em>
                                    <a class="p-simsun" href="http://club.jd.com/bbsDetail/764903_dbabc133-8a49-4567-9339-e1a99359a5f5_1.html" target="_blank">
                                    查看晒单&gt;</a>
                                    </span>                
                                    </div>            
                                </dd>            
                            </dl>
                                                        <div class="dl-extra">
                               
                                <dl>
                                    <dt>颜  色:</dt>
                                    <dd>
                                        白色
                                    </dd>
                                </dl>
                                                                                                <dl>
                                    <dt>尺  码:</dt>
                                    <dd>
                                        裸机版
                                    </dd>
                                </dl> 
                                 
                                                                                               <dl>
                                    <dt>购买日期:</dt>
                                    <dd>2013-04-20</dd>
                                </dl>
                                                            </div>
                        </div>
                        <div class="btns">
                            <a class="btn-reply" href="#none" title="2">回复(<span>2</span>)</a>
                            <div class="useful" id="4aef3461-2d0c-4931-b558-2e0bbc1866ca">   <a name="agree" class="btn-agree" title="155" href="#none">有用(155)</a>
                               
                            </div>
                            
                            </div>
                        <div class="item-reply reply-lz" style="display: none;">
                            <div class="reply-list">
                                <!-- 弹出回复层 -->
                                <div class="replay-form"> 
                                    <div class="arrow">
                                        <em>◆</em><span>◆</span>
                                    </div>
                                    <div class="reply-wrap">
                                        <p><em>回复</em> <span class="u-name"> jd_dd^_^ :</span></p>
                                        <div class="reply-input">
                                            <div class="fl" cid="4aef3461-2d0c-4931-b558-2e0bbc1866ca" rid=""><input id="rmput147191192" type="text" value=""></div>
                                            <a href="#none" class="reply-btn btn-gray">回复</a>
                                            <div class="clr"></div>
                                        </div>
                                    </div>
                                </div> 
                                <!-- 弹出回复层 -->
                            </div>
                        </div>  
                        <!-- replies begin--> 
                                                                        <div class="item-reply none">
                            <strong>2</strong>
                            <div class="reply-list"> 
                                <div class="reply-con">
                                    <span class="u-name">
                                        <a href="http://club.jd.com/userreview/20057278-1-1.html" target="_blank">xiaopihaiqunale</a>
                                        :
                                    </span>
                                    <span class="u-con">售后让人害怕,收到问题机,反新机的人好像很多</span>
                                </div>
                                <div class="reply-meta">
                                    <span class="reply-left fl">2013-07-03 00:04</span>
                                    <a class="p-bfc hl_blue" href="#none">回复</a>
                                </div>
                                <div class="replay-form" style="display: none;">
                                    <div class="arrow">
                                        <em>◆</em><span>◆</span>
                                    </div>
                                    <div class="reply-wrap">
                                        <p><em>回复</em> <span class="u-name">xiaopihaiqunale:</span></p>
                                        <div class="reply-input">
                                            <div class="fl" ud="20057278" uh="0" un="xiaopihaiqunale" cid="4aef3461-2d0c-4931-b558-2e0bbc1866ca" rid="22028788"><input id="rput22028788" type="text" value=""></div>
                                            <a href="#none" class="reply-btn btn-gray">回复</a>
                                            <div class="clr"></div>
                                        </div>
                                    </div>
                                </div>
                            </div>
                        </div>
                                                                                                <div class="item-reply none">
                            <strong>1</strong>
                            <div class="reply-list"> 
                                <div class="reply-con">
                                    <span class="u-name">
                                        <a href="http://club.jd.com/userreview/20057278-1-1.html" target="_blank">xiaopihaiqunale</a>
                                        :
                                    </span>
                                    <span class="u-con">在***搜了下这卖的苹果手机怎么样。本来还想在这买的,现在不敢买了</span>
                                </div>
                                <div class="reply-meta">
                                    <span class="reply-left fl">2013-07-03 00:03</span>
                                    <a class="p-bfc hl_blue" href="#none" style="visibility: hidden; ">回复</a>
                                </div>
                                <div class="replay-form" style="display: none;">
                                    <div class="arrow">
                                        <em>◆</em><span>◆</span>
                                    </div>
                                    <div class="reply-wrap">
                                        <p><em>回复</em> <span class="u-name">xiaopihaiqunale:</span></p>
                                        <div class="reply-input">
                                            <div class="fl" ud="20057278" uh="0" un="xiaopihaiqunale" cid="4aef3461-2d0c-4931-b558-2e0bbc1866ca" rid="22028757"><input id="rput22028757" type="text" value=""></div>
                                            <a href="#none" class="reply-btn btn-gray">回复</a>
                                            <div class="clr"></div>
                                        </div>
                                    </div>
                                </div>
                            </div>
                        </div>
                                                                         
                    </div>
                    <div class="corner tl"></div>
                </div>
            </div>
           
            <div id="comment-1" class="mc" data-widget="tab-content">
                <div class="item">
                    <div class="user">
                        <div class="u-icon"> <a title="查看TA的全部评价" href="http://club.jd.com/userreview/69307692-1-1.html" target="_blank">
                <img src="http://snspic.360buy.com/uploads/sns/images/headpic/-7/2389/7198/52081c76-e6cd-44ee-af97-7634ec2f1497_sma_.jpg">
</a>
                        </div>
                        <div class="u-name"> <a href="http://club.jd.com/userreview/69307692-1-1.html" target="_blank"> jd_yr65 </a>
                        </div> <span class="u-level"><span style="color:#ff0000">钻石会员</span><span class="u-address"></span></span>
                    </div>
                    <div class="i-item" data-nickname="jd_yr65">
                        <div class="o-topic">
                            <strong class="topic topic-best">精华</strong> 
                            <strong class="topic"><a target="_blank" href="http://club.jd.com/repay/764903_3fe2b4bc-2011-430e-96d2-4954a968bff4_1.html">送货快,用着很给力呀!嘿嘿</a></strong>
                        <span class="star sa5"></span> <span class="date-comment"><a title="查看评价详情" href="http://club.jd.com/repay/764903_3fe2b4bc-2011-430e-96d2-4954a968bff4_1.html" target="_blank">2013-03-05 08:40</a></span>
                        </div>
加载中
0
ahooii
ahooii
可以.
dirtymac
dirtymac
求代码!
0
打杂程序猿
打杂程序猿
很想,吐槽排版..那是给人看的吗..
dirtymac
dirtymac
sorry,比较着急
0
zachary124
zachary124
element.select("div. comment-content").select("dd").first().text();
dirtymac
dirtymac
回复 @卸载防沉迷 : 我已经回了。不过还是谢谢你
zachary124
zachary124
回复 @dirtymac : 看来你小白的不是一点,你还是找会的人吧,入数据库网上例子很多。
dirtymac
dirtymac
回复 @卸载防沉迷 : 每一个网站有300多条吧,选择想要的内容你刚刚你已经帮我搞定了,但是往mysql数据库中存是个不小的工程,我想请问一下你怎么把刚刚选择出来的内容直接存在已经建好的mysql数据库的表里?简单给我个代码,我可以模仿以下。
zachary124
zachary124
回复 @dirtymac : 如果是一个论坛,那他的每个版块的HTML格式都是一样的,一个程序就可以搞定,如果是不是论坛或者HTML不一样的,那就是得干体力活,为不同的网站开发不同的爬去程序
dirtymac
dirtymac
回复 @卸载防沉迷 : 是这样的,我同学负责爬数据,然后把爬好的网页给我,我把网页中的信息选出来,然后存到mysql数据库中。但是我是小白,任务还特别赶。我现在有一大堆网页,我不会批量处理哎。有没有好的办法啊?
下一页
0
哈哈__哈哈
哈哈__哈哈
回复 @dirtymac :   爬数据跟存储可以同时进行,都很简单的,如果是用java php爬取数据用广度优先算法爬取  选取信息用正则表达式,

熟悉C/C++的可以纯粹用C/C++调用linux  shell下的curl wget爬取信息,利用awk+sed选取信息

熟悉脚本的用java /php/python /ruby 都很适合

强烈推荐用ruby的nokogiri那个超级厉害,我上次用ruby爬去糗事百科前10页的数据并存进数据库才用了23行就彻底完成的
返回顶部
顶部