用正则表达式提取html中作者名,论文名,出处名和年份

optmus 发布于 2013/03/12 16:04
阅读 400
收藏 0
      [1] 李广建,乔建忠.&nbsp&nbsp<a target="_blank" href="/kcms/detail/detail.aspx?filename=QBLL201001027&amp;dbcode=CJFQ&amp;dbname=CJFD2010">全自动生成网页信息抽取包装器的主要技术方法研究</a>[J]. <a onclick="&#xA;        getKns55NaviLink('','CJFQ','CJFQbaseinfo','QBLL');&#xA;      ">情报理论与实践</a>.
         <a onclick="&#xA;            getKns55NaviLinkIssue('','CJFQ','CJFQyearinfo','QBLL','2010','01')&#xA;          ">2010(01)
        </a></li>
          <li class="&#xA;          double&#xA;        ">
      [2] 陈红叶.&nbsp&nbsp<a target="_blank" href="/kcms/detail/detail.aspx?filename=WJFZ2003S2019&amp;dbcode=CJFQ&amp;dbname=CJFD2003">基于HTML和XML的信息提取方法研究</a>[J]. <a onclick="&#xA;        getKns55NaviLink('','CJFQ','CJFQbaseinfo','WJFZ');&#xA;      ">微机发展</a>.
         <a onclick="&#xA;            getKns55NaviLinkIssue('','CJFQ','CJFQyearinfo','WJFZ','2003','S2')&#xA;          ">2003(S2)
这是一个网页的部分内容,我想提取其中的作者名,论文名,出处名和年份。应该怎么写正则?
加载中
0
麻小北
麻小北
没有太具体的规则啊,如果是网页的话可以使用jsoup分析页面
optmus
optmus
奥,很感谢
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部