jsoup解析jsp代码碰到问题

i十十 发布于 2016/06/14 15:36
阅读 347
收藏 0

@黄亿华 你好,想跟你请教几个问题:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<title>New Document</title>
<meta name="Generator" content="EditPlus">
<meta name="Author" content="">
<meta name="Keywords" content="">
<meta name="Description" content="">
</head>

<body>
<table width="100%" border="0" cellspacing="0" cellpadding="0">
  <ecms.list tableid="8" nodeid="173" num="7">
    <tr>
      <td width="10"><img src="images/index_31.gif" width="4" height="8"></td>
      <td width="160"><a href="[$_URL]" target="_blank">
        <ecms.content field="Content" suffix="..." length="88">[Content]</ecms.content>
        </a></td>
    </tr>
    </ecms.list>
</table>
</body>
</html>


我的源文件内容是上面的内容,用jsoup解析后,打印doc怎么是下面的内容 。
问题1:我的自定义的标签"<ecms:list>"错位了?

问题2:如果有:<c:forEach></c:forEach>这样含有大写的字母的标签,会被转成小写<c:foreach></c:foreach>

问题3:<%=path%>会被转成:&lt;%=path&gt;


<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
 <head> 
  <title>New Document</title> 
  <meta name="Generator" content="EditPlus" /> 
  <meta name="Author" content="" /> 
  <meta name="Keywords" content="" /> 
  <meta name="Description" content="" /> 
 </head> 
 <body> 
  <ecms.list tableid="8" nodeid="173" num="7"> 
  </ecms.list>
  <table width="100%" border="0" cellspacing="0" cellpadding="0"> 
   <tbody>
    <tr> 
     <td width="10"><img src="images/index_31.gif" width="4" height="8" /></td> 
     <td width="160"><a href="[$_URL]" target="_blank"> 
       <ecms.content field="Content" suffix="..." length="88">
        [Content]
       </ecms.content> </a></td> 
    </tr>  
   </tbody>
  </table>   
 </body>
</html>





加载中
0
黄亿华
黄亿华
不要用Jsoup去解JSP,Jsoup只适合解纯HTML。这里它会对标签进行判断,将一些“不合理”的标签结构重写,例如table tbody tr这样的结构。如果是简单的需求,建议你自己用正则去匹配吧。
i十十
i十十
谢谢!我用jodd解决了。 和jsoup差不多,但是jodd可以设置是否转换大小写,是否自动补全不完整的标签。还可以自定义selector。
返回顶部
顶部