正则表达式提取html标签?

cc12 发布于 2015/06/10 09:07
阅读 2K+
收藏 0
如何使用正则表达式提取 a 标签中的href链接? 怎样提取img标签中所有的链接,不光src中的 还包含其他属性中的 链接 求大神解答
加载中
0
安西都护府首席程序员
安西都护府首席程序员
/**
		 * z-> <A
		 * A->[^>]{}|H
		 * H->href="[^"]"
		 * 
		 * 提取a标签href的内容
		 */
		Pattern patternhref=Pattern.compile("<a [^>]*href=(\"|'){1}([^\"]+)(\"|'){1}");
		
		String alink="<a href=\"javascript:report('http://www.oschina.net/question/1168779_239307',239307,2)\">举报&nbsp;</a>";
		
		
	    Matcher matcherhref=patternhref.matcher(alink);
	    if(matcherhref.find()){
	   // 	System.out.println(matcherhref.group(2));
	    }
	    
	    
	    
	    /**
	     * Z->A=B
	     * 
	     * 提取img标签的所有连接
	     * 
	     */
	    Pattern patternimglink=
	    		Pattern.compile("src=\"[^\"]+\"|[^=]+=\"(http[^\"]+|www[^\"])\"");
	    String imgtag="<img src=\"/img/portrait.gif?t=1399607780000\" align=\"http://www.baidu.com\" alt=\"cc12\" title=\"cc12\" class=\"SmallPortrait\" user=\"1168779\">";
		
		Matcher matcher=patternimglink.matcher(imgtag);
		
		while(matcher.find()){
			System.out.print(matcher.group());
		}



返回顶部
顶部