python用正则表达式匹配网址

matay 发布于 2016/09/30 22:46
阅读 1K+
收藏 0

大家好,我用python正则表达式提取html文件里的<a href="thread-46204-1-1.html">链接,我的正则表达式如下:

link = 'http://www.discuz.net/thread-3778501-23-1.html'

link_regex='thread-(/d+)-(/d+)-1.html'

re.match(link_regex, link))

但是总是失败?这个正则表达式应该怎么写才对呢?

加载中
1
寂寞的原子
寂寞的原子
link_regex=r'thread-(\d+)-(\d+)-1\.html'
re.search(link_regex, link)

楼下说得有道理,部分匹配应该用search而不是match。

1
n
nbjiang

link_regex=r'.*thread-(\d+)-(\d+)-1\.html'

match要从头匹配

返回顶部
顶部