用正则表达式提取URL
import re
import urllib
url=raw_input()
s=urllib.urlopen(url).read()
ss=s.replace('\n','')
urls=re.findall('<a.*?href=.*?<\/a>',ss,re.I)
for i in urls:
print i
不过这样也有一点问题,如果"<a href=" 里面有用到javascript,且用到一个 "> " 小于号的话
就会匹配其他错误的URL,大家有什么更好办法不妨告诉我.
import re
import urllib
url=raw_input()
s=urllib.urlopen(url).read()
ss=s.replace('\n','')
urls=re.findall('<a.*?href=.*?<\/a>',ss,re.I)
for i in urls:
print i
不过这样也有一点问题,如果"<a href=" 里面有用到javascript,且用到一个 "> " 小于号的话
就会匹配其他错误的URL,大家有什么更好办法不妨告诉我.
本文介绍了一种利用Python的正则表达式从网页中抓取URL的方法,并讨论了该方法在遇到特殊字符时可能存在的问题。作者通过示例代码展示了具体的实现过程。
1285

被折叠的 条评论
为什么被折叠?



