import urllib
import re
def main():
filename="I:/proxys.txt"
page=urllib.urlopen("http://bbtproxy.100steps.net/index.html")
body=page.read()
regx1=r"(?si)<table width=600>(.*)</table>"
regx2=r"(/d+/./d+/./d+/./d+:/d+)"
proxys=re.search(regx1,body,re.DOTALL).group(1)
proxylist=re.findall(regx2,proxys)
f=open(filename,'w')
for proxy in proxylist:
f.write(proxy+' /n')
f.close() 

if __name__ == '__main__':
main()
该博客主要展示了如何使用Python的urllib和re模块从网页抓取并存储代理IP。通过正则表达式匹配HTML表格中的IP地址和端口号,然后将结果写入文件。
5946

被折叠的 条评论
为什么被折叠?



