微信爬虫，爬取网页信息（使用代理和模拟浏览器）

最新推荐文章于 2025-09-23 11:39:51 发布

原创

最新推荐文章于 2025-09-23 11:39:51 发布 · 5.8k 阅读

5 ·

CC 4.0 BY-SA版权

#http://weixin.sogou.com/
import re
import urllib.request
import time
import urllib.error
import urllib.request

import scipy
#自定义函数，功能为使用代理服务器爬一个网址
def use_proxy(proxy_addr,url):
    #建立异常处理机制
    try:
        req=urllib.request.Request(url)
        req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36')
        proxy= urllib.request.ProxyHandler({
 
 'http':proxy_addr})
        opener = urllib.request.build_opener(proxy, url