python3 伪装浏览器爬取网页内容的简单示例

最新推荐文章于 2024-07-21 21:39:32 发布

u014413032

最新推荐文章于 2024-07-21 21:39:32 发布

阅读量357

点赞数

分类专栏： python 文章标签：爬取网页

原文链接：http://www.512pic.com/181/2361-0.html

版权

python 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了一种使用Python进行网络爬虫的方法，通过构建请求头并利用urllib库获取网页内容，适用于Python 3.3版本。代码示例展示了如何设置User-Agent和其他HTTP头部信息，以提高爬虫的成功率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#! /usr/bin/env python
# -*- coding=utf-8 -*- 
# @Author 512pic
import urllib.request
 
url = "http://www.512pic.com"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
             'Accept':'text/html;q=0.9,*/*;q=0.8',
             'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
             'Accept-Encoding':'gzip',
             'Connection':'close',
             'Referer':None #注意如果依然不能抓取，这里可以设置抓取网站的host
             }
 
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read()
print(data)

上面代码适用是python3中（最新稳定版本python3.3），需要python2爬取网页内容的朋友可以看这篇文章：http://www.512pic.com/181/2361-0.html