spider_使用随机User-Agent库, 爬取笔趣阁万古天帝章节目录_(fake_useragent)

本文介绍了一种使用Python和第三方库实现的爬虫技术,通过随机更换User-Agent的方式爬取笔趣阁网站的小说《万古天帝》章节目录,展示了如何处理网页编码问题并解析网页内容。
"""
使用随机User-Agent库,
爬取笔趣阁万古天帝章节目录

"""

import requests
from fake_useragent import FakeUserAgent
import random
import chardet
def biquge():
# 定义url,
url = "https://www.biqudao.com/bqge25289/"

# 使用第三方库随机获得一个userAgent
userAgent = FakeUserAgent().random
print(userAgent)
print(type(userAgent))

# 传入字典中
headers= {
"User-Agent":userAgent
}
# 返回字节流数据
bytesHtml=requests.get(url,headers=headers).content
# 判断网页编码格式,返回一个字典
res=chardet.detect(bytesHtml)
# 解码
html=bytesHtml.decode(res["encoding"])
print(html)

biquge()

转载于:https://www.cnblogs.com/YangQingHong/p/10978251.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值