spider_使用随机User-Agent库，爬取笔趣阁万古天帝章节目录_(fake_useragent)

转载于 2019-06-05 10:41:00 发布 · 304 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/YangQingHong/p/10978251.html

文章标签：

#python

本文介绍了一种使用Python和第三方库实现的爬虫技术，通过随机更换User-Agent的方式爬取笔趣阁网站的小说《万古天帝》章节目录，展示了如何处理网页编码问题并解析网页内容。

"""
使用随机User-Agent库，
爬取笔趣阁万古天帝章节目录

"""

import requests
from fake_useragent import FakeUserAgent
import random
import chardet
def biquge():
# 定义url，
    url = "https://www.biqudao.com/bqge25289/"

    # 使用第三方库随机获得一个userAgent
    userAgent = FakeUserAgent().random
print(userAgent)
print(type(userAgent))

# 传入字典中
    headers= {
"User-Agent":userAgent
    }
# 返回字节流数据
    bytesHtml=requests.get(url,headers=headers).content
# 判断网页编码格式,返回一个字典
    res=chardet.detect(bytesHtml)
# 解码
    html=bytesHtml.decode(res["encoding"])
print(html)

biquge()