爬虫
m1f2c3
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬取小说
1、将html文件中的内容解析成小说,并保存# -*- coding: utf-8 -*-import urllib3from bs4 import BeautifulSoupimport requestsimport reclass getnovel: def __init__(self, url): self.url = url def d...原创 2019-10-02 23:54:44 · 719 阅读 · 0 评论 -
爬虫时遇到的编码问题
请谨慎观看,可能会有很多错误目前我认为最稳妥的编码解决方法1、首先检查网页源码,了解网页源码的编码方式如果网页源码中没有明确表明数据的编码方式,就直接用tcpdump截取数据,一点点对照着看,找出编码方式2、在已知编码方式的前提下使用requests和beautifulsoupreq = requests.get(url)soup = BeautifulSoup(req.conte...原创 2019-10-08 00:10:41 · 613 阅读 · 0 评论
分享