【Python爬虫】20行代码爬取整本小说，从此告别熬夜追更，各大平台通用，想看就看，太爽了！

第一次用Python爬虫的时候把自己都惊到了 - 不到30秒，一整本《斗破大陆》就乖乖躺在了我的电脑里！
在这里插入图片描述

谁能想到，学Python没多久的我，现在也能写出这么牛的爬虫程序！从此告别熬夜追更，告别网站广告，想看就看，太爽了！

今天就教你用Python写个小爬虫，20行代码实现自动下载小说，学会后你就是下一个爬虫工程师！

Python爬虫的两把称手小刀

记住，写爬虫最重要的就是这两个Python库，它们就像是你的左右手：

import requests  # 负责发请求，就像你打开浏览器   from bs4 import BeautifulSoup  # 负责解析网页，就像你用眼睛看内容      # 安装命令   # pip install requests   # pip install beautifulsoup4

温馨提示：每个Python爬虫工程师都得装这俩库，要是安装报错，试试在命令前加个 python -m，这个小技巧能解决80%的安装问题。

发送请求，爬虫第一步

写爬虫最关键的是伪装成普通用户，不然分分钟被网站拦截：

# 这样写是会被网站拒绝的！❌   response = requests.get(url)        # Python爬虫正确姿势 ✅   headers = {       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',       'Referer': 'http://www.example.com'  # 假装是从正常网页来的   }   response = requests.get(url, headers=headers, timeout=5)  # 超时5秒就放弃   response.encoding = 'utf-8'  # 中文显示才不会乱码      # 调试技巧   print(f'状态码: {response.status_code}')  # 200就是成功   print(f'页面内容: {response.text[:100]}')  # 偷偷看看内容对不对

温馨提示：每个成功的Python爬虫都得带headers，不然分分钟被当成机器人轰出门！我第一次就是光着头就上，结果被网站拉黑了…

解析网页，爬虫的核心技能

网页内容到手了，接下来就是要用Python爬虫的第二个神器BeautifulSoup来提取内容：

# 创建解析器   soup = BeautifulSoup(response.text, 'html.parser')      # 找到章节列表   chapter_links = soup.select('.chapter-list a')  # CSS选择器，准确定位目标      # 存储章节信息   chapters = []   for link in chapter_links:       title = link.text.strip()  # strip()去掉多余空格       href = 'http://www.example.com' + link['href']       chapters.append((title, href))

温馨提示：写爬虫最烦人的就是定位元素，按F12打开网页源代码，找准目标元素的特征，就像找宝藏一样！

自动下载，爬虫的最终目标

有了章节链接，就可以开始愉快地下载了：

with open('我的小说.txt', 'w', encoding='utf-8') as f:       # 显示总进度       for index, (title, link) in enumerate(chapters, 1):           try:               print(f'正在下载 [{index}/{len(chapters)}] {title}')                              # 获取章节内容               chapter = requests.get(link, headers=headers)               chapter.encoding = 'utf-8'                              # 解析章节正文               chapter_soup = BeautifulSoup(chapter.text, 'html.parser')               content = chapter_soup.select_one('.chapter-content').text.strip()                              # 写入文件               f.write(f'\n{title}\n\n{content}\n')                              # 防止爬虫速度太快               time.sleep(1)  # 每章暂停1秒                          except Exception as e:               print(f'这章出问题了：{title}，错误信息：{e}')

温馨提示：写爬虫要讲武德，time.sleep()是必须的！我之前太激动，爬太快被封了IP，老老实实每章等1秒就没事了。

Python爬虫完整版
在这里插入图片描述