python爬虫之爬取多篇含有关键词的文章标题和内容优化

最新推荐文章于 2025-07-26 11:10:09 发布

原创

最新推荐文章于 2025-07-26 11:10:09 发布 · 3.8k 阅读

43 ·

CC 4.0 BY-SA版权

文章标签：

#python

该博客介绍了如何使用Python爬虫优化抓取多个关键词对应的文章标题和内容。每个关键词会生成一个文件夹，每篇文章保存为独立的TXT文件。作者提醒，增加过多关键词可能导致爬取速度变慢。

python爬虫之爬取多篇含有关键词的文章标题和内容优化

需要和前篇联系起来

python爬虫之爬取多篇含有关键词的文章标题和内容

实现的功能

爬取多个关键字的文章标题和内容（将要爬取的关键词放在一个数组中，通过for进行遍历），并且每个关键字创建一个文件夹，每篇文章放在独自一个txt文件里面，运行结果（自己调试时，只设置页面为2，数组为两个）：
在这里插入图片描述

在这里插入图片描述

代码设计思想

可以观看前面那篇python爬虫之爬取多篇含有关键词的文章标题和内容，因为这篇代码是对上一篇的进一步优化，代码设计思想是差不多的。

源代码

（可能关键词太多爬起来会很慢。可以往data数组里面加。最好别加太多，我自己有试过，跑起来会很慢。）

import re
import requests
import os
from bs4 import BeautifulSoup
titles=[]
urls=[]
reg = "[^0-9A-Za-z\u4e00-\u9fa5]"#标点符号
data=['通用设备制造业','软件和信息技术服务业','金属制品、机械和设备修理业']
for j in range(0,len(data)):
    keyword

最低0.47元/天解锁文章

15 条评论

weixin_51500633 2022.05.03
请问这个怎么换网站呢，换成wiki或百度
- 土、拨鼠回复weixin_51500633 2022.05.04
  换了网站的话，网页源代码结构是不一样的，代码是要改动的而不是单纯换 url 就行的，你就找你需要数据的位置，关键标签+属性等方法定位就行了。前面那篇对于怎么去定位有一定的说明，可以参考参考。

一个小桃子 2022.03.23
你好我想问一下怎么能固定日期范围
- 土、拨鼠回复一个小桃子 2022.03.24
  什么日期范围？

weixin_47569718 2021.05.14
为啥我整出来的是乱码
- weixin_47569718回复土、拨鼠 2021.05.17
  把36行的改成GKB 就好了
- 土、拨鼠回复rabbit599 2021.05.14
  你可以试着把报错的代码去网上搜一搜什么原因吧？
- rabbit599回复土、拨鼠 2021.05.14
  谢谢！不好意思我是新手，我改了之后第一次爬取成功了，后面再用又报错了，“'gbk' codec can't encode character '\xa0' in position 199: illegal multibyte sequence” 这是什么原因呀请问
- 土、拨鼠回复rabbit599 2021.05.14
  把代码里面的end-coding=’GBK‘应该是这样，有时候乱码就是编码问题，稍微改一下就好了。
- rabbit599回复土、拨鼠 2021.05.14
  您好，我也运行出来是代码，怎么改encoding呢？
- 土、拨鼠回复weixin_47569718 2021.05.14
  编码格式问题吧？你尝试改一下end-coding？