需要和前篇联系起来
实现的功能
爬取多个关键字的文章标题和内容(将要爬取的关键词放在一个数组中,通过for进行遍历),并且每个关键字创建一个文件夹,每篇文章放在独自一个txt文件里面,运行结果(自己调试时,只设置页面为2,数组为两个):



代码设计思想
可以观看前面那篇python爬虫之爬取多篇含有关键词的文章标题和内容,因为这篇代码是对上一篇的进一步优化,代码设计思想是差不多的。
源代码
(可能关键词太多爬起来会很慢。可以往data数组里面加。最好别加太多,我自己有试过,跑起来会很慢。)
import re
import requests
import os
from bs4 import BeautifulSoup
titles=[]
urls=[]
reg = "[^0-9A-Za-z\u4e00-\u9fa5]"#标点符号
data=['通用设备制造业','软件和信息技术服务业','金属制品、机械和设备修理业']
for j in range(0,len(data)):
keyword

该博客介绍了如何使用Python爬虫优化抓取多个关键词对应的文章标题和内容。每个关键词会生成一个文件夹,每篇文章保存为独立的TXT文件。作者提醒,增加过多关键词可能导致爬取速度变慢。
最低0.47元/天 解锁文章
1428





