使用Python简单爬取博客园某个博主的所有文章

最新推荐文章于 2021-03-08 23:09:21 发布

原创

最新推荐文章于 2021-03-08 23:09:21 发布 · 1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#爬虫 #Python #博客园

只是简单抓了下文章日期和标题，修改下也可以抓链接，然后从链接再去抓内容

效果如下：

代码如下：

'''
爬取博客园某个作者所有文章
'''
from bs4 import BeautifulSoup
import requests

def get_bs(author, page=1):
    '''
    传入作者博客园的id，页数（不传页数则从第一页开始查找）
    如果存在下一页按钮，则递归调用自己获取下一页的数据
    '''
    r=requests.get(f'https://www.cnblogs.com/{author}/default.html?page={page}')
    soup = BeautifulSoup(r.content,'html5lib')
    print(f'第{page}页：')
    data_print(soup)
    if soup.select(f'a[href="https://www.cnblogs.com/{author}/default.html?page={page+1}"]'):  # 如果有下一页的链接
        get_bs(author, page+1)

def data_print(soup):  # 这里可以优化显示文章链接啥的
    '''
    通过css选择器打印所有日期和文章标题
    '''
    for day in soup.select('div.day'):
        for riqi in day.select('div.dayTitle a'):
            for wenzhang in day.select('a.postTitle2'):
                print(riqi.

最低0.47元/天解锁文章

200万优质内容无限畅学

幼儿园二园长

博客等级

码龄15年

26
原创

147
点赞

517
收藏

234
粉丝

关注

私信

热门文章

分类专栏

CI 2篇
接口 4篇
linux 1篇
Python 16篇
selenium 3篇
爬虫 2篇
UI自动化 3篇
mysql 1篇
PowerVC 1篇
容器 1篇
K8s 1篇
工具 5篇
pytest 4篇

展开全部收起

上一篇：: 轻量级IDE：sublime text3 从安装到使用舒适

下一篇：: FasterRunner安装教程（Windows版）

最新评论

《pytest测试实战》新手友好版——第四章参数化测试
2301_79706116: 从一看到四，博主写的好好，小白也可以懂，求更新
linux+jenkins+robotframework自动重跑失败的部分用例
qq_35406450: 有点问题，用例都PASS的话，第2和3条命令就执行报错，任务是（用例）成功的，但最终结果是失败的
mysql查询每个学生的各科成绩，以及总分和平均分
jxjjcjb: SELECT s.sno, s.sname, max( CASE WHEN c.cname = '计算机导论' THEN degree ELSE NULL END ) AS 计算机导论, max( CASE WHEN c.cname = '操作系统' THEN degree ELSE NULL END ) AS 操作系统, max( CASE WHEN c.cname = '数字电路' THEN degree ELSE NULL END ) AS 数字电路, max( CASE WHEN c.cname = '高等数学' THEN degree ELSE NULL END ) AS 高等数学, sum(degree) AS 总分, avg(degree) AS 平均分 FROM student s LEFT JOIN score g ON s.sno = g.sno LEFT JOIN course c ON c.cno = g.cno GROUP BY s.sno
《pytest测试实战》新手友好版——第一章 pytest入门
做自己想做的—性能测试: 对于小白的我很有帮助，把之前的内容结合作者的写法复习了一遍，给你点赞
Python+selenium点击网页上指定坐标
峰勇力: 请问X和y的坐标是以哪一个框框为基础的呀，最后验证出来只是窗口部分，不包括上面的网址栏和标签栏，那这样有什么办法快速知道x和y的坐标吗？

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。