只是简单抓了下文章日期和标题,修改下也可以抓链接,然后从链接再去抓内容
效果如下:
代码如下:
'''
爬取博客园某个作者所有文章
'''
from bs4 import BeautifulSoup
import requests
def get_bs(author, page=1):
'''
传入作者博客园的id,页数(不传页数则从第一页开始查找)
如果存在下一页按钮,则递归调用自己获取下一页的数据
'''
r=requests.get(f'https://www.cnblogs.com/{author}/default.html?page={page}')
soup = BeautifulSoup(r.content,'html5lib')
print(f'第{page}页:')
data_print(soup)
if soup.select(f'a[href="https://www.cnblogs.com/{author}/default.html?page={page+1}"]'): # 如果有下一页的链接
get_bs(author, page+1)
def data_print(soup): # 这里可以优化显示文章链接啥的
'''
通过c