【python实战系列】方便的工具-网络爬虫(六)

今天晚上就在我刚刚学了一点python的爬虫时,我的室友找到了我,说他最近关注了一个很有意思的博主,想把他的文章内容全部抓取下来,方便查看。听说我最近学点一点点爬虫的小技巧,于是想让我帮帮忙。

    正好我学了爬虫没地方去使用,于是我拿起键盘就敲起了代码。首先找到那位博主,分析分析他文章的结构:

    进入该网页:https://blog.youkuaiyun.com/evan_qb/article/list/1,我们开始分析,最后的1,肯定是分页的数据,我们可以通过改变数组来获取不同分页的数据。

     接着我们通过chrome浏览器来审查一下每个文章的HTML元素:

 

可以看到,我们需要的信息都在class="article-list"下面的class="csdn-tracking-statistics"盒子下面,我们可以通过python提供的BeautifulSoup库来获取这一块的内容。

     整理一下,我们的获取思路如下:

          1. 通过requests请求地址获取整个网页的内容

          2. 再通过BeautifulSoup获取以上元素的内容

          3.最后通过一些处理,获取我们需要的数据

import requests, bs4

count = 1

# #  article-item-box > article-item-box

url = 'htt
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值