Python爬虫：学了requests库和re库之后能做的事情

最新推荐文章于 2024-04-10 20:09:48 发布

weixin_33834628

最新推荐文章于 2024-04-10 20:09:48 发布

阅读量223

点赞数

CC 4.0 BY-SA版权

文章标签：爬虫开发工具 python

原文链接：https://yq.aliyun.com/articles/650681

本文介绍使用Python的requests库结合re模块抓取简书网站首页的作者、文章标题、简介及阅读数等内容的过程。通过实践，展示了如何发送HTTP请求获取网页源码，并利用正则表达式提取所需数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习的最好模式，就是学了就去马上用。上次是学完了urllib和re库之后尝试爬取了豆瓣分享的书单，那个时候发现urllib这个标准库还是不太好使。今天刚学了requests这个更好用的库之后，尝试和re一起使用爬取简书的第一页。

第一步：获取响应
使用的requests非常简单，非常人性化的get功能。

import requests
# 获取respnose
headers = {
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',
    'Host':'www.jianshu.com'
}
url = 'http://www.jianshu.com/'
response = requests.get(url,headers)
print(response.status_code)
context = response.text

第二步：从网页中提取目标信息
这一步主要涉及到观察网页构造，然后使用正则表达式

我的目标是：

作者
题目
文章简单内容
一些tag

先尝试构建获取作者的正则表达式

pattern = re.compile('<li.*?"name">.*?>(.*?)</a>',re.S)
re.findall(pattern,context)
#得到的结果
['\n',
 '马力_可能性与大设计',
 '文艺女青年专治各种不服',
 '杨壳壳',
 '投资人日知录',
 '白发老蘭',
 '2020号',
 '无戒',
 '大胃黄咚咚',
 'Aicuuu',
 '婉悦悠然',
 'MadisonT',
 '小荐荐',
 '会啊哦的跳跳虫',
 '梦旅人rose',
 '吴益军子',
 '饱醉豚',
 '张涔汐',
 '笙和箫',
 '手机壳0207',
 '雪花如糖']

一鼓作气，构建所有的目标信息的正则表达式模式：

pattern = re.compile('<li.*?"name">.*?>(.*?)</a>.*?"title".*?>(.*?)</a>.*?act">(.*?)</p>.*?/i>(.*?)</a>',re.S)
results = re.findall(pattern,context)
for info in results:
    author,title,abstract,read_num = info
    author = re.sub('\s','',author)
    title = re.sub('\s','',title)
    print(author,title,abstract,read_num )