Python-最简单的爬虫
主要是怕自己忘了,记一下笔记。
- 需要一个requests模块,第一步下载模块
pip intall requests
- 在爬取数据的时候需要用到正则表达式,所以除了引用requests以外,还得引用re
import requests
import re
- 第一步,找到想要爬取网页的访问方式。在google开发者工具里的Network里的可以找到

用 requests.访问方式(‘url’)的方式进入网页,比如我想爬取的网址是b站
html = requests.get('https://www.bilibili.com/').text
可以print一下,看一下是否获取

这篇博客记录了使用Python进行简单网页数据爬取的过程,主要涉及requests和re模块。通过五个步骤,包括下载requests模块、获取网页访问方式、筛选目标数据,成功爬取并打印了b站首页视频标题。
最低0.47元/天 解锁文章
1566

被折叠的 条评论
为什么被折叠?



