用Python第一个爬虫程序（urllib.request)

最新推荐文章于 2025-12-03 15:15:40 发布

原创最新推荐文章于 2025-12-03 15:15:40 发布 · 274 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python

Python 同时被 2 个专栏收录

8 篇文章

订阅专栏

Program

2 篇文章

订阅专栏

本文记录了博主使用PyCharm环境下开发的第一个Python爬虫程序，旨在抓取优快云博文中关于阅读数的数据，通过使用正则表达式解析网页源码，成功获取所需信息。

这是博主第一个小爬虫程序，纪念一下

2018/09/20

之前在ubuntu里面已经实现，不过今天开始使用pycharm，折腾了一上午…终于打出来了。

话不多说…

目标：爬取博主一篇博文(Path of Python – 爬虫)里面的游览数。

import re
import urllib
from urllib import request

pat='<span class="read-count">阅读数：(.*?)</span>'
data=urllib.request.urlopen("https://blog.youkuaiyun.com/BugOverseas/article/details/82762819").read()
datanew=data.decode("utf-8")
rst=re.compile(pat).findall(datanew)
print(rst)

输出结果：
在这里插入图片描述