python爬虫踩坑教程

最新推荐文章于 2025-09-17 11:09:03 发布

原创最新推荐文章于 2025-09-17 11:09:03 发布 · 353 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

前言：

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

什么？没看懂？没关系，我来给你解释一下

打开一个网页，里面有网页内容吧，想象一下，有个工具，可以把网页上的内容获取下来，存到你想要的地方，这个工具就是我们今天的主角：爬虫。

(来自参考系列文章：https://www.cnblogs.com/Albert-Lee/p/6226699.html)

1.安装python3.7 (按照文章步骤：) https://baijiahao.baidu.com/s?id=1605684471000597023&wfr=spider&for=pc

2.cmd里输入python 查看是否安装成功，会出现版本号

3.python -m pip install --upgrade pip （升级pip，不升级会导致报错）,pip是现代的，通用的 Python 包管理工具。

4.安装成功后即可在python的目录执行pip命令安装需要的模块

使用pip命令安装requests模块：pip install requests

使用pip命令安装pymssql模块：pip install pymssql

5.进入Windows命令行窗口，输入python命令启动交互式解释器，输入python语句并执行，如下图所示。

输入python

回车会出现>>>

输入 print（‘he’）

退出解释器使用exit() 或者 ctrl+z

6.如何运行python爬虫程序文件:

直接键入python xx.py后回车确认。得到正确的运行结果

注：核心代码是一段正则匹配代码，例如：

# 爬虫代码1

req = requests.get(self.url).text

novel_urls = re.findall(r'<dd><a href ="(.*?)">(.*?)</a></dd>', req)[12:] # 去掉前11个更新的章节url

return novel_urls

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。