python爬虫踩坑教程

前言:

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

什么?没看懂?没关系,我来给你解释一下

打开一个网页,里面有网页内容吧,想象一下,有个工具,可以把网页上的内容获取下来,存到你想要的地方,这个工具就是我们今天的主角:爬虫。

(来自参考系列文章:https://www.cnblogs.com/Albert-Lee/p/6226699.html)

 

1.安装python3.7 (按照文章步骤:) https://baijiahao.baidu.com/s?id=1605684471000597023&wfr=spider&for=pc

2.cmd里输入python 查看是否安装成功,会出现版本号

3.python -m pip install --upgrade pip (升级pip,不升级会导致报错),pip是现代的,通用的 Python 包管理工具。

 

 

4.安装成功后即可在python的目录执行pip命令安装需要的模块

使用pip命令安装requests模块:pip install requests 

使用pip命令安装pymssql模块:pip install pymssql

 

 

5.进入Windows命令行窗口,输入python命令启动交互式解释器,输入python语句并执行,如下图所示。

输入python

回车会出现>>>

输入 print(‘he’)

退出解释器使用exit() 或者 ctrl+z

 

6.如何运行python爬虫程序文件:

直接键入python xx.py后回车确认。得到正确的运行结果

注:核心代码是一段正则匹配代码,例如:

# 爬虫代码1

req = requests.get(self.url).text

novel_urls = re.findall(r'<dd><a href ="(.*?)">(.*?)</a></dd>', req)[12:] # 去掉前11个更新的章节url

return novel_urls

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值