2024年Python最新Python精讲Pyspider实例基础_pyspider 例子

原创已于 2024-05-01 09:23:24 修改 · 366 阅读

·

17

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #开发语言

于 2024-05-01 09:23:22 首次发布

程序员专栏收录该内容

121 篇文章

订阅专栏

本文介绍了如何使用Python和Pyspider爬取豆瓣电影，通过CSS选择器选择和解析网页内容，并讲解了如何处理翻页问题。作者还分享了获取和使用Python环境及学习资源的方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

创建项目的时候也自动创建了一个脚本，这里我们只需要改动脚本OK。我们要爬豆瓣的所有电影，选择http://movie.douban.com/tag/为起始点，也就是从这里开始爬。

首先是改动on_start

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里没什么讲的，改个网址而已，callback就是调用下一个函数开始这个起始网页。

改动index_page函数

我们先来看一下启示网页张怎样？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

有按类型分类，也有按国家/地区分类，还有按年代分类。我们可以选择按国家/地区分类，也可以选择按年代分类，最好不选择按类型分类，因为同一部电影既可能是爱情片、又可能是动作片（感觉怪怪的）。我这里选择按年代分类。

先看一下index_page我是怎么改的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可以看到我们是从response.doc之中选择tag的，然后

#content>div>div.article> table:nth-child(9)>tbody>tr>td>a

熟悉css selector的朋友可能会很熟悉这种东西，然而我是第一次接触，所以讲不出个所以然来。其实css selector跟正则表达式、xpath一样，也是一种内容选择的方法，然后也很好理解这是什么意思。

这是分隔符，熟悉css selector的朋友可以不用看下面的部分

我们先看一下

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们要选择的是2013、2012到1989这部分内容，那么我们右键选择2013然后审查元素

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后在链接中右键选择copy css path得到一个然后复制到文本中，我们选多几个tag的css path，查看一下规律

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可以看到选中的几个tag的css path不同点就在我红线标出的地方，那么我们把他们的不同之处去掉，只留下相同的部分，也就是最下面的一行，把他复制下来，放到

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

括号里面，告诉爬虫，我们要爬的部分在这个path下！

这就是一个得到css path的方法，就连我这个第一次接触css selector的人都可以找到

下面回归

接着是

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们先把符合上面css path规则的部分进行了替换，把www替换为了movie。为什么这样做呢？我们分别打开

http://www.douban.com/tag/2013/?focus=movie 和 http://movie.douban.com/tag/2013/?focus=movie 来看。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可以看到www的是没有翻页的！！！而movie的是有翻页的！！！我们要遍历所有电影，当然要有翻页了！！！所以这就是替换的原因所在！

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这段代码就是把得到的类似http://movie.douban.com/tag/2013?focus=movie的网页交给了下一个函数去解析了！

改动list_page函数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里的css path我是有pyspider自带的css selector helper得到的。说到这里就再讲一下pyspider自带的css selector helper怎么用（当然这不是万能的，要不然上面我也不会用浏览器的审查元素进行获取css path）

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们先点击脚本编辑器的中间上方的run

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

选择follows，看到这样的

点击箭头继续。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

顺便说一下，如果点击箭头follows就没有链接了，那么说明你上一个函数的css path没有选对！回去修改！！

到这里再选一个链接的箭头继续。回到web下。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
。**

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。