爬取得猫眼电影前top100排行榜

最新推荐文章于 2021-09-26 08:47:56 发布

你喷不过我的

最新推荐文章于 2021-09-26 08:47:56 发布

阅读量1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签：爬取猫眼电影100数据

本文链接：https://blog.youkuaiyun.com/qq_43078889/article/details/85082099

爬虫专栏收录该内容

2 篇文章

订阅专栏

本文分享了使用Python和Anaconda环境下PyCharm编辑器进行猫眼电影网站爬虫的实践经验，介绍了如何抓取电影信息，包括电影名称、主演及上映时间，并解析了网页结构，展示了如何利用CSS选择器和正则表达式提取所需数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

声明

首先声明下这是我在csdn上发表的第一篇关于编程的文章，水平一般，技术含量也不高，所以想看骚操作的请尽快关闭，省得浪费宝贵的时间与生命。

环境介绍
这是一篇关于python爬虫文章，使用的是anaconda_python_3.7版本，编辑器为pycharm，浏览器为谷歌chrome，涉及到的第三方库不多，写过爬虫的应该都能看懂。
查看page_source
爬取top100的电影信息。首先用浏览器打开需要爬取数据的网页https://maoyan.com/board/4，观察页面，可以看见电影名，主演，上映时间点击图片，跳转到一个新的界面，可以查看该电影的详细信息

这下清楚了网页的布置，接下来查看我们需要的信息被分别放置在了源码的哪些标签内，右键点击检查
可以看霸王别姬的电影名，跳转链接被放置在了一个class为name的p标签内，主演信息放置在class为name的p标签内，上映时间放置在了class为releasetime标签内，三个标签均为兄弟标签。
仔细观察这个href超链接属性有点奇怪，没有协议没有域名，点击再次跳转到霸王别姬的详情页面。这应该是html一种语法形式，会自动在前面添加主界面的url，组成一个可以跳转的url。是真的nice
收缩标签可以看到关于霸王别姬的电影信息的所有标签都放置在了一个名为dd标签下，其他兄弟类dd标签也放置了其位置对应的电影信息
这就前10名电影信息的分布，但我们要爬取的是top100，点击第二页发现url发生了变化，末尾的0变成了10，第三页变成了20，那么我们可以通过修改末尾值的方法来完成网页跳转
要睡觉了，我简单点写
我的思路是通过css标签选择器，选取出我们需要的标签，再使用正则表达式提取关键信息，再使用迭代的方法获取存放电影信息的10个url，再保存再一个txt的文件内

最后将值迭代出来转换成整个的字符串使用with as方法写入文件中
特么
果然这种东西只能找时间多得点写