使用爬虫爬取某电影分享网站最新电影链接 -- 基于Python Requests库

本文介绍了如何使用Python的Requests库爬取一个电影分享网站的最新短链接,并分析了爬虫的编写过程,包括网页内容过滤、异常处理、编码问题等,同时探讨了将Python脚本转换为exe可执行文件时遇到的挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前提:

我弟在搞微信群营销,使用了一个第三方微信机器人软件来群发“最新电影链接”,看着别人群里分享的各种短域名,自己却没有资源,于是来求助我,虽然对爬虫有点了解,但是从来没亲自做过爬虫,只能硬着头皮上了,于是就有了下面这个全过程。

准备工作:

先是理解一下他的需求,就是想要一个最新电影的链接,然后还要可以根据群成员的提问,比如有成员发送“爱情公寓”,那么就要通过机器人返回给“爱情公寓”的在线观看链接,形式必须是短域名,可通过手机在线观看,至于是正版还是TS,无所谓!

我需要做的,只是提供最新的电影链接,后面的工作都是微信群机器人的工作,听上去好像还没那么复杂,我只需要找到一个可以稳定观看最新电影视频的网站,然后将其播放链接爬下来,再通过网上提供的短域名转换API接口,转换为短域名,保存到本地的一个文件,供其使用即可。

说实话,这种想不劳而获,一分钱不花,就观看最新影院电影的方式,无论是通过度娘,还是谷哥,都好难找啊,不是没有,是很多,但是都是各种黑链,非常之不安全,而且这些链接,发送到微信后,都会被微信屏蔽禁止访问。

千辛万苦,总算是找到了一个网站,这里不想被认为有推广嫌疑,所以不写其网站大名了,但是这个分享网站还真是挺好的,各种乱七八糟的东西全都有,里面有个专题,就是专门分享最新电影链接的,而且都是短域名,连转换的步骤都省了,直接爬下来,存储到本地即可。

分析工作:

网站找到了,接下来就是分析一下爬虫具体要做的事情,因为这个网页分享的链接,网页源代码相当粗糙,一步一步来:

  • 第一步,先把指定的分享页面打开,爬取回来;

  • 第二步,将全部的短域名过滤出来,存储在一个列表里;

  • 第三步,再逐一将这些短域名打开,从中获取到这个视频的标题,也就是电影名称;

  • 第四步,将电影名称,对应的短域名,都存储在本地文件里,OK,完成。

这么分析下来,好像比预计的要简单很多哦!

实际编写:

  • 使用requests库,进行页面的爬取,将整个页面存储到变量中;

  • 使用re库,进行指定内容的过滤筛选,将筛选结果存储到变量中;

  • 使用os、logging库进行辅助功能的实现;

完整代码如下:

#!/usr/bin/python
# -*- coding:utf-8 -*


"""
Function: 爬取最新在线电影存储在本地
Create Time: 2018年08月12日 星期日 15时57分06秒
Author: **********@qq.com
"""

import o
哇塞电影网址大全 v20190303 更新日志 1.删除无效网址,更换主站地址。 2.优化搜索页面安全设置。 3.整合优化页面设置。 哇塞电影网址大全简介 哇塞电影网址大全,吸取了以往各种导航网址程序的优点,最大程度的完善优化了各项功能和指标,采用谁对我站贡献大,我站也给予他宣传和展示的机会就越多的流量交换模式,只要您在本系统注册登记您的网址,然后在你网站做好我站连接或是挂上流量互换代码,每次您网站有用户访问到放置我站流量互换代码的站,那么你的网站将在最近入站以及你网站所在分类的第一位置!连接双方公正平等。 哇塞电影网址大全系统前台简介: 1.采用ASP ACCESS架构,安全稳定,防注入功能; 2.新闻文章发布功能支持无限级分类,方便自由; 3.数据经过防下载等安全处理,后台可超强命名,随意改动; 4.每来访一个IP,来访网站就会自动排到第一,当天来路不同,显示颜色也不同,鼓励点入; 5.前台统计数据调用,最新点入网站调用,未审核网站调用等; 6.申请加入电影网址大全的网站按最后点进的时间排序首页和分类显示链接; 7.分类以昨日点入时间为准,每晚十二点后生成静态; 8.每来访一个IP,就会自动排到第一,当天来路次数不同,显示颜色也不同:有1次即显示,10次即套蓝色,30次即套红色加粗; 9.首页白天3分钟,晚上5分钟自动更新一次,全站24小时手动更新一次; 10.站内搜索功能,方便用户找到自己想要的网址; 11.程序全面优化和升级,增强对搜索引擎的收录功能; 12.流量互换功能,最大程度互换流量。 哇塞电影网址大全系统后台功能详细说明: 网站管理系统: 1.网站基本信息,说明:里面设置,网站标题,LOGO,关键词,统计代码,版权信息! 2.图片广告管理,说明:网站所有图片广告修改的地方,在首页可以看到所有图片广告,其中ads09是在网址内页显示!其它的都在首页和分类页有位置显示! 3.顶部文字广告管理,说明:这里的文字,首页,特别推荐里面显,分类首页和分类页,记得,改后要在生成html管理里,生成一下首页! 4.添加商家文字广告,说明:这里的文字,首页,中间部分,广告,那里的文字,在图片广告下面,一行七个! 5.管理商家文字广告,说明:修改删除商家文字广告! 6.管理帐号设置,说明:管理员用户名,密码的修改! 9.客户留言管理,说明:留言本的回复,修改和删除! 哇塞电影网址大全系统网站分类管理: 1.类别添加管理,说明:分类添加删除管理,这里说明一下添加时有首页显示,导航就显示在首页上面,添加时选酷站显示,就在首页下面酷站里调用! 2.类别删除管理,说明:删除不想要的分类! 3.类别修改管理,说明:分类修改里,有显示,[首][酷]就是上面说明的首页显示,和酷站显示! 哇塞电影网址大全系统网址管理系统: 1.添加网址链接,说明:用于后台管理员手工添加网址 2.添加实用查询|管理实用查询,说明:添加后在首页实用工具里显示! 3.添加名站导航|管理名站导航,说明:添加后在首页名站导航里显示! 4.添加友情链接|管理友情链接,说明:添加后在首页下部友情链接里显示! 5.查看所有的网址,说明:包含站长加的和用户自己加的! 6.站长加入的网址,说明:站长加入的网址! 7.用户加入已审核,说明:用户提交的网址,并通过审核的,说明一下,本站有自动审核功能,开启关闭,在 网站管理系统-网站基本信息里设置! 8.用户加入未审核,说明:用户提交的网址没审的,也就是没有作上本站链接的,或是作上链接没有点击到本站的! 9.有来路入未审核,说明:一般用户认为,有来路就应当审核了,这个功能,是为了关闭自动审核而设计的,手工审核的不管有没有来路,都要站长审核的! 10.加入黑名单网站,说明:加入黑名单的网址,点击这个导航,进入后,可以删除,和取消黑名单! 11.总来路小于五次,说明:本设计用于客户作上本站链接,点入量过小,没有贡献的站,可以多选删除! 12.常用维护共三项,说明:(1)开通所有未审的,一般不用这个,如果想要提交的站就收录,可以点击这个功能!(2)删除重复的网站,有一些站长提交过了,又提交了多次或是用二级域名提交,这样可以删除重复的网站!(3)删除所有未审核的站点,(4)清空所有网址,这个点时要注意,点击了,所有网址就都没有了! 13.站内报错,说明:用户在网址详提交网址打不开的情况页点击的! 14.站内网站搜索,说明:可以按名称,按网址,按分类,按ID号进行搜索! 哇塞电影网址大全系统模版修改管理: 首 页 模版修改 分类页模版修改 关于本站页模板 (这里建议会一些HTML知识的站长修改,如果不会不建议修改以免出错,修改时一定要备份) 生成html管理: 生成分类页面 生成生成主页及其他页 重置统计数据 清除昨天点入数据 清除总点入数据 清除总点出数据 (常用到上面两个,生成分类页和生成主页,也主是首页!每当后台修改了内容时,要马上显示出来就要手动生成,因为前台自动生成要3分钟!) 数据管理: 备份数据 恢复数据 压缩数据 (常用到备份数据,定期备份一下,免费数据出错找不回来数据!) 1.管理目录admin,管理员用户名5a3a,密码5a3acom 2.修改数据名5a3acom.asa修改成自己想要的名即可! 3.后台分类建议自己修改,要不大家的分类都相同影响百度收录。 哇塞电影网址大全系统前台页面  哇塞电影网址大全系统后台管理 管理目录admin,管理员用户名5a3a,密码5a3acom 后台页面: 相关阅读 同类推荐:搜索/网址导航源码
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值