- 博客(15)
- 收藏
- 关注
原创 # DrissionPage小玩法
如果获取失败,可以改一下video_url[],中的数字0-3。如果还不行,那就是被隐藏了。可以找到但这几行肯定是不行的。前提是电脑上有谷歌浏览器。九行获取DOUYI小视频。
2024-12-23 20:51:14
232
原创 # 爬虫 # 简易的js逆向 # 逆向学习小案例
生成意思是s等于n.appKey或者进行判断,我们通过查看上文截取到r中的subDomain的值为"m"点击第一行进入相关js代码,打上断点,断点位置可能与点击位置不符,没有关系。n.data通过查看n的内容可以看到data的值为请求负载data的值。xxx内容已知查看加密过程c(),我们选中c,点击index.js:1。通过查看多个负载,看出t(时间戳)、sign(签名)是变化的。这个函数就是加密函数,点击函数前面的进行折叠然后全选复制代码。c(xxx)的意思是把xxx传给c函数进行加密。
2024-12-18 19:02:16
1289
1
原创 # 获取boss直聘网页数据 # 把获取到的数据进行分析和计算该地区平均工资 # 把分析出的数据给AI模型,编写出一份简历模板
第一次运行会报错应为没有登录kimi。需要在第一次运行报错后。(boss可登可不登)运行准备:下载谷歌浏览器,也可使用本地浏览器,但需要配置路径,以下代码没有配置。完整案例:在代码运行前选建立一个新目录:按照以下方式新建所有代码。卡在这一步不继续执行也不报错就刷新打开浏览器的页面,创建完成后运行main代码:运行过程中如果。
2024-12-07 14:53:23
399
原创 # Boss直聘数据获取 # DrisionPage # ChromiumPage
并案例功能较多分为5部分,今天先发前两部分,获取Boss直聘上的数据。可以选定职业、地区、获取数量。所需软件:谷歌浏览器。其他也可但要修改,一下代码没有修改。明天更新用提取出的关键,和现有的人工智能大模型,编写简历。所需图片:下载即可,之后在子程序修改图片路径即可。所需库:主程序前4行,子程序第一行。
2024-12-01 17:31:12
452
原创 # 知到(智慧树)刷课 # python # DrissionPage # Actions
在共享课下方找到相关课程后进入——关闭弹出学前须知串口(如果没有关闭成功需手动关闭)——遍历课程——找到没有达标的课程——进入课程——播放视频并静音并X1.5——出现选择时选出正确选项并关闭并播放视频——视频达标后——向下选择未达标的视频并播放……但是正常使用没什么问题。代码作用:可以索引找到没有观看的视频自动打开观看,中间出现选择题人机检测会自动选择正确选项并关闭播放视频,进度达到后会自动跳转下一个未达标的视频。导入DrissionPage模块——复制下方代码——运行——输入需刷课程全称——回车即可。
2024-11-23 19:41:02
3844
29
原创 # 爬虫案例 # DrissionPage # ChromiumPage # Actions # 获取TAOBAO商品信息
也可是别的,前几篇文章有提过。OK写完了 <&^&>。哪里不理解评论留言。昨天的代码经过修改验证,已经可是使用了。
2024-11-16 18:13:05
396
原创 # 浏览器自动化操作 # 模拟鼠标操作 # 爬虫相关自动化库 # DrissionPage # Chromium # Actions
以下是用元素索引的代码。运行过程中会出问题,元素索引不到。目前没要找到解决办法。准备用监听包解决,加上模拟鼠标刷新页面,来刷新包。好烦不写了,看注释,经作者验证,只有元素索引,经常会出现错误。在浏览器中模拟鼠标完成一些操作,可以用来加载获取数据,索引页面元素等。
2024-11-15 22:10:05
377
原创 # 爬虫应用 # 自动化浏览器 # 刷新页面 # 批量获取 # DrissionPage # ChromiumPage # re # requests
评论内容的获取,创建第二个动作链,模拟鼠标移动到相应位置,监听相应数据包,向下滚动1800个元素,循环获取相应评论包的内容。遍历列表,提取有用链接,创建一个新的标签,打开相应链接,监听相应包,等待包的加载,获取包的内容,返回的是json字典型,通过字典索引提取所需内容。并输入相应网址,获取视频的数量,评论包的数量(评论包数量要写小一点)因为代码并不完善。注意评论包的数量对于评论少的视频要填少一点,1,2即可。获取到评论包后,循环提取评论者的昵称,内容,时间,地点,并且创建相应文件来存放相应内容。
2024-11-14 20:47:00
1075
原创 # 爬虫应用 # 自动化 # 动作链 # DrissionPage # Chromium # ChromiumOptions # Actions
open_la.actions.move_to(a).scroll(delta_y=1200) 意思是滚轮向下滚动1200个像素。30是爬取30*5条评论也可修改。并创造动作链:刷新评论只需滑动滚轮即可,后续会更新其他动作(左键,右键等相应动作)应用场景:抓取包的过程中,有些数据过于多不去刷新是抓取不道的。利用循环让滚轮每次向下滚动刷新数据,并将监听到的数据包返回。把路径换成相应浏览器启动路径即可,注意是完整路径。我们以抓取DouYing评论为例;完整代码:与上文不同,但是结果一样。
2024-11-13 21:27:58
379
原创 # 爬虫应用 # 可视化窗口加爬虫 # 音频 # 批量 # tkinter #DrissionPage
多个获取就是多个获取,选择2号选项多个获取,输入链接,就是DY作者主页面的链接;把下面图片下载,之后查看其路径,然后把源代码上的路径替换。应用场景:DOUYING-PI-LIANG-HUA-CAI-JI 和 DAN-GE-CAI-JI。以下代码是在前几篇文章基础上建立的。所需库:re,requests,tkinter,DrissionPage。单个获取就是一个一个的获取,相应链接是视频详细页面的链接;此代码对于短小视频还可以,对于长视频或许还有些欠缺。输入链接后,点击获取视频就会下载视频。
2024-11-09 22:26:42
1193
原创 # python # 可视化窗口 # 可应用与爬虫 # tkinter
创建标签框——定义上下标签框距离并且填充完整——设置标签框内容(字体-大小)并向左对其——定义可变变量为整数型——设置默认变量为1——设置单选按钮(在choose_frame上展示-设置标题-变量类型-变量大小).pack(向左对齐,间距为60)创建标签框——定义上下标签框距离并且填充完整——设置输入类型为字符串类型——在标签框中输入内容...——设置输入框(在input_frame标签框中,宽度为100,让输入框更平滑,输入类型)具有功能:创建窗口,监听窗口(可自定义打印图片-选项-按键)
2024-11-08 21:25:02
486
原创 # 爬虫 # 应用 # 简易 # xpath # lxml # etree # subprocess #视频 # josn #音频视频拼接
函数用于将 HTML 字符串转换成一个 ElementTree 对象,这样你就可以使用 XPath 或 CSS 选择器来提取或操作 HTML 文档中的数据。按照自己的信息填写,打开某站,找到任意一视频,打开开发者工具,(F12快捷键或者查看上一文章有找寻方法,按此填写即可)。因为通过xpath索引出的内容是个带window.__playinfo__={...........}内容。给视频命名:(不要带特书符号)(最简单输入“1”即可)(也不能重复输入1)然后通过字典索引视频,音频位置。应用方面:某站视频。
2024-11-03 16:50:10
406
原创 #python爬虫 #自动化抓包 #DrissionPage #ChromiumPage #爬虫应用
他的所有视屏切片链接都在包里面,还是那个m3u8搜索界面,经过我们的搜索这个包为proxyhttp。我们随便点开一个链接,他将会下载一个.m3u8文件我们用记事本打开它,将会发现许多,视频切片网址。里面会有3个链接,这3个链接是存放所有视频切片链接的网址。首先我们要知道视频数据包的位置 已知该网站的视频由许多m3u8切片构成。我们所需要提取的是圈框部分,需要导入正则模块re,提取相应数据。我们需要的数据在vinfo里面,直接输出vinfo里面的内容。得到视频链接的头部和尾部,将其拼接——请求——保存即可。
2024-11-02 16:20:47
1068
原创 python爬虫应用
选择网路 —— 全部 随便找到一个响应,但是响应中有的有cookie,有的没有需要找打一个有的,没有的话ctrl+R刷新一下,然后划到最下方找到user-agent: 就在最下方。1. 需要修改21-28横中字典的cookie和user-agent的值。在显示后面输入:pip install requests (如图)简单一点就可以:将会把视频保存到.py文件的下方。如果没有安装:打开软件左下角终端如图。所需软件:本人使用的是Pycham。然后粘贴复制,替换字典中的值。
2024-10-31 15:41:15
750
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人