
爬虫实战
文章平均质量分 67
s_kangkang_A
后来许多人问我一个人夜晚踟蹰路上的心情,我想起的却不是孤单和路长,而是波澜壮阔的海和天空中闪耀的星光。
展开
-
x-zse-96的JSRPC解决方案
zhihu,xze96,jsrpc原创 2022-09-20 16:41:40 · 1446 阅读 · 3 评论 -
更一篇刚出炉的解析
这次的目标是aHR0cHM6Ly93d3cua2Fua2FuZXdzLmNvbS9hLzIwMjItMDItMjMvMDAzMTAwNTE3NjUuc2h0bWw=说难不难,说简单也不简单慢慢分析吧首先,确定网页源码没有视频数据,那就肯定是走接口了,找找看吧。在上图找到了目标接口和数据。分析接口:上面的参数咱们从1到6命名参数1不知道是啥,页面源码搜不到参数2搜到了,在页面源码,就是一个叫omsid的东西,已解决参数3和5 固定值,一眼看出来的东西不多解.原创 2022-04-22 15:15:42 · 2663 阅读 · 0 评论 -
借x-emas-gw-sign解密,讲讲常见加密
目标页面:aHR0cHM6Ly9jb250ZW50LXN0YXRpYy5jY3R2bmV3cy5jY3R2LmNvbS9zbm93LWJvb2svaW5kZXguaHRtbD90b2Nfc3R5bGVfaWQ9ZmVlZHNfZGVmYXVsdCZzaGFyZV90bz13ZWNoYXQmaXRlbV9pZD03MzY1MjM2OTQ3MjExOTIxODA5JnRyYWNrX2lkPTM0NUU4NjI5LUNGNjQtNEYyQy1BMzYxLUI3RUI0REEzOTQ0QV82NjE2NDg0MzM原创 2021-12-21 17:10:53 · 1743 阅读 · 3 评论 -
视频爬虫逆向简单入门级
严禁用于学习交流之外的任何用途,侵删只能说这个比较简单,没什么难度,很适合做js逆向入门下面就开始解析一下这个网站吧。aHR0cHM6Ly93d3cubWlndXZpZGVvLmNvbS9tZ3Mvd2Vic2l0ZS9wcmQvZGV0YWlsLmh0bWw/Y2lkPTcxMzM4OTcxNg==确认需要的视频链接不在源码后,我们开始找接口分析: 图一这么一看,好像是直...原创 2021-08-31 15:35:36 · 880 阅读 · 0 评论 -
JS逆向——一个新的视频爬虫
仅限技术交流和学习记录,严禁用于任何商业用途,否则后果自负,侵删个人觉得坑还挺多,但难度不算大的一篇js逆向。来吧,先分析。起初解析pc网页端,感觉有点难度,然后就转到移动网页端了,其实是一模一样的,除了接口和接口非加密参数不一样。所以没啥区别,这里就还是按照移动网页端来解析。1,第一步,打开网页找接口。我们在上图已经找到了目标接口和视频真实链接,这是个m3u8链接,图里截取了部分。2,对接口参数做解析。可以看到,对该接口发起了post请求,我们接着看参数:.原创 2021-07-23 16:48:32 · 1406 阅读 · 0 评论 -
如何使utid(cna)有效,解析 https://log.mmstat.com/eg.js
我在上篇博客记录了批量抓取接口数据的一些解析,详情:https://blog.youkuaiyun.com/s_kangkang_A/article/details/116267728还分析了从 https://log.mmstat.com/eg.js 获取的utid(cna)不可用并做了测试也提出来解决办法,使用隧道代理和selenium+chromedriver的方式获取utid(cna)做一个支撑抓取的数据库表但是,从https://log.mmstat.com/eg.js 获取的utid(cn...原创 2021-05-13 16:16:44 · 2041 阅读 · 0 评论 -
视频网站的接口解析
先把代码放上来import base64import hashlibimport jsonimport timeimport requestsimport urllib3urllib3.disable_warnings()def get_data(url, utid): """ 生成data参数 :param url: 视频地址 :return: """ # 从连接中获取vid vid = url.split('id_')[-原创 2021-04-29 14:26:32 · 9445 阅读 · 0 评论 -
Python爬虫 Selenium使用隧道代理
1,由于隧道代理的特点,使用selenium+隧道代理,一般用于做一次性访问达到某种目的,而不是长时间保持状态的访问,更不适用于需要跳转的情况2,selenium+隧道代理,不可设置无头模式(不可添加 headless)代码:from selenium.webdriver import Chrome, ChromeOptionsimport zipfileimport stringdef create_proxyauth_extension(proxy_host, proxy_por原创 2021-03-30 13:46:17 · 2073 阅读 · 1 评论 -
视频爬虫js逆向——我搜不到密参怎么办
文章仅限于技术交流与学习禁止用于商业盈利侵权即删网站示例:aHR0cDovL3ZpZGVvLmNhaXhpbi5jb20vMjAyMS0wMS0xNS8xMDE2NTEzNDkuaHRtbA==针对该网页抓取视频,我们来分析一波。首先,我们明确,该视频无法在源码获取。抓包,首先看xhr包:打开,逐一查看:我们在如下xhr链接找到了视频数据:该链接中含有以下参数于是,我们需要找到数据来源。先找最具特征的,一般来说,我们会先找sign,在以上参数中,有..原创 2021-01-19 17:08:42 · 1435 阅读 · 0 评论 -
微博同城热搜抓取逻辑(333城市)
接口需要从移动端拿安坐模拟器加Fiddlerimport reimport sysimport timeimport pymysqlimport requests# 获取经纬度def get_ll(): # 经纬度接口 url = 'https://m.weibo.cn/api/container/getIndex?uid=1887387237&wm=9006_2001&from=10A8195010&sourcetype=weixin&原创 2020-08-25 10:23:51 · 2621 阅读 · 1 评论 -
博客园,模拟登陆破解滑动验证码
import randomimport timefrom PIL import Imagefrom selenium import webdriverfrom selenium.webdriver.common.action_chains import ActionChainsdef isSimilar(image1, image2, x, y): """ 比较两种图片在(x,y)坐标点位置的像素值是否一样 :param image1: :param imag.原创 2020-08-12 17:07:59 · 385 阅读 · 0 评论 -
抖音无水印视频抓取与按帧截取图片
代码实现无水印视频抓取并根据视频按帧取图。你喜欢的抖音美女,每一帧都是壁纸,上码:import requestsimport refrom urllib import requestimport cv2import argparseimport osimport urllibdef get_parse(url): resp = requests.get(url) web_url = resp.url item_id = re.search('/(\d+)/原创 2020-08-06 11:22:32 · 9924 阅读 · 0 评论 -
tkinter与爬虫的有机结合,视频爬虫GUI实现(新增下载功能)
这是非gui版的爬虫源码,功能更强大,支持视频下载,逻辑也更加完整,感兴趣可以看看https://github.com/iskangkanga/PiracyVideo简单实现GUI版本的视频爬虫效果图:代码:import refrom service.geter import get_responseimport requestsimport tracebackfrom tkinter import *def get_source(): # 响应第一个b.原创 2020-08-04 14:53:12 · 1294 阅读 · 4 评论 -
爬虫多线程卡死或阻塞,程序无法异常终止
关于m3u8格式视频多线程下载及合并的详解,在以前博客里记录过最近突发奇想,准备搞点非正规电影网站的资源下载器,在进行第一个网站时,可能因为该网站通信质量差,导致我多线程卡死,阻塞了研究了一下网上资料以及自己的代码,已经解决了,下面是思路当线程卡死或者阻塞时,应首先考虑网络或者其他异常导致请求无法自动判定为超时,挂掉该线程,而是使线程一直处于卡死状态当手动加上超时时间,就可以大概率解决该异常从某种程度上来说,我们做请求时,都应该加上超时限制,不然代码卡在奇怪的地方,还要分析好久任何一个ts文件.原创 2020-07-24 16:37:46 · 1422 阅读 · 0 评论 -
微博个人页面重定向
微博每个用户有一个专属该用户的uid通过该uid可访问该用户的主页在主页拿到需要的数据但微博对用户主页的访问,部分做了重定向处理,导致无法拿到数据下面解决该重定向问题import reimport timeimport requestsdef weibo(id): url = "https://weibo.com/u/{}" headers = { 'Host': 'weibo.com', 'User-Agent': 'Mozill.原创 2020-07-24 10:50:37 · 613 阅读 · 0 评论 -
快手字体反爬
import reimport requestsfrom fontTools.ttLib import TTFontdef kuaishou(id): headers = { # m端浏览器头,需要cookies但不需要登录,pc两者都要, # 不论是pc端还是m端,都会偶尔弹验证,手动过一下,cookies还能用 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/M.原创 2020-07-23 15:22:50 · 700 阅读 · 0 评论 -
Python实现AES加密解密
报错:TypeError: decrypt() cannot be called after encrypt()原因:cryptor不能写在主函数中同时给加密函数与解密函数使用,尽管加密解密都是用: cryptor = AES.new(key, mode, iv),但若将其定义在main并分别传给加密解密同时使用时,会报错。解决:在加密与解密方法分别写cryptor = AES.new(key, mode, iv)报错:ValueError: Incorrect IV l原创 2020-07-07 15:38:12 · 5707 阅读 · 0 评论 -
MySQL查询:sql语句
两条sql语句组合查询功能:下面代码实现功能为查询is_deleted为1的id最大的一条记录根据id,取该记录后面所有数据sql1 = ''' select max(id) from bilibili_move_house_total_ups_distinct where is_deleted = 1 '''cursor.execute(sql1)results1 = cursor.fetchall()print(results1[0][0])s.原创 2020-07-07 13:52:42 · 212 阅读 · 0 评论 -
字体反爬虫——58租房
58是一个字体反爬相对简单的网站了,它只对数字进行了反爬处理。适合拿来做字体反爬入门。先上代码,在详细记录,纯小白操作,不怕看不懂啊:import requestsimport base64import refrom fontTools.ttLib import TTFont# 获取参数,这里主要是返回的响应内容,及匹配到的font_face被base64编码的文件def ...原创 2020-01-03 14:28:03 · 416 阅读 · 0 评论 -
某某文学网站小说爬虫
这个爬虫来自于一个问答贴:看雪论坛:https://bbs.pediy.com/thread-256306.htm吾爱破解:https://www.52pojie.cn/thread-1075559-1-1.html发帖人是一个人。感谢大佬提供技术支持:切丝怕怕:https://bbs.pediy.com/user-733836.htm这大概是我遇见反爬做的,最,那啥的小说...原创 2019-12-26 17:52:15 · 33141 阅读 · 0 评论 -
知乎首页爬虫
尝试了一下知乎首页爬虫:import reimport requestsfrom urllib import parse首页链接 = []headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/...原创 2019-12-24 15:41:41 · 720 阅读 · 0 评论 -
selenium:打开多界面,操作句柄,控制页滑动,正则表达式,操作输入框和按钮,定位复合elements
有个比较有趣的网站,需要执行两个步骤:切换到other商品页面筛价,即输入价格区间emmm,没有前后顺序要求,这个网站也比较神奇上代码在解释# -*- coding:utf-8 -*-import refrom selenium import webdriverdriver_path = r'E:\Tools\cd\chromedriver.exe'chrome_...原创 2019-12-13 14:01:30 · 315 阅读 · 0 评论 -
网易云思路
https://www.cnblogs.com/brusally/p/11200069.htmlhttps://blog.youkuaiyun.com/weixin_40444270/article/details/81260638https://www.zhihu.com/question/36081767/answer/386606315https://blog.youkuaiyun.com/Jinglo...原创 2019-11-21 18:02:36 · 280 阅读 · 0 评论 -
python 实现多线程下载m3u8格式视频,使用FFmpeg合并
如果你需要下载的m3u8文件被加密请移步:https://blog.youkuaiyun.com/s_kangkang_A/article/details/103163073电影之类的长视频好像都用m3u8格式了,这就导致了多线程下载视频的意义不是很大,都是短视频,线不线程就没什么意义了嘛。我们知道,m3u8的链接会下载一个文档,相当长,半小时的视频,应该有接近千行ts链接。这些ts链接...原创 2019-11-14 17:53:10 · 10830 阅读 · 9 评论 -
python 实现多线程下载视频
贼快代码:def thread(url): r = requests.get(url, headers=None, stream=True, timeout=30) # print(r.status_code, r.headers) headers = {} all_thread = 1 # 获取视频大小 file_size = int(...原创 2019-11-13 16:15:35 · 3896 阅读 · 6 评论 -
python 使用iter_content实现视频下载
先看代码video_url = 'http://v1-default.ixigua.com/4e7d18412a0d03f316e9ec84c47a2938/5dcb87bf/video/tos/cn/tos-cn-v-0064/05d51f7a7af4480e8677f2b22b836fa8/'# 初始下载大小为0downsize = 0rsp = requests.get(vide...原创 2019-11-13 11:46:52 · 14143 阅读 · 0 评论 -
政府采购项目数据抓取
昨天投简历的时候,有个HR给了我个网站,http://www.dg.gov.cn/machong/zfcg/list.shtml大致意思我也没懂,聊天也不回我,我只能按自己的理解尝试去抓点数据,看看有没有戏,找实习找了半个多月,毫无进展。下面是这个网站的代码:from lxml import etreeimport requestsimport pymysqlheader...原创 2019-07-23 15:59:19 · 2059 阅读 · 3 评论 -
通用爬虫——某站小说抓取
这是一个基于scrapy框架的通用爬虫,比较简单的抓取了两项数据,章节目录和内容。爬的小说名字是:长宁帝军。SQL文件截图后就删了,盗版内容,不予传播,感谢作者和平台下面是代码:爬虫:cn.py:# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfrom sc...原创 2019-07-23 15:40:10 · 533 阅读 · 2 评论 -
半Ajax数据获取——京东商城爬取
我们来了解一下京东的商品爬取。爬取方式是selenium+chromedriver获取数据。我们首先分析一下京东网站,比较神奇一:构造链接我们以手机为例第一页:https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=3c3ab...原创 2019-06-03 13:38:08 · 1285 阅读 · 0 评论