自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

原创 如何实现某短视频平台批量作品ID的作品详情采集

通过本文介绍的爬虫程序,你可以轻松实现短视频平台批量作品详情的采集。结合并发处理、反爬虫策略和数据存储优化,可以进一步提升爬虫的效率和稳定性。希望本文对你有所帮助!

2025-02-27 15:31:03 205

原创 2025最新版!Fiddler抓包实战:深度解析短视频评论采集技术

某app短视频评论采集

2025-02-23 18:35:19 1260

原创 2025最新版:通过Fiddler抓包采集某音作品列表、视频列表,轻松搞定!

Fiddler是一款功能强大的网络抓包工具,可以捕获和分析HTTP/HTTPS流量,是进行网络调试、数据采集的利器。2025年,Fiddler依然保持着强劲的势头,成为众多开发者、数据分析师的首选工具。

2025-02-23 18:15:02 942

原创 dy号转uid和sec_uid

dy作为一款热门的短视频社交平台,每个用户都有着唯一的用户ID(uid)和ID(sec_uid)。但是,有时候我们可能只能获取到别人的dy号,而不知道其真实的用户ID。本文将教你如何通过dy号来获取对应的uid和sec_uid。输入抖音号:获取查询结果:转换成功,可以批量转换,接口转换,特此声明仅用于学习交流,不得用于其他用途。

2024-10-24 10:48:05 1280 1

原创 douyin uid转sec_uid 各种进行转换

是一个很实用的工具 uid转sec_uid。

2024-10-24 10:46:03 623 7

原创 通过Fiddler抓包采集某音作品列表,视频列表

通过Fiddler抓包采集某音作品列表,视频列表

2024-10-09 11:22:33 798

原创 根据视频id查询播放量

某因视频播放量查询

2024-10-01 19:04:59 2059

原创 某音作品列表,视频列表

我们通过Fiddler 快捷方式 配置好代理 打开抖音进行抓包,随便找个达人打开主页, 可以看到aweme/post 是达人视频列表接口。今天分享下某音app作品列表采集方法,我只详细说一下大步骤,细节就不多说了,留着大家去试吧。可以支持批量查询,接口查询,翻页查询等等。

2024-08-26 18:00:42 425 1

原创 主流短视频评论采集python爬虫(含一二级评论内容)

这样就拿到评论信息了,可以一级评论二级评论内容支持接口获取,软件获取,进行评论获取对应信息。评论采集更新需要登录,由于不懈的努力,攻破这一难点,不需要登录采集作品所有评论信息。仅用于学习交流,不用于其他用途。

2024-08-23 13:48:57 838 1

原创 单个作品解析,分享链接解析,视频链接解析

视频解析,无水印视频下载,单个作品详情,作品详情

2024-08-13 16:57:05 365

原创 抖音关键词搜索爬虫,抖音API数据接口,抖音商品详情数据采集

本文介绍了作者开发了一款针对抖音平台的MVP应用,专注于商品API接口,满足用户在直播间的关键词搜索需求,以及收集小黄车和抖店的商品数据,展示了抖音作为流量池的重要性和实用性。

2024-07-09 15:59:43 1557

原创 UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\u010d‘ in position错误解决

UnicodeEncodeError: 'gbk' codec can't encode character '\u010d' in position错误解决

2024-06-20 16:19:32 222

原创 抖音直播间弹幕解析:点赞,评论,送礼,进入提示,粉丝团,关注,在线人数等

抖音直播间弹幕解析:点赞,评论,送礼,进入提示,粉丝团,关注,在线人数等

2024-06-17 16:55:23 1573 3

原创 抖音 根据sec uid获取个人详细信息(性别、年龄、属地、关注数、粉丝数、简介等)

抖音 根据sec uid获取个人详细信息(性别、年龄、属地、关注数、粉丝数、简介等)

2024-06-11 15:04:39 2054 2

原创 签名算法,API签名算法

签名算法php,API签名算法

2024-06-05 11:23:11 162

原创 新版本的a_bogus算法实现与还原

新版本的a_bogus算法实现与还原

2024-05-21 17:03:55 643

原创 _signature、a_bogus、X-Bogus、msToken,s_v_web_id生成【2024.5.21】全站通用a-bogus

_signature、a_bogus、X-Bogus、msToken,s_v_web_id生成【2024.5.21】全站通用a-bogus

2024-05-21 15:06:34 1308 1

原创 s_v_web_id或fp协议过签名,dy滑块

s_v_web_id或fp协议过签名,dy滑块

2024-05-21 14:51:49 383 1

原创 Python网页解析之BeautifulSoup详解

以下是本文的摘要:本文详细介绍了Python用于网页解析的BeautifulSoup库。首先简单介绍了BeautifulSoup的概念及主要作用。然后列出了如何通过pip安装BeautifulSoup库的方法。接着通过实例代码演示了BeautifulSoup的基本使用方式,包括导入库、创建解析对象等。文章的重点部分是详细阐述了如何使用BeautifulSoup从HTML/XML文档中提取数据,包括提取标签、标签内容、标签属性,以及利用find()和find_all()方法查找指定标签。

2024-05-21 10:35:05 1003

原创 Shopee单个商品详情采集

以上Shope单个商品数据采集的示例,更多场景如品类搜索、评论翻页等,则需要进一步分析网站逻辑并编写对应的代码。最重要的是,在进行采集时要保证行为的合法性,不能影响目标网站的正常运行,尊重对方的知识产权。除了伪造请求头,我们还可以在脚本中加入一些行为,比如鼠标移动、滚动加载数据等,以模拟真实的人机交互过程。对于一些复杂的人机验证机制,例如图形验证码、行为验证、手动操作等,可以引入人工参与流程,避免被彻底拦截。需要注意的是,网站的结构和数据加载方式时而会发生变化,采集程序需要相应地进行调整,并处理异常等情况。

2024-05-20 11:39:23 1242 2

原创 爬虫的分类

本文介绍了四种主要的网络爬虫类型:通用爬虫、聚焦爬虫、增量爬虫和深度爬虫。通用爬虫旨在抓取整个互联网的数据,建立搜索引擎索引,通常采用分布式架构。聚焦爬虫则只爬取符合特定主题或目标的网页,需要应用主题过滤和评分算法。增量爬虫用于定期更新已有数据集,只爬取新增或变化的网页,能极大节省开销。深度爬虫的目标是获取隐藏在深层网络数据库后的数据,需要分析查询接口并构造智能查询。四种爬虫均面向不同的应用场景,代表了爬虫技术的不同发展方向。随着万维网的持续演进,爬虫技术也将日趋完善和成熟。

2024-05-20 11:17:16 1074

原创 网页解析之lxml与xpath

网页解析之lxml与xpath。

2024-05-20 11:13:33 515

原创 requests模拟发送请求Get/Post

总之,无论是模拟请求头、使用Selenium/Requests组合、Playwright或Pyppeteer,都可以在一定程度上绕过反爬虫策略,成功采集所需的数据。Selenium可以驱动真正的浏览器内核发送请求,无疑是模拟请求的终极武器。在网络爬虫的对抗路上,要想成功采集数据,有时需要模拟真实浏览器的行为发送请求,以通过网站反爬虫机制的检测。好的,我们在发送HTTP请求时,最常见的两种方法就是GET和POST请求。- GET请求参数包含在URL中,POST请求参数放在请求体中。

2024-05-18 22:13:23 655

原创 Requests对象如何处理反爬虫机制

本文主要介绍了如何使用Python的Requests库正确发送HTTP请求,以绕过网站的反爬虫机制成功采集数据。首先阐述了设置合理的User-Agent来模拟主流浏览器的重要性。其次提到了隐藏爬虫特征的几种技巧,如避免常见爬虫请求头、添加缓存字段、设置Referer等。第三点介绍了模拟移动端浏览器发送请求的做法,以采集移动版网页内容。第四点强调了控制请求频率的必要性,可以使用时延、限制并发或IP代理池等方式。此外,文章还讲解了处理Cookies和设置代理的方法,以绕过部分反爬虫策略。

2024-05-18 22:00:33 1022

原创 网页抓取之requests库的使用

在Python网络爬虫领域,优秀的第三方库Requests可谓是必学的重要工具。它提供了相当人性化的API,让我们能够用极其简洁的代码发送HTTP/HTTPS请求,并且自动处理cookies、headers、编码等诸多繁琐细节,大大减轻了网页抓取的编程负担。本文将全面介绍Requests库的主要功能和使用方式。

2024-05-18 21:55:43 582

原创 爬虫基础入门简介

互联网是由一个一个的超链接组成的,从一个网页的链接可以跳到另一个网页,在新的网页里,又有很多链接。理论上讲,从任何一个网页开始,不断点开链接、链接的网页的链接,就可以走遍整个互联网!这个过程是不是像蜘蛛沿着网一样爬?这也是“爬虫”名字的由来。作为爬虫工程师,就是要写出一些能够沿着网爬的”蜘蛛“程序,保存下来获得的信息。一般来说,需要爬出来的信息都是结构化的,如果不是结构化的,那么也就没什么意义了(百分之八十的数据是非结构化的)。

2024-05-18 21:47:28 927

原创 基于Redis实现爬虫分布式管理

Redis以其高效、丰富的数据结构和分布式特性,为构建大规模、高性能、可扩展的分布式爬虫系统提供了非常好的基础架构和技术支持

2024-05-18 21:28:12 977

原创 如何在CentOS系统中管理Docker容器

本文介绍了如何在CentOS系统上安装和管理Docker容器。首先详细讲解了在CentOS上安装Docker引擎的步骤,包括配置Docker存储库、安装所需包以及启动Docker服务。其次,介绍了Docker容器的基本管理命令,如拉取镜像、启动容器、查看运行中容器、停止和删除容器等。还介绍了一些高级管理命令,比如在容器内执行命令、在容器和主机之间复制文件、保存容器为新镜像、查看端口映射等。最后,阐述了如何设置Docker服务和已有容器开机自动启动的方法,包括启用Docker服务开机自启动,以及配置特定容

2024-05-18 21:14:19 410

原创 如何安装 Docker

本文介绍了 Docker 技术的重要性和应用场景,以及在 Windows、Mac 和 Linux 系统上安装 Docker 的方法。Docker 是一个开源的容器化平台,能够帮助开发人员和运维团队更轻松地打包、交付和运行应用程序。在 Windows 上需要安装 Docker Desktop for Windows,在 Mac 上需要安装 Docker Desktop for Mac,而在 Linux 上则有不同的安装命令适用于不同发行版。最后,验证安装可以通过在终端中运行 docker --version

2024-05-18 21:02:24 431

原创 使用 Supervisorctl 进程管理工具

本文介绍了如何使用 Supervisorctl 进程管理工具来管理进程。首先,我们学习了安装 Supervisor 的步骤,并了解了如何配置 Supervisor 来监控需要管理的进程。随后,我们探讨了 Supervisorctl 的常用命令,包括启动、停止、重启进程以及查看进程状态和日志等操作。此外,还介绍了一些高级用法,如事件监听和进程组管理。通过本文的指导,读者可以更好地利用 Supervisorctl 工具来管理各种进程,确保系统稳定运行。

2024-05-18 20:50:41 664

原创 主流短视频评论采集python爬虫(含一二级评论内容)

抖音评论采集python爬虫(含一二级评论内容)

2024-05-15 13:44:06 1678 26

原创 Java实现的网上书店系统(附带完整源码)

图书管理:新书上架,可以上传书籍封面图片,删除图书,修改图书信息,图书的分类查询。订单管理:按照订单状态查找订单,订单包括四个状态:已付款等待发货、已发货、已取消、已完成。查看订单信息,商品发货。查看购物车:查看自己的购物车里的书籍,可以对购物车中物品进行删除。查看订单:查看自己的订单及订单状态等。生成新的订单:对购物车中的物品进行结算并生成新的订单。通过对用户需求的分析,本系统的功能主要包括两个模块,前台顾客操作及后台店家管理。在本模块中用户可以对自己购物车中的图书进行清空,或者结算生成新的订单。

2024-05-10 11:35:54 407

原创 新版a_bogus算法分析

新版a_bogus算法分析以及成品展示调用

2024-04-23 17:24:55 551

原创 douyin uid转sec_uid 各种进行转换

douyin uid转sec_uid 各种进行转换

2024-04-22 10:08:02 913 4

原创 dy号转uid和sec_uid

dy号转uid和sec_uid

2024-04-19 16:39:14 1354 3

原创 新版a_bogus算法分析以及成品展示调用

新版a_bogus算法分析以及成品展示调用

2024-04-18 15:54:09 1040 2

原创 新版a_bogus算法分析以及成品展示调用

新版a_bogus,新版a_bogus算法分析以及成品展示调用

2024-04-18 15:51:08 1899 1

原创 主流短视频直播弹幕采集

抖音实时弹幕和礼物信息数据

2024-04-02 11:26:37 242 5

原创 抖音 根据sec uid获取个人详细信息(性别、年龄、属地、关注数、粉丝数等)

抖音 根据sec uid获取个人详细信息(性别、年龄、属地、关注数、粉丝数等)

2024-03-21 15:07:55 2450 8

原创 dy直播弹幕采集

dy直播弹幕采集

2024-03-08 13:44:10 587 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除