- 博客(207)
- 收藏
- 关注
原创 实战篇| app爬虫不用真机
之前写过一篇基于真机app爬虫《App爬虫实战篇-以华为真机手机爬取集换社的app为例》,如果大家有用真机爬虫的经历,会深刻认识到真的不方便,一是自己的手机,经常会被电话、微信等打断,二是闲置手机,面对小批量数据还能勉强,大批量爬虫,会导致成本指数级上升,并且控制起来相对麻烦。以下就是常见的模拟器。emulator -avd my_avd -no-snapshot-save # 启动时不保存 snapshot。emulator -avd my_avd -wipe-data # 清除数据(恢复到出厂)
2025-10-14 09:17:38
248
原创 实践篇| 代码伪造指纹
过度频繁或不合逻辑的变动本身会成为明显的异常信号,被平台作为“指纹漂移/切换”模式反而更容易关联和检测。保持每个 profile 的长期稳定性 + 在合理范围内、基于“真实设备族群”的小幅、可控变异(并且与网络/IP/时区/字体等一致)进行周期性更新。下面按要点讲清为什么、如何做,以及给出工程级的参数化/轮换实现示例。
2025-10-14 08:38:37
109
原创 Linux下基于关键词文件搜索
前面写了一篇《windows下基于关键词文件检索》文章,但是随着近些年,办公电脑国产化越来越普及。不得不,再编写一篇,《Linux下基于关键词文件搜索》。
2025-10-13 17:36:03
553
原创 windows下基于关键词文件检索
我们经常有个痛点,就是在企业定期排查和审计员工的电脑,要求本地电脑不能保存各种文件。并要求把相关文件进行删除。虽然windows操作系统下有众多优秀搜索软件,如everything、library等。很多在企业、政府办公环境下,电脑网络是断网的,或安装软件需要提权要求。并且很多场景下,我们除了检索出来之后,还要手动定位删除,相对耗时耗力。
2025-10-13 17:29:22
288
原创 原理篇| 如何伪造指纹?
对于我们普通人来说,第一种和第二种都是很好的选择,第一种几乎可以不花钱,去浏览器插件里搜索fingerprint有很多浏览器插件可以用。第二种市面上成熟的浏览器指纹商家有很多,甚至有些开源的供给大家免费使用。
2025-10-09 09:57:50
95
原创 工具篇| 初识指纹浏览器
指纹浏览器通过模拟浏览器的硬件配置文件,实现浏览器指纹防护功能,保护用户隐私与安全。用户可以下载安装这些特殊的浏览器。通过伪造或控制大量“浏览器指纹”字段(User-Agent、Canvas、WebGL、字体列表、时区、屏幕分辨率、WebRTC、client hints 等),让每个“浏览器配置”看起来像独立真实设备,从而管理多账号或降低反爬/反刷检测风险。与人类指纹一样,这些指纹有助于去识别到每个网络主体。以下是一些常见浏览器指纹信息。字段类别采集方式判别力如何伪造 / 对抗(工程可行)
2025-10-09 09:22:20
190
原创 综合篇| 智能体平台dify、coze和n8n对比
数据存储:Postgres(元数据/配置)、Redis(缓存/会话/队列)、对象存储兼容 S3。数据存储:Postgres / SQLite(workflow & state),Redis(可选用于缓存/队列) Connectors:大量内置节点(HTTP、数据库、SaaS APIs、文件、消息等),通过社区插件/节点扩展生态。》文章介绍过智能体的相关概念,以及一些常见智能体的对比,本文将更聚焦一点,针对其中三个比较优秀且开源的项目,进行深入分析和对比,方便大家在场景落地过程中,选择最适合自己的开源框架。
2025-09-15 15:53:41
82
原创 知识篇| 未来编程方式—vibe Coding
Vibe Coding(氛围编程)是一种由AI驱动的革命性编程范式,其核心在于开发者通过自然语言描述需求,由人工智能(特别是大型语言模型)自动生成可运行的代码,它不同于传统需要撰写大量代码的开发方式,也不只是拖拉模块的 No-code(或者低代码方式),而是通过 AI 模型理解用户的自然语言需求,自动产出应用程序逻辑与操作界面,让开发过程变得像在聊天,从而降低编程门槛并提升开发效率,这种模式非常适用于MVP验证,加速想法到落地的进程。代码可移植性:v0 生成的代码支持复制粘贴,方便你轻松集成到现有项目中。
2025-08-29 10:40:15
253
原创 【爬虫实战-IP代理的重要性二】 以Selenium为例
前面文章已经提到过了urllib和request注入代理,一样本章节的实验代码依然需要完上节内容的前置条件,准备好代理。
2025-08-20 19:55:15
271
原创 【爬虫实战-IP代理的重要性一】 以urllib和request为例
我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么的美好,然而一杯茶的功夫可能就会出现错误。现在大型的网站都会采取了一些反爬虫的措施,比如服务器会检测某个 IP 在单位时间内的请求次数,如果超过了这个阈值,那么会直接拒绝服务,返回一些错误信息。所以在真正爬虫过程中,常见的工具 Requests、Urllib、Selenium、playwright等增加代理, 由于。
2025-08-20 19:54:50
117
原创 windows 应用爬虫: exe自动操作
之前写了那么多关于手机和网页爬取,今天就写一期关于exe的爬取,exe的爬取其实也是类似的,一个方式是抓包,还有一个模拟人工界面获取元素数据。抓包肯定是最直接,数据也是最全的, 有些数据不一定会显示在界面上,或者必须通过一定交付方式,才能显示到页面(比如移动鼠标到具体元素上)。本文依旧采用python方式,先说说怎么通过界面方式驱动应用点击和数据获取。
2025-07-11 15:19:59
701
原创 windows exe爬虫:exe抓包
在不知情所拦截应用使用的流量时,所以建议用Wireshark。本文利用python代码,实现自动拦截,写入pcap包,并用代码分析流量的协议。这样会在本地目录下生成capture_inbound.pcap,可以用wireshark分析,也可以利用python代码进行分析,如果使用python代码进行分析,需要借助pyshark或者scapy。使用的python WinDivert的包,当然前提也是需要安装Wireshark软件,设置环境变量,并安装pydirvert包。
2025-07-11 15:19:21
340
原创 App爬虫实战篇-以华为真机手机爬取集换社的app为例
在开始学习这篇文章之前,建议你先按照之前2篇文章(和),配置必要的环境,才可以继续完成本章节内容。
2025-07-05 12:39:14
449
原创 App爬虫工具篇-appium配置
接着上篇文章,安装好了之后,还是不够的,要让其能够驱动手机端,还需要配置。这节课就深入说说如何配置Appium。
2025-07-05 11:16:36
723
原创 【微服务实践】中国地区任意层级选择
我这里多设计了张闭包表,原因可以参考我之前https://blog.youkuaiyun.com/youbingchen/article/details/141321512?spm=1001.2014.3001.5502的文章,在这个功能中,我是为了在后续分析数据方便,比如选择福建省的时候,可以获取出福建省下面所有的项目。开源网站https://github.com/adyliu/china_area下载相应的数据,本文以下载json文件为例,如何将下载的数据导入上述设计的数据库,答案是代码。2、导入中国地域数据。
2025-07-03 15:58:49
94
原创 App爬虫工具篇-Appium安装
摘要:本文探讨了使用mitmproxy进行App接口数据抓取时遇到的加密问题。作者通过实际案例展示了一个加密后的接口数据样本,并指出当前许多应用会对接口进行加密处理,增加了数据抓取的难度。文章主要面向需要破解加密接口的爬虫开发者,提供了实际问题场景的参考案例,为后续讨论接口解密方法做铺垫。全文以技术实践为导向,重点呈现了加密接口数据的真实样貌。
2025-07-03 15:57:58
264
原创 Claude 4 启示录-留给初级程序员的时间不多了
总之,从2022年大模型横空出世时,到今天Claude4发布, 之前被程序员自持一技之长,编程能力,逐渐被大模型不断攻陷,未来,初级程序员越来越难, 会倒逼程序员快速成长,不然会被快速被淘汰掉, 可能就连模型写出来代码都看不懂, 更不要说使用大模型生成的代码。在编程、工具使用、视觉推理、数学等领域的基准测试中,这两款模型超越了OpenAI o3,而在多语言问答、研究生级别推理任务上,Claude Opus 4与OpenAI o3得分持平。新模型通过管理待办事项列表保持记忆,不会丢失线索。
2025-06-06 17:10:35
109
原创 应用篇| MCP为智能体插上翅膀
除了stdio连接模式外,MCP还提供了可以服务器、客户端异地运行的SSE传输模式,以适用于更加通用的开发情况,以及现在逐渐推出可流式传输的 HTTP”来替代现有的 HTTP+SSE 方案。此举旨在解决当前远程 MCP 传输方式的关键限制,同时保留其优势。MCP作为万能钥匙, 可以加速智能体的研发, MCP标准通信协议带来的最大价值之一,就是让广大Agent开发者能够基于此进行协作。已经诞生了数以千计的MCP服务器,允许用户直接下载并进行调用(见文末参考中的链接)。
2025-06-06 16:55:03
242
原创 python uv的了解与使用
用过python,知道python包管理一般都是使用默认的pip,最近在看一些智能体的开源项目,发现现在很多项目都使用uv进行包的管理,今天跟风学一下uv的概念和使用。
2025-05-09 08:40:06
983
原创 微服务实践-招标k值分析系统
(3)企业K值分析:系统可以企业为维度,分析在指定时间范围内、指定工程类别下该企业的K值选取的历史记录,绘制K值分布图,形成特定企业K值选取画像,支撑自身投标K值选取决策。(2)工程K值分析:系统可以以工程为维度,分析同一工程不同投标单位的K值分布,形成分布图,从图中可以直观的看出不同投标单位的K值分布,支撑自身投标时的K值选取决策。工程信息新增、修改 、名称、工程类别、所属地区、开标日期、控制价、基准价、暂列金、暂估价、加工材料、中标K值,招标k值等。公司信息新增、修改、名称、统一社会信用码。
2025-05-08 16:51:09
225
原创 工程投标k值分析系统(需求和功能说明)
工程信息新增、修改 、名称、工程类别、所属地区、开标日期、控制价、基准价、暂列金、暂估价、加工材料、中标K值,招标k值等。同一历史工程K值分布 支持对自定义名次内的投标单位K值进行分析,并生成分布图,图中能突出显示K值集中的前20名所在区间。投标信息新增、修改 工程名称、公司、基准价起始估、基准价结束值、投标报价、投标信用分。信用分信息新增、修改 公司、类型、年份、季度、信用分。公司信息新增、修改、名称、统一社会信用码。新增、删除、修改企业/部门。用户新增、删除、修改。
2025-04-22 21:49:43
219
原创 App爬虫工具篇-mitmproxy
mitmproxy 是一个支持 HTTP 和 HTTPS 的抓包程序,类似 Fiddler、Charles 的功能,它通过控制台的形式和ui界面的方式此外,mitmproxy 还有两个关联组件,一个是 mitmdump,它是 mitmproxy 的命令行接口,利用它可以对接 Python 脚本,实现监听后的处理;另一个是 mitmweb,它是一个 Web 程序,通过它以清楚地观察到 mitmproxy 捕获的请求。
2025-04-22 21:39:58
533
原创 DeepSeek如何助力亚马逊爬虫工具的效率
之前写过几篇文章,我们通常会使用关键词去搜索商品或者商家信息,但是用什么关键词,用户常常拍脑袋。所以这篇文章结合实践,给大家讲解一下,如何利用大模型,如DeepSeek-R1(其他大模型,如ChatGPT也是类似的)。
2025-04-03 11:35:37
279
原创 应用篇| 抓包工具-charles的使用
上文说到,我们app爬虫要借助一些抓包工具,本节课就教大家如何使用抓包工具分析app的流量。抓包工具的使用是app爬虫的必修课。相比 Fiddler 来说,Charles 的功能更强大,而且跨平台支持更好。
2025-03-11 21:25:59
204
原创 数据篇| App爬虫入门(一)
App 的爬取相比 Web 端爬取更加容易,反爬虫能力没有那么强,而且数据大多是以 JSON 形式传输的,解析更加简单。在 Web 端,我们可以通过浏览器的开发者工具监听到各个网络请求和响应过程,在 App 端如果想要查看这些内容就需要借助抓包软件。我们可以通过设置代理的方式将手机处于抓包软件的监听之下,这样便可以看到 App 在运行过程中发生的所有请求和响应了,相当于分析 Ajax 一样。如果请求无法分析出来有规律,可以借用mitmdump 工具进行直接处理数据。
2025-03-11 15:48:56
774
原创 开源篇| 等不及Manus的邀请码......
其中最大2个插件,Claude厂商Anthropic去年上线的computer-use(操作电脑),以及YC投资的项目browser-use(操作浏览器),都给OpenManus提供了基础支持。这两个开源产品个人还没深入使用,大家可以快速使用在自己的业务场景(比如AI爬虫、文章多媒体发布),看是否能达到预期的目标。Manus 非常棒,但 OpenManus 无需邀请码即可实现任何创意, 他们来自MetaGPT 的团队成员,一个完全免费、无需排队等待的OpenManus。
2025-03-07 22:06:43
132
原创 应用篇| 全球首款通用AI Agent-Manus
无论是在工作还是生活中,Manus擅长完成各种任务,在你休息的时候把一切事务处理得井井有条。AI Agent是一种重塑传统应用的重要手段, 不仅作为专业人士或者用户都可以了解,他确实可以帮我们做很多事情,解放我们个人生产力。目前Manus(https://manus.im/)不是完全对外开放的,必须有邀请码,才能进行内测使用。这不仅提高了决策的准确性,还为后续的优化和改进提供了清晰的思路。时,Manus 能够迅速做出调整,始终保持高效的工作状态。,根据不同的子任务需求,灵活调用相应的工具链。
2025-03-06 17:42:24
218
原创 应用篇| 小白本地部署DeepSeek-R1
除了671B版本之外,其他版本均是通过蒸馏出来。一般人不会有大量资源,根本无法本地部署满血版本的DeepSeek-R1模型。同时,相对满血版本的DeepSeek-R1模型,其他模型效果是无法同日而语,尤其是像DeepSeek-R1的671B这样大模型,往往需要高性能的硬件支持,这让许多开发者和研究人员望而却步。好在中国互联网大厂开放了满血版本的DeepSeek-R1,可以直接白嫖这个工具,有腾讯的元宝、csdn知道、纳米AI搜索,不喜欢开源的百度AI等产品。
2025-02-21 17:11:34
155
原创 原理篇| 推理模型DeepSeek-R1的诞生之路
在非常有限的算力资源支持下,通过强大的算法创新,突破了算力“卡脖子”的限制,即使在有限的算力下,也能做出具有全球意义的领先成果。随后,进一步通过强化学习训练,得到了具有强大泛化能力的强推理模型,即 DeepSeek-R1。:在收集了新的 SFT 数据后,R1 会进行第二阶段的强化学习训练,这一次,训练的目标不再局限于推理任务,而是涵盖了所有类型的任务。与之前的冷启动数据不同,这一阶段的 SFT 数据不仅包含推理任务,还涵盖了其他领域的数据,例如写作、角色扮演、问答等,以提升模型的通用能力。
2025-02-13 11:05:44
148
原创 亚马逊爬虫实战:中国商家信息(电话)爬取
import os), # 保存图片的路径# 搜索关键词"keywords":["毛巾","衣服"],"product_number": 1000000000000000, # 分页获取数量# 和url一一对应 个数要一样"remarks": ["备注1"],# 以下内容非专业人员请勿更改,请找开发人员更改. 对应的是amazon_product_url_setting文件中名称.},
2025-02-09 15:37:27
1253
原创 评估篇| 大模型评测综述
1、基于人类的评测。与针对基础大语言模型的自动化评测不同,微调大语言模型的评测更加注重模型在实际应用场景中的表现,如与人类交互的自然度、对齐度等。2、基于模型的评测。例如,AlpacaEval 排行榜 基于由大语言模型合成的人类需求指令作为评测任务,然后收集待评估大模型的回应,并采用 GPT-4 等大语言模型作为评测员,将待评估大语言模型的输出与参考输出进行成对比较。1、大语言模型对评估设置极为敏感,包括问题的表述方式、提示样本的选择以及答案的解析策略等,这些细微的差别都可能导致评估结果的显著变化。
2025-01-25 21:21:34
496
原创 微服务电商平台课程七:前端框架vue
后台商城: https://github.com/macrozheng/mall-admin-web前台商城:https://github.com/macrozheng/mall-app-webVue (发音为 /vjuː/,类似 view) 是一款用于构建用户界面的 JavaScript 框架。它基于标准 HTML、CSS 和 JavaScript 构建,并提供了一套声明式的、组件化的编程模型,帮助你高效地开发用户界面。无论是简单还是复杂的界面,Vue 都可以胜任。
2025-01-11 10:27:30
388
原创 微服务电商平台课程六:后端代码框架认识
本地环境搭建好,大家可以进行调试,并能够修改其中代码。后端技术栈Spring Boot是伴随着Spring4.0共同诞生的,它的目的就是简化spring的配置及开发,并协助开发人员可以整体管理应用程序的配置而不再像以前那样需要做大量的配置工作,它提供了很多开发组件,并且内嵌了web应用容器,如tomcat和Jetty等。其目的便是使我们的开发变得简化并且能大幅度提高开发人员的开发效率,为了简化Spring功能的配置我们可以引入或启动我们需要的Spring功能。
2025-01-11 10:20:52
411
原创 架构篇 | 大模型太大?那就分布式吧。
说了这么多模型分布式方法,每个方法都有相应的场景。如果让开发者自主选择,固然有灵活性,但是增加学习成本。那么有没有自动方法,答案是是有,现在有一种是自动并行,自动并行的目标就是。
2025-01-04 11:03:57
109
原创 分布式爬虫scrapy-redis
Scrapy 爬虫,虽然爬虫是异步加多线程的,但是我们只能在一台主机上运行,所以爬取效率还是有限的,分布式爬虫则是将多台主机组合起来,共同完成一个爬取任务,这将大大提高爬取的效率。
2024-12-23 16:02:35
678
原创 scrapy实战之新浪新闻爬虫
数据是分析工作的前提,新闻数据对于一些领域分析是必不可少的资料之一,今天我们就借助scrapy框架一起看一下新浪新闻爬虫实战。
2024-12-18 22:22:36
406
原创 scrapy框架
Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。只需要定制开发几个模块就可以轻松实现一个爬虫。并能扩展相关爬虫插件,实现分布式爬虫。
2024-12-18 16:41:21
292
原创 方案篇| 百亿级参数大油气开发管理领域模型技术方案
以往神经网络模型给大家印象就是黑盒, 具有很弱的可解释性,Transformer模型中自注意力机制可以产生更具可解释性的模型,self-attention模型更可解释,attention结果的分布表明了该模型学习到了一些语法和语义信息,我们可以从模型中检查注意力分布,各个注意头(attention head)可以学会执行不同的任务。与 BERT 等早期的预训练语言模型相比,大语言模型(GPT)的特点是使用了更长的向量 维度、更深的层数,进而包含了更大规模的模型参数。如果显存资源有限可以考虑QLoRA;
2024-12-12 10:53:08
304
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅