- 博客(39)
- 收藏
- 关注
原创 基于浏览器自动化的 Cookie 获取与复用实践
启动一个有界面的浏览器实例,让用户手动完成一次真实登录,然后由脚本在合适的时机导出当前会话状态并落盘。
2025-11-20 16:53:43
796
原创 我为什么认为未来的自动化应该是:人提需求,AI生成工作流,AI工具执行
大家好,今天想和大家分享一个我最近一直在思考和实践的小实验:如何让AI Agent更有条理地完成复杂任务,并且让我们 humans(人类)能够更好地控制和复现这些任务。
2025-10-10 16:19:41
668
原创 复盘我的第一个 大模型Agent:从核心循环到模块化架构的演进之路
本文将以我编写的一个 Go Agent Demo 为例,穿透各类框架的表层封装,回归其工程本质。我将首先分析其核心的 ReAct 循环,并展示这个看似简单的循环是如何通过模块化设计,演进为一个结构化、可扩展的软件系统。
2025-09-12 11:24:10
555
原创 踩坑记录:Claude Code Router 配置 Gemini Balance API
今天折腾 Claude Code Router,想接入 Gemini Balance 的 API。以为很简单,结果卡在了一个特别细节的地方。
2025-08-08 17:36:30
1007
3
原创 跨平台自动化框架的OCR点击操作实现详解与思考
采用了分层架构设计,将复杂的图像识别流程抽象为清晰的模块边界。整个系统由用户接口层、文字查找层、OCR服务层和坐标计算层组成,各层职责明确,耦合度低。
2025-07-28 10:11:50
941
原创 从抓包GitHub Copilot认证请求,认识OAuth 2.0技术
本文基于实际抓包 VS Code 中的 Copilot 登录认证请求,系统梳理其 OAuth 2.0 相关实现及配套的安全技术体系,对底层流程进行代码级和架构级分析。
2025-07-18 10:37:04
1002
原创 一力破万法:从0实现一个http代理池
在网络编程的世界里,代理池的重要性不言而喻。无论是爬虫开发、接口测试,还是网络安全研究,一个稳定、高效的代理池都是不可或缺的基础设施。
2025-07-08 10:38:18
972
原创 微信多开:基于竞态条件的进程单实例检测绕过技术分析
在软件开发中,单实例模式(Singleton Pattern)的应用场景之一是确保应用程序在系统中只运行一份实例。然而,这种机制在特定条件下可能被绕过。本文将深入分析一种基于竞态条件的绕过技术,并提供具体的实现方案。
2025-07-02 10:47:57
512
原创 从 TCP 到 WebSocket:一次搞懂网络通信的三层演进
本文旨在从开发者的视角,深入剖析这三者之间的技术关联与演进逻辑。我们将逐层递进,从底层的传输协议到上层的应用规范,清晰地揭示它们各自的职责、设计哲学以及在不同场景下的技术选型考量。
2025-06-30 10:36:53
993
原创 Go + WebSocket + Chrome Extension:基于真实浏览器环境的 cf_clearance 自动化获取方案
本文提出了一种基于 Go 后端、WebSocket 通信协议与 Chrome Extension 的技术方案,旨在通过架构设计的优化,实现对 `cf_clearance` Cookie 的高效获取。
2025-06-20 16:54:53
550
原创 按下 F12 打开开发者工具,它凭什么能监控所有网络请求?
开发者工具(DevTools)明明只是浏览器的一个“面板”,它凭什么能像开了上帝视角一样,拦截和监控浏览器内核发出的所有网络请求?它和浏览器内核之间,到底藏着什么秘密通道?
2025-06-10 17:29:48
735
原创 技术分享:主流GUI自动化框架的窗口置顶机制实现对比
窗口置顶是一个常见且关键的需求。无论是确保测试窗口始终可见,还是保证自动化操作的准确性,各大Python自动化框架都提供了相应的窗口置顶功能。本文将深入分析主流框架的实现方式,揭示其背后统一的技术本质。
2025-06-06 15:20:35
636
原创 大模型微调实战(二):训练数据集准备的艺术与科学
> 在上一篇文章中,我分享了使用ModelScope Swift框架微调Qwen2.5-Coder模型的完整过程。今天,我将深入探讨微调过程中最关键的环节之一:**训练数据集的准备策略**。
2025-05-16 11:39:04
675
原创 从零开始:特定前端框架下微调Qwen2.5 Coder小模型实战指南
近期,我尝试对通义千问的Qwen2.5-Coder-0.5B-Instruct模型进行微调,实现两个不同的目标:一个是基础的自我认知调整,另一个是针对特定前端框架TA404的开发助手。本文将详细记录整个过程,从环境准备到模型训练再到效果验证和部署,希望能为有相似需求的开发者提供参考。
2025-05-09 10:23:07
774
原创 如何构造一款类似One API的大模型集成平台
本文将探讨如何实现一个兼容OpenAI API规范的大模型集成平台,重点关注**`/v1/models`和**`/v1/chat/completions`**这两个核心端点的实现。
2025-04-28 14:01:21
981
原创 小模型工具调用能力激活:以Qwen2.5 0.5B为例的Prompt工程实践
**本文以Qwen2.5 0.5B为例**,展示如何通过精心设计的prompt激发其工具调用能力,为开发者提供实用指导。
2025-04-27 11:17:34
954
原创 Cline技术分析:基于Cline Prompt的File Tools MCP Server实现
我们将基于Cline prompt技术,构建一个基于MCP协议的文件工具服务器。我们将从任务定义开始,并在任务执行过程中探讨各个关键环节。
2025-04-21 15:25:09
816
原创 Cline技术分析:prompt如何驱动大模型对本地文件实现自主变更
从传统的“人写代码”到“AI辅助编程”,再到“AI自主编程”,开发效率得到了质的提升。Cline作为一款基于VSCode的AI编程助手,通过其独特的prompt系统,实现了大模型对本地文件系统的自主操作,开创了编程新范式。
2025-04-15 11:54:52
977
原创 揭秘AI自动化框架Browser-use(终):利用MCP与Spring AI,3行代码复刻Browser-use实现
通过Spring AI和Playwright/MCP协议,我们成功复刻了一个简化版的Browser-use框架。这种实现不仅展示了现代AI工程中提示词工程和上下文管理的核心实践,还为开发者提供了一个高效、模块化的实现思路。未来,我们可以通过优化上下文管理和提示词模板化,进一步提升系统的性能和扩展性。如果您对本文的技术细节和源码实现感兴趣,欢迎关注我的微信公众号**【松哥ai自动化】**。每周我都会在公众号首发一篇深度技术文章,从源码角度剖析各种实用工具的实现原理。
2025-04-07 18:26:19
1452
原创 揭秘AI自动化框架Browser-use(四):Browser-use记忆模块技术解析
Browser-use 项目的记忆模块设计非常全面,主要特点包括分层记忆结构、智能令牌管理、丰富的历史分析方法、DOM 元素追踪、多种持久化选项等。这种设计使得代理能够有效地利用历史信息来指导未来的行动,同时提供了丰富的调试和分析功能。想了解更多技术实现细节和源码解析,欢迎关注我的微信公众号**【松哥ai自动化】**。每周我都会带来一篇深度技术文章,从源码角度剖析各种实用工具的实现原理。通过这些实践建议和最佳实践,开发者可以借鉴 Browser-use 的记忆模块,构建更可靠、更高效的自动化任务。
2025-03-31 09:30:54
1284
原创 揭秘AI自动化框架Browser-use(三):Browser-use控制浏览器的核心机制
在Browser-use框架中,核心任务是使大模型能够像人类一样操作浏览器。本文深入探讨大模型如何实际控制浏览器,重点解析从模型输出到浏览器动作执行的完整流程。上一篇(公众号首发)-Browser-use AI自动化框架深度解析(二):提示词构造机制...,description="评估上一步目标的完成情况"...,description="记录重要信息,用于跟踪进度"...,description="下一步要完成的具体目标"...,description="当前状态评估和下一步计划"
2025-03-24 11:00:34
743
原创 揭秘AI自动化框架Browser-use(二),如何构造大模型提示词
通过深入理解Browser-use的提示词构造机制,开发者可以优化自动化应用,实现更复杂的任务,同时保持高可靠性和适应性。提示词工程是Browser-use框架的核心,也是其能够应对各种复杂Web场景的关键所在。想了解更多技术实现细节和源码解析,欢迎关注我的微信公众号**【松哥ai自动化】**。每周我都会在公众号首发一篇深度技术文章,从源码角度剖析各种实用工具的实现原理。下一篇我们将深入分析Browser-use如何处理复杂的界面交互操作,包括表单填写、多步骤导航和动态内容处理等高级场景,敬请关注!
2025-03-17 11:14:48
1014
原创 揭秘AI自动化框架Browser-use(一),如何实现炫酷的页面元素标注效果
自定义浏览器配置灵活的自定义配置选项,允许开发者根据实际需求调整标注行为,如控制标注元素的显示、调整视口范围等,满足多样化应用场景的需求。
2025-03-07 11:24:20
1199
原创 微信机器人技术实现深度解析:从消息Hook到自动化处理
本文基于 Wechaty 生态系统的项目进行分析。这是一个基于 Windows 平台的微信机器人实现,通过模拟微信 PC 客户端的操作来实现自动化功能。Frida提供的动态二进制插桩能力精确的内存定位和操作稳定的Hook机制安全的数据处理完善的异常处理这些技术的结合使得我们能够实现稳定、高效的微信机器人功能。理解这些技术的工作原理和协作方式,对于开发更强大的自动化工具具有重要意义。想了解更多技术实现细节和源码解析,欢迎关注我的微信公众号**【松哥ai自动化】**。
2025-02-24 14:50:15
908
原创 拆解 Cursor Pro 自动化工具,看看它是怎么实现的?
🔥 深入解析Cursor Pro自动化工具的核心实现👨💻 从源码角度剖析关键技术⚡ 完整解读:注册、认证、机器码重置的自动化方案
2025-02-12 11:18:59
599
原创 AI 辅助开发实战分享:解决Selenium自动化设置Ant时间组件难题
AI 辅助开发实战分享:解决Selenium自动化设置Ant时间组件难题在软件开发这一块,
2025-02-08 09:28:42
353
原创 基于Python和uiautomation的Windows桌面自动化操作方案
基于Python和uiautomation的Windows桌面自动化操作方案在日常开发
2025-01-23 16:03:32
841
原创 使用 PyInstaller 打包 Python 应用并解决依赖问题
使用 PyInstaller 打包 Python 应用并解决依赖问题在 Python 开发中,
2025-01-23 13:53:15
1274
原创 使用 Podman Desktop 在 Windows 11 WSL2 环境中启动宿主机的 GPU 进行深度学习
使用 Podman Desktop 在 Windows 11 WSL
2025-01-13 09:58:06
1455
原创 使用 GitHub Actions 构建 CosyVoice 项目的运行环境镜像并推送到阿里云容器镜像服务和 GitHub Package Registry
使用 GitHub Ac
2025-01-10 17:34:33
747
原创 在Podman中配置Dify Sandbox服务与外部PostgreSQL服务的网络连接
在Podman中配置Dify Sandbox服务与外部PostgreSQL服务的网络连接
2025-01-06 10:47:11
2888
3
原创 在 Spring Boot 2 中集成 JCasbin 并实现 ClassPath 模型文件加载
在 Spring Boot 2 中集成 JCasbin 并实现 ClassPath
2025-01-02 16:12:48
489
原创 Dify 框架连接 PGSQL 数据库与 Sandbox 环境下的 Linux 系统调用权限问题
Dify 框架连接 PGSQL 数据库与 Sandbox 环境下的 Linux 系统
2025-01-02 10:49:12
7991
8
原创 使用PowerShell开发脚本程序进行批量SVN提交
使用PowerShell开发脚本程序进行批量SVN提交随着软件开发的不断进步,版本控制系统如Subversi
2024-12-31 14:53:58
476
原创 解决 podman 容器无法在宿主机和容器内部相互访问问题的记录
解决 podman 容器无法在宿主机和容器内部相互访问问题的记录近期在使用 podman 时,遇到
2024-12-30 15:29:32
1202
原创 解决 Dify 部署中 Podman WSL 容器文件权限问题
在使用 Podman 进行 Dify 部署时,遇到了一个关键问题:启动服务时出现的报错,这严重影响了 Dify 在 WSL 环境下通过 Podman 部署的进程。经过深入研究,发现问题根源在于 Podman 的 WSL 容器的文件权限配置与实际需求不匹配。为了解决这个问题,我们参考了中关于 WSL 文件权限的处理方法,并对 Podman 的 WSL 容器配置进行了针对性的修改。
2024-12-26 17:24:24
3341
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅