kuokay-优快云博客

原创基于多智能体强化学习的网络入侵检测系统（IDS）

本文提出了一种基于多智能体强化学习的新型网络入侵检测系统，通过分层架构解决现有机器学习方法在应对动态攻击模式和类别不平衡问题上的不足。系统采用第一层多个专注特定攻击的智能体进行初步检测，第二层决策智能体综合评估输出最终分类。实验采用CIC-IDS-2017数据集，结果显示该方法实现了99%的准确率和极低误报率（0.0016%），显著优于传统机器学习模型。创新点包括：1）分层强化学习架构；2）针对类别不平衡设计的加权损失函数；3）弹性适应新增攻击的能力。

2025-12-12 19:42:25 901

原创 Agentic RL 如何让语⾔模型成为⾃主智能体

摘要： Agentic RL是强化学习的扩展，通过大语言模型(LLM)与外部工具的多轮交互实现自主决策和复杂任务求解。相比传统LLM-RL（如RLHF）的单步对齐，Agentic RL采用多步POMDP框架，结合文本生成与工具调用，优化长期累积奖励。其优势包括减少提示依赖、提升探索能力，但面临长序列处理效率低、多工具协同困难等挑战。主流算法如PPO通过概率比裁剪稳定训练，DPO则直接优化人类偏好数据。该技术适用于动态场景（如自动驾驶、金融），是AI向自主智能体演进的关键方向。

2025-11-14 20:45:00 832

原创顶级 AI 模型横评：智能、性能与价格等方面全面对比

《人工智能分析智能指数3.0发布》摘要：Artificial Analysis团队推出第3.0版智能评测体系，覆盖推理、编程、行业应用等10大核心指标（包括MMLU-Pro、GPQA Diamond等）。测试结果显示，GPT-4 Turbo在综合智能、推理能力上领先，而Claude 3 Opus在长期推理表现突出。报告还对比了开源/专有模型的性能差异，并分析了运算成本（最高达$1000/次测试）与上下文窗口（最高128K tokens）的关系。该指数采用CC BY 4.0开源协议，为目前最全面的AI智力评估

2025-10-13 20:00:00 1871

原创 Agent2Agent (A2A) 协议

Agent2Agent（A2A）是由 Google 及合作伙伴倡导的开放协议，旨在让来自不同供应商或基于不同框架构建的 AI 智能体（Agent）能够安全通信并协同执行任务。它为 AI 代理交互定义了一套通用“语言”和框架，使异构智能体能够无缝互操作，打破信息孤岛。通过 A2A，不同开发者、不同技术和不同组织的智能体可以联合行动，共同解决复杂问题，实现跨系统协作。

2025-10-02 09:42:23 1107

原创大模型Agent五大工作模式深度解析

要理解一个大模型Agent如何工作，核心在于它背后所依赖的工作模式。目前主流的Agent大多围绕五种关键模式：反射模式（Reflection pattern ）：让模型通过自我检视和修正提升推理能力；工具使用模式（ Tool use pattern）：赋予模型调用外部工具与系统的能力；ReAct模式（Reason and Act）：在推理与行动之间动态切换，实现更高效的决策；规划模式（Planning pattern）：让模型具备长期目标分解与任务执行的能力；

2025-10-01 18:05:04 1194

原创 Wazuh详解

Wazuh是一款开源安全检测与响应平台，提供终端防护、威胁检测、云安全等核心功能。它基于客户端-服务器架构，通过代理收集主机日志数据，由服务器分析后存储到索引器集群，并通过Kibana可视化展示。Wazuh支持多种操作系统，具备恶意软件检测、文件完整性监控、漏洞扫描等能力，同时满足PCI-DSS、GDPR等合规要求。其架构采用加密通信，确保数据传输安全，适用于企业级安全监控与威胁响应场景。

2025-06-16 21:40:08 1601

原创 PC与Windows远程连接与串流：方案简介（ZeroTier + Parsec、Moonlight + Sunshine、网易UU远程）

在远程办公、云游戏、家用 NAS 串流、图形远程渲染等需求增长的背景下，越来越多用户开始寻找低延迟、高画质、跨网络可用的远程连接方案。今天这篇文章将深度分析三种目前在玩家圈和远程办公中都非常流行的组合方案：

2025-06-07 16:23:11 3995

原创从单模态到多模态：深度生成模型的演进历程

1. GAN（生成对抗网络，2014年6月)背景由Ian Goodfellow等人提出，旨在通过对抗训练生成逼真数据。其核心思想是通过生成器与判别器的博弈，使生成器逐渐逼近真实数据分布。原理生成器（Generator）：将随机噪声zzz映射到数据空间，生成样本GzG(z)Gz。判别器（Discriminator）：判断输入样本是否来自真实数据分布，输出概率DxD(x)Dx。对抗目标min⁡Gmax⁡DEx∼pdataxlog⁡DxEz∼。

2025-04-22 18:30:00 2205

原创从单模态到多模态：大模型架构演进与技术介绍

人工智能领域的模型架构经历了从单模态（专注于单一数据类型）到多模态（融合多种数据类型）的跨越式发展。这一过程中，残差学习、注意力机制、对比学习等技术的突破推动了模型的性能提升和应用场景扩展。本文将深入解析五个里程碑模型——探讨其核心架构与技术创新，并梳理从单模态到多模态的技术演进路径。

2025-04-16 22:32:19 1970

原创大模型微调综述

随着大型语言模型(Large Language Models, LLMs)的快速发展，如何让这些通用模型更好地适应特定场景和任务，已成为AI领域的热点问题。大模型微调技术应运而生，成为连接通用大模型与专业应用的桥梁。本文将系统介绍大模型微调的概念、必要性、分类及常见技术方法。大模型微调(Fine-tuning)是指在预训练大模型（如 GPT、LLaMA 等）的基础上，使用特定领域或任务的数据进行二次训练，使模型更好地适应特定应用场景的过程。

2025-04-04 04:00:00 2331

原创强大的zeek流量分析工具安装与使用

Zeek（原名Bro）是一款开源的网络流量分析框架，专注于实时网络监控、安全检测与协议分析。它不仅是入侵检测系统（IDS），更是一个强大的网络取证和威胁狩猎平台。Zeek运行时生成的日志默认存储在 /opt/zeek/logs/current/（默认安装路径）中，每个文件对应不同的协议或分析模块。文件名描述conn.log所有网络连接记录（IP、端口、协议、流量大小、持续时间等）http.logHTTP请求详情（URL、请求方法、User-Agent、状态码、MIME类型等）dns.log。

2025-03-31 09:00:00 2039

原创大模型里常说的AI智能体（Agent）是什么？

AI 智能体（Agent）是一个能够自主感知环境、制定目标、规划行动并执行任务的智能系统。它不仅仅是一个被动响应指令的模型，而是具备主动性和决策能力的实体，能够像人类一样与环境交互，完成复杂任务。自主性： AI Agent能够自主决策和执行任务，无需人类干预。适应性：能够根据环境变化调整自己的行为。交互性：能够与人类或其他AI Agent进行交流与合作。学习能力：通过学习不断优化自己的行为和决策。

2025-03-25 06:30:00 1188

原创一文搞懂大模型 - RAG（检索、增强、生成）

RAG（检索-增强-生成，Retrieval-Augmented Generation）是一种结合了信息检索与文本生成的技术框架，旨在通过动态引入外部知识提升生成模型的效果。

2025-03-22 07:45:00 1749

原创大模型里面常说的Embedding（嵌入）是什么

Embedding（嵌入）是机器学习和自然语言处理（NLP）中的一种关键技术，其核心思想是将高维、离散、非结构化的数据（如文字、图像、用户行为等）转换为低维、连续、稠密的向量表示。这些向量不仅能被计算机高效处理，还能捕捉数据之间的潜在关系（如语义、相似性等）。例如：文字：单词“猫” → 向量 [0.3, -0.8, 1.2, …, 0.5]图像：一张猫的图片 → 向量 [0.7, 0.1, -0.3, …, 0.9]用户行为：用户点击商品A → 向量 [0.4, -0.2, 0.6, …, 0.1]

2025-03-19 02:45:00 3721

原创向量数据库原理及选型

向量数据库（Vector database）、向量存储或向量搜索引擎是一种能够存储向量（固定长度的数值列表）及其他数据项的数据库。向量数据库通常实现一种或多种近似最近邻（Approximate Nearest Neighbor，ANN）算法，使用户可以使用查询向量搜索数据库，以检索最匹配的数据库记录。通俗的来说，例如你想喝一杯“类似摩卡（向量[12,13,19,8,9]）但苦味更少”的咖啡：传统菜单：只能按名称选（“摩卡在A10单元格”）。

2025-03-16 20:29:27 1145

原创一文带你入门 MCP（模型上下文协议）

Model Context Protocol (MCP) 是一个开放协议，它使 LLM 应用与外部数据源和工具之间的无缝集成成为可能。无论你是构建 AI 驱动的 IDE、改善 chat 交互，还是构建自定义的 AI 工作流，MCP 提供了一种标准化的方式，将 LLM 与它们所需的上下文连接起来。目前，MCP 已经积累了足够的临界规模和动能，因此它被视为 2023-2025 年“代理开放标准”之争的潜在赢家。

2025-03-16 10:29:55 37119 1

原创 AI虚拟女友/角色扮演/AI聊天伴侣开源项目汇总

各位开发者小伙伴们，今天给大家解锁一波超实用的AI黑科技！近期GitHub上涌现了大量开源的AI虚拟伴侣项目，从高情商对话模型到角色扮演系统，从情感陪聊助手到个性化女友定制工具，这些项目不仅支持本地一键部署，更可以让开发者自由改造。目前的项目已有多个支持：✅ 个性化角色设定✅ 跨平台API对接✅ 对话记忆增强✅ 情感响应优化技术改变生活，这些开源方案不仅适合个人开发者练手，更为情感计算研究提供了宝贵资源库。文章已整理好精选项目清单，期待看到大家创造出更有趣的AI交互应用！

2025-03-14 18:45:00 18686

原创最全DeepSeek关键RL算法GRPO，手把手教你从头跑通

GRPO（Group Relative Policy Optimization）是 DeepSeek-R1 成功的基础技术之一。简单来说，GRPO 算法丢弃了 critic model，放弃了价值函数近似，转而通过组内样本的相对比较来计算策略梯度，从而有效降低了训练的不稳定性，同时提高了学习效率。既然 GRPO 如此有效，那么，你知道如何从头开始实现 GRPO 吗？

2025-03-12 17:50:14 1583

原创 DeepSeek核心强化学习算法：GRPO介绍

GRPO 是一种在线学习算法，这意味着它通过使用训练模型本身在训练期间生成的数据进行迭代改进。GRPO 目标背后的直觉是最大限度地利用生成的完成，同时确保模型始终接近参考策略。GRPO 的发明者是 DeepSeek，最早是被用于微调 DeepSeek 的 R1 和 R1-Zero 模型 —— 它们可通过学习生成思维链（CoT）来更好地解决数学和逻辑问题。

2025-03-12 14:35:05 2360

原创 LangChain详细体验

LangChain是一个强大的框架，旨在帮助开发人员使用语言模型构建端到端的应用程序。它提供了一套工具、组件和接口，可简化创建由大型语言模型 (LLM) 和聊天模型提供支持的应用程序的过程。LangChain 可以轻松管理与语言模型的交互，将多个组件链接在一起，并集成额外的资源，例如 API 和数据库。这个框架由几个部分组成。langchain-core：基本抽象和 LangChain 表达式语言。langchain-community：第三方集成。

2025-03-10 10:56:28 924

原创 Sapiens人类行为AI模型

Sapiens是Meta公司推出的一个专注于与人类相关的任务的模型。Meta Sapiens模型旨在理解和模拟人类行为，包括理解身体姿势、识别身体部位、预测深度，甚至确定皮肤纹理等表面细节。Sapiens 为以人为中心的视觉任务（例如 2D 姿势、零件分割、深度、法线等）提供了一套全面的套件。该模型系列在 3 亿张野外人类图像上进行了预训练，并显示出对不受约束条件的出色泛化。这些模型还设计用于提取高分辨率特征，以 1024 x 1024 图像分辨率和 16 像素的补丁大小进行本机训练。

2025-03-07 20:20:39 1384

原创 Unsloth 基于自己的数据集微调建立专属模型

unsloth 是开源的大语言模型(LLM)微调工具，基于优化计算步骤和 GPU 内核，显著提升模型训练速度减少内存使用。Unsloth支持多种主流 LLM，如 Lama-3、Mistral、Phi-4等，在单 GPU 上实现最高 10倍、多 GPU 上最高 32 倍的加速效果，同时内存使用减少 70% 以上。unsloth 提供免费的开源版本，用户能在 Google Colab 或 Kaggle Notebooks 上快速体验。

2025-03-05 17:30:19 2782

原创最详细的谷歌Colab白嫖·部署Deepseek

DeepSeek是这段时间最热门的话题之一，其蒸馏模型可以实现低成本而高质量的推理，使得我们现在可以在本地小型化的硬件上也用上大模型这一AI利器。本文主要介绍通过Colab来部署DeepSeek R1模型的方法。使用Ngrok穿透让本地Chatbox可以调用ollama Deepseek api。

2025-03-03 18:01:17 1354

原创 python和go相互调用的两种方法

将go代码编译成so库 -> python中通过ctypes引用so库并指定需要调用的函数（同时可指定传入参数类型和返回值类型） -> 指定后按python使用函数方式调用。需要注意的是：python和go之间参数传递是需要经过C的数据类型转换的，因此需要了解python中ctypes数据类型和python数据类型以及C的数据类型对应关系ctypes数据类型为指定调用函数时的传入参数和返回值的数据类型python数据类型为调用函数时传入的参数的数据类型。

2023-10-06 16:24:28 5544 2

原创 Kerberos 身份验证

Kerberos 是一种由 MIT（麻省理工大学）提出的一种基于加密 Ticket 的身份认证协议。它旨在通过使用密钥加密技术为客户端/服务器应用程序提供强身份验证，用于验证用户或主机的标识。。适用范围：Windows Server 2022、Windows Server 2019、Windows Server 2016在 Kerberos 协议中主要是有三个角色的存在：1、访问服务的 Client；2、提供服务的 Server；

2023-09-11 23:16:03 924

原创本地部署 langchain-ChatGLM

大型语言模型（LLM）正在成为一种变革性的技术，使开发者能够建立他们以前无法建立的应用程序。然而，孤立地使用这些LLM往往不足以创建一个真正强大的应用程序–当你能将它们与其他计算或知识来源相结合时，真正的力量才会出现。这个库的目的是协助开发这些类型的应用。langchain 使用 Transformer 模型，并在多个语言间建立链式结构实现翻译。比如，它可以通过英语→法语→西班牙语完成英语到西班牙语的翻译。langchain 只使用公开数据集进行训练，不需要额外的数据。WMT2014英法翻译数据集。

2023-06-05 19:26:51 4502 2

空空如也

空空如也