MoonOutCloudBack-优快云博客

原创 GiGPO：为 LLM 智能体注入细粒度信用分配，突破长视野决策瓶颈

简单的哈希表找到相同状态，将所有相同状态组成分组（group），并在组内计算优势（advantage），从而提供细粒度信用分配信号。

2025-11-05 08:45:00 1022

原创 ArCHer：LLM 的高效分层强化学习框架，突破多轮决策瓶颈

使用分层 RL 思想，解决 multi-turn 的信用分配问题：在高层次，采用时序差分方法来训练语句级（utterance-leve）的价值函数，在低层上，采用 GRPO 等算法来优化 token 生成，而将高层价值函数视为该轮的终局奖励。

2025-11-04 22:14:48 1169

原创 RAGEN 与 StarPO 框架：如何让 LLM 在多轮交互中自我进化？

RAGEN 关注 LLM 多轮（multi-turn）任务的强化学习微调，揭示了直接应用单轮 RL 算法的挑战。

2025-11-04 08:45:00 1063

原创 VinePPO：基于蒙特卡洛采样的无偏 credit assignment 进行价值估计，提升大模型推理能力

VinePPO 利用 LLM 环境可重置的特性，使用蒙特卡洛采样，估计 PPO 的价值函数。

2025-11-03 20:26:58 756

原创学习不对称的世界：泊松准度量嵌入（PQE）详解

项目代码：https://github.com/quasimetric-learning/torch-quasimetric

2025-11-02 15:08:29 735

原创分布式计算环境下的任务调度与能耗优化 —— 核心概念、挑战与前沿方法解析

总结分布式计算（云、雾、IoE）环境中任务调度（task scheduling）场景的三篇综述论文。

2025-10-01 19:12:02 615

原创【机器学习基础】多分类任务和多标签任务的区别

感觉主要区别是，多标签任务中，各个标签的概率不会归一化到加起来 = 1。

2025-08-14 00:18:38 1070

原创【WWW 2024】POLISH：可以动态增加类别标签的 Hash-based 语义 ID 方法

为类别 embedding 乘 Hadamard 矩阵，使其正交化，然后根据输入高维向量的类别标签构建 loss。

2025-07-23 17:59:17 696

原创【ICRA 2023】SASD 论文阅读笔记：一种安全感知的无监督技能发现方法

Safety-aware unsupervised skill discovery，感觉仍然是加监督信号加 reward 的方法。

2025-07-21 21:29:11 2088

原创从高维到离散：深入理解 Product Quantization (PQ) 的原理与应用

Product Quantization：分块 → 聚类 → 找最近的聚类中心。

2025-07-16 18:00:00 2386

原创从搜索引擎到推荐算法：SimHash 的原理、优化与实践

本文介绍了 SimHash 算法，看起来意外的简单。

2025-07-16 11:10:24 2097

原创 WDM 论文阅读笔记：从信息论到表示学习

把互信息中的 KL(p(xy), p(x)p(y)) 替换成了 W(p(xy), p(x)p(y))，好像性能更好。

2025-07-13 14:09:15 666

原创深度解析 RQ-VAE：如何通过残差量化提升图像生成效率

第一次接触 quantized 的离散化方法，感觉很新颖。

2025-07-13 13:13:13 2002

原创 eBay 电商搜索新突破：NEAR2 嵌套向量方法，让搜索“又快又准”

NEAR2 提出多维度（64 128 512）embedding 训练技术，为每一维都训练对比学习 loss，使得每一种维度的 embedding 都包含全局信息，且 embedding 头部信息量最大。

2025-07-02 22:40:25 532

原创非对称模态检索：京东 SMAR 在电商搜索中的创新实践

1. 使用多个任务训练多模态 embedding，2. 训练一个按需使用图片模态的“门控”模块。

2025-07-02 22:14:58 864

原创推荐系统前沿初探：从语义 ID 到多模态大模型

什么是语义 ID？它是如何工作的？如何将连续 embedding 转换为离散的语义 ID？

2025-07-02 21:36:14 1314

原创五分钟彻底理解 Model-Agnostic Meta-Learning（MAML）

MAML 训练模型的初始参数，使其面对新任务时，只需少量数据 + 几步梯度更新便能快速学习。

2025-04-04 15:29:09 451

MoonOutCloudBack的博客