自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 GiGPO:为 LLM 智能体注入细粒度信用分配,突破长视野决策瓶颈

简单的哈希表找到相同状态,将所有相同状态组成分组(group),并在组内计算优势(advantage),从而提供细粒度信用分配信号。

2025-11-05 08:45:00 1022

原创 ArCHer:LLM 的高效分层强化学习框架,突破多轮决策瓶颈

使用分层 RL 思想,解决 multi-turn 的信用分配问题:在高层次,采用时序差分方法来训练语句级(utterance-leve)的价值函数,在低层上,采用 GRPO 等算法来优化 token 生成,而将高层价值函数视为该轮的终局奖励。

2025-11-04 22:14:48 1169

原创 RAGEN 与 StarPO 框架:如何让 LLM 在多轮交互中自我进化?

RAGEN 关注 LLM 多轮(multi-turn)任务的强化学习微调,揭示了直接应用单轮 RL 算法的挑战。

2025-11-04 08:45:00 1063

原创 VinePPO:基于蒙特卡洛采样的无偏 credit assignment 进行价值估计,提升大模型推理能力

VinePPO 利用 LLM 环境可重置的特性,使用蒙特卡洛采样,估计 PPO 的价值函数。

2025-11-03 20:26:58 756

原创 学习不对称的世界:泊松准度量嵌入(PQE)详解

项目代码:https://github.com/quasimetric-learning/torch-quasimetric

2025-11-02 15:08:29 735

原创 分布式计算环境下的任务调度与能耗优化 —— 核心概念、挑战与前沿方法解析

总结分布式计算(云、雾、IoE)环境中任务调度(task scheduling)场景的三篇综述论文。

2025-10-01 19:12:02 615

原创 【机器学习基础】多分类任务和多标签任务的区别

感觉主要区别是,多标签任务中,各个标签的概率 不会归一化到 加起来 = 1。

2025-08-14 00:18:38 1070

原创 【WWW 2024】POLISH:可以动态增加类别标签的 Hash-based 语义 ID 方法

为类别 embedding 乘 Hadamard 矩阵,使其正交化,然后根据输入高维向量的类别标签构建 loss。

2025-07-23 17:59:17 696

原创 【ICRA 2023】SASD 论文阅读笔记:一种安全感知的无监督技能发现方法

Safety-aware unsupervised skill discovery,感觉仍然是加监督信号 加 reward 的方法。

2025-07-21 21:29:11 2088

原创 从高维到离散:深入理解 Product Quantization (PQ) 的原理与应用

Product Quantization:分块 → 聚类 → 找最近的聚类中心。

2025-07-16 18:00:00 2386

原创 从搜索引擎到推荐算法:SimHash 的原理、优化与实践

本文介绍了 SimHash 算法,看起来意外的简单。

2025-07-16 11:10:24 2097

原创 WDM 论文阅读笔记:从信息论到表示学习

把互信息中的 KL(p(xy), p(x)p(y)) 替换成了 W(p(xy), p(x)p(y)),好像性能更好。

2025-07-13 14:09:15 666

原创 深度解析 RQ-VAE:如何通过残差量化提升图像生成效率

第一次接触 quantized 的离散化方法,感觉很新颖。

2025-07-13 13:13:13 2002

原创 eBay 电商搜索新突破:NEAR2 嵌套向量方法,让搜索“又快又准”

NEAR2 提出多维度(64 128 512)embedding 训练技术,为每一维都训练对比学习 loss,使得每一种维度的 embedding 都包含全局信息,且 embedding 头部信息量最大。

2025-07-02 22:40:25 532

原创 非对称模态检索:京东 SMAR 在电商搜索中的创新实践

1. 使用多个任务训练多模态 embedding,2. 训练一个按需使用图片模态的“门控”模块。

2025-07-02 22:14:58 864

原创 推荐系统前沿初探:从语义 ID 到多模态大模型

什么是语义 ID?它是如何工作的?如何将连续 embedding 转换为离散的语义 ID?

2025-07-02 21:36:14 1314

原创 五分钟彻底理解 Model-Agnostic Meta-Learning(MAML)

MAML 训练模型的初始参数,使其面对新任务时,只需少量数据 + 几步梯度更新便能快速学习。

2025-04-04 15:29:09 451

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除