
机器学习
文章平均质量分 88
机器学习相关内容总结
Gene_INNOCENT
Wait for the sunrise!
展开
-
大型语言模型训练的三个阶段:Pre-Train、Instruction Fine-tuning、RLHF (PPO / DPO / GRPO)
当前的大型语言模型训练大致可以分为如下三个阶段:1. **Pre-train**:根据大量可获得的文本资料,采用自监督学习-预测 next token 的方式,训练得到预训练模型;2. **Instruction Fine-tuning**:根据大量任务上的指令标记数据,采用监督学习的方式微调模型,使得模型可以理解人类指令;3. **RLHF**:基于人类的反馈,采用强化学习的方式,使模型可以产出符合人类偏好的回答。原创 2025-03-06 20:32:30 · 1108 阅读 · 0 评论 -
如何不修改模型参数来强化大语言模型 (LLM) 能力?
大语言模型 (Large Language Model, LLM, e.g. ChatGPT) 的参数量少则几十亿,多则上千亿,对其的训练往往需要大量的算力、智力以及财力支撑。基于此,许多低成本提高 LLM 能力的方法也相应被提出,其中包括模型微调 (e.g., LoRA) 以及一些无须改变模型参数的方法。原创 2024-12-31 16:36:48 · 985 阅读 · 0 评论 -
最近邻搜索 - 经典树型结构 M-Tree
最近邻搜索的目标是从 N 个对象中,快速找到距离查询点最近的对象。根据需求的不同,该任务又分为「精准查找」与「近似查找」,并且查找的目标也分为「找到前 K 个最近的对象」与「找到距查询点距离小于 r 的对象」。原创 2024-12-11 22:17:40 · 1233 阅读 · 0 评论 -
最近邻搜索 - Hierarchical Navigable Small World (HNSW)
HNSW 算法的目标是从 N 个数据点中,快速找到距离查询点最近的 K 个数据点。其主要思想是构建一个层次图,其中每一层节点数自上而下递增,且每一层中的节点与其相近节点连边。原创 2024-12-04 16:49:26 · 1100 阅读 · 0 评论 -
关联规则挖掘:Apriori 和 FP-Growth 算法
关联规则 (Association Rules) 即一组事物之间的关联关系。此处举一个常见例子进行说明,某超市将面包和黄油放在相近的位置,其原因是在其历史订单中,这两个商品经常被同时购买。那么关联规则挖掘考虑的问题为:如何在历史数据中,挖掘出一组经常同时出现的事物集合?这种关系可以看作是 IF-THEN 关系,即当商品 A 被挑选时,商品 B 也大概率同时会被选中。原创 2024-12-02 21:50:57 · 713 阅读 · 0 评论 -
针对多标签(Multi-label)任务的经典算法
多标签(Multi-label)任务是分类任务的扩展版,即每个样本不再仅属于一个类别,而是可以同时属于多个类别(标签)。因此与经典的分类任务不同,多标签问题需要预测一组标签,而不是一个单一的标签。本篇文章记录了一些经典的处理多标签(Multi-label)任务的算法。原创 2024-06-05 20:43:04 · 1597 阅读 · 0 评论 -
AAAI24 - Model Reuse Tutorial
该篇 Tutorial 主要对 Model Reuse 当下的进展进行了整理和总结。原创 2024-04-15 21:26:16 · 1043 阅读 · 0 评论 -
IJCAI23 - Continual Learning Tutorial
本篇 Tutorial 主要介绍了 CL 中的一些基本概念以及一些过往的方法。原创 2024-03-07 16:52:44 · 1035 阅读 · 1 评论 -
ICML23 - Synthetic Data for Model Selection
本文关注的问题为:是否可以使用合成数据(Synthetic Data)用于模型选择?即不再划分验证集,而是将所有标记数据作为训练集,使用训练集生成的合成数据来挑选模型。本文中关注的「模型选择」,是指根据训练集训练得到的多个模型(不同网络架构,不同超参等)的选择。首先给出包含 insight 的理论;随后用大量的实验说明:使用合成数据挑选模型是有效的。原创 2024-03-01 19:42:59 · 1017 阅读 · 0 评论 -
ICML23 - Fundamental Tradeoffs in Learning with Prior Information
本文关注的问题为:为快速学习一项给定的任务,需要多少先验知识?具体来说,本文聚焦于「对于一个给定的问题,先验信息的准确性与学习性能之间的权衡关系 ()」。原创 2024-02-28 14:33:06 · 1062 阅读 · 0 评论 -
机器学习数据集整理:图像、表格
如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。原创 2023-11-24 22:02:29 · 1281 阅读 · 0 评论 -
选择性集成 - MDEP (PPSN-22): Multi-objective Evolutionary Ensemble Pruning Guided by Margin Distribution
如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。选择性集成,即集成剪枝(Ensemble Pruning),即从一堆基学习器(base learners)中选择一个子集,希望泛化性能(Generalization Performance)越好的同时,子集大小越小。先前的研究通常使用验证集上的误差(Validation Error)来估计泛化性能,但最近的理论研究显示间隔分布(Margin Distribution)对泛化性能也很重要。原创 2023-09-19 19:00:54 · 777 阅读 · 0 评论 -
ICML21 - CLIP: Learning Transferable Visual Models From Natural Language Supervision
如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。CLIP (Contrastive Language-Image Pre-training) 方法,使用大规模数据 (4 亿图像文本对) + 大模型 (Vit Large),得到了性能超强的预训练模型。通过将文本作为监督信号,得到了图像下异构输出空间的各类任务的统一预训练模型。OpenAI 使用 4 亿对「文字-图像」通过对比学习,得到预训练模型。原创 2023-09-17 18:13:09 · 357 阅读 · 0 评论 -
ICML23 论文:Explore and Exploit the Diverse Knowledge in Model Zoo for Domain Generalization
如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。近年来预训练模型库兴起,如何有效利用模型库中的信息,获取对下游任务有效的模型,成为重要的研究方向;先前的研究主要关注于如何识别模型库中最有效的模型,因此未充分利用模型库中多样的归纳偏好;原创 2023-09-05 22:52:52 · 313 阅读 · 0 评论 -
大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt
在大型语言模型的研究中,研究者对其有两种不同的期待,也可以理解为是两种不同的路线,具体来说:- 期待一:成为专才,解决某类特定任务(翻译、获取摘要)- 期待二:成为通才,给定指令(Prompt),即可完成对应任务 - 最早的该方向研究,认为所有 NLP 任务都可以变成问答任务,由此统一所有任务原创 2023-04-14 19:38:53 · 2418 阅读 · 4 评论 -
研究的艺术 (The craft of research) 读书笔记
对于研究者而言,写作是一件很重要的事,好的写作不仅能让更多人愿意读,获得更大影响力,还能帮助作者更深入地进行思考,其重要性已不言而喻。研究的艺术 (The craft of research) 是一本关于「论文写作」的经典教材,但其中涉及的写作原则非常广泛,对各个领域的写作均有帮助。原创 2023-04-10 12:54:46 · 978 阅读 · 0 评论 -
生成式 AI 分析:大模型 + 大量数据的神奇效果
下图是模型性能(Loss for next token prediction)与「参数量」和「数据集大小」之间的关系,可以看出随着「参数量」和「数据集大小」不断变大,模型性能不断增强,仿佛不会遇到瓶颈。原创 2023-04-02 21:34:54 · 5939 阅读 · 1 评论 -
生成式 AI 背后的共同框架:Stable Diffusion、DALL-E、Imagen
生成器的内部框架如下所示:- 第一部分:Text Encoder,输出 Text,返回对应的 Embedding(向量);- 第二部分:Generation Model,输入为 Text 的 Embedding 与一个随机生成的 Embedding(用于后续的 Diffusion 过程),返回中间产物(可以是图片的压缩版本,也可以是 Latent Representation);- 第三部分:Decoder,输入为图片的压缩版本,返回最终的图片。原创 2023-04-02 18:41:26 · 3203 阅读 · 0 评论 -
ChatGPT 各类 Prompt 整理
如果你对这篇文章感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。原创 2023-03-29 14:23:14 · 12918 阅读 · 1 评论 -
机器学习领域中各学派划分(符号主义、频率主义、贝叶斯主义、连接主义)
在机器学习领域中,算法数量可谓是数不胜数,若只关注每个算法本身,将各个算法独立地进行看待,则将眼花缭乱,难以把握算法背后的核心思想。事实上,虽然机器学习领域中算法数量十分庞大,但其背后的核心思想,即隐藏的世界观认知是有限的。因此在学习机器学习的过程中,我们首先需要了解该领域中各学派之间的关系,随后在学习算法时分析其涉及了哪些流派的思想,并在之后自己设计算法时,将这些思想有机地结合起来。原创 2023-03-22 23:29:17 · 4236 阅读 · 0 评论 -
对比学习 (Contrastive Learning) 发展历程 - 综述
本文为「对比学习论文综述」的笔记,其中将对比学习分为了以下四个发展阶段:- 百花齐放- CV 双雄- 不用负样本- Transformer原创 2023-03-18 21:32:12 · 3928 阅读 · 0 评论 -
二进制哈希码快速搜索:Multi-Index Hashing
哈希方法通常包含两个部分:- 【编码】将元素通过「data-dependent」或「data-independent」的方式映射为二进制,并通过比较二进制码的汉明距离 (hamming distance) 来搜索相似元素;- 【搜索】由于二进制码往往比较长(例如 64, 128, 256 bits),采用直接映射的方式,通常找不到任何元素,因此通常考虑找汉明距离小于 $r$ 的元素,即二进制编码最多只有 $r$ 个位置不同。原创 2023-03-11 22:26:48 · 409 阅读 · 0 评论 -
随机多臂赌博机 (Stochastic Multi-armed Bandits):置信上界算法 (Upper Confidence Bound)
本篇文章介绍一种针对「Stochastic Multi-armed Bandits (MAB)」问题的算法,即「Upper Bound Confidence (UCB)」,其通过估计摇臂的奖励区间,实现了探索与利用之间的平衡。原创 2023-03-09 15:25:41 · 686 阅读 · 0 评论 -
演化算法:乌鸦搜索算法 (Crow Search Algorithm)
在机器学习中,我们所要优化的问题很多时候难以求导,因此通常会采用一些演化算法(又称零阶优化 / 黑盒优化)来近似求解。这些演化算法通常是根据一些生物的行为置顶,有如下分类。原创 2023-03-07 23:21:03 · 2824 阅读 · 0 评论 -
层次聚类:BIRCH 聚类、Lance–Williams equation、BETULA 聚类
层次聚类:BIRCH 聚类、Lance–Williams equation、BETULA 聚类原创 2023-03-07 15:02:57 · 460 阅读 · 0 评论 -
机器学习算法 - 博客收藏
前言如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。谱聚类对比传统聚类算法 K-Means,谱聚类对数据分布的适应性更强,聚类效果也更好,且计算量较小,实现也不复杂,是广泛使用的聚类算法。参考资料:谱聚类(spectral clustering)原理总结EM 算法EM 算法理解的九层境界:EM 就是 E + MEM 是一种局部下限构造K-Means 是一种 Hard EM 算法从 EM 到广义 EM广义原创 2022-05-31 14:34:54 · 421 阅读 · 0 评论 -
软聚类算法:模糊聚类 (Fuzzy Clustering)
我们之前听说的大部分聚类算法均为硬聚类,即要求每个数据点只能属于一个特定的簇。不同于硬聚类,软聚类放松了限制,即允许数据点可以同时属于多个簇。本文所要介绍的模糊聚类即为一种常见的软聚类算法。原创 2023-03-06 15:13:46 · 5091 阅读 · 0 评论 -
k-Medoids 聚类系列算法:PAM, CLARA, CLARANS, Trimed, BanditPAM
k-Means 作为一种经典聚类算法,相信大家都比较熟悉,其将簇中所有的点的均值作为簇中心,整个过程采用欧式空间中的距离度量。不同于 k-Means,k-Medoids 将距簇中所有点距离之和最小的点作为簇中心原创 2023-03-04 21:27:45 · 1479 阅读 · 0 评论 -
变分推断 (Variational Inference) 解析
变分推断。在贝叶斯方法中,针对含有隐变量的学习和推理,通常有两类方式,其一是马尔可夫链蒙特卡罗法 (MCMC),其通过采样来近似估计后验概率分布;其二是变分推断,通过解析的方法近似计算后验概率分布。原创 2023-03-01 21:13:56 · 1672 阅读 · 0 评论 -
O(1) 的离散概率分布采样方法 - Alias Method
如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。原创 2023-02-27 15:14:31 · 360 阅读 · 0 评论 -
哈希函数的学习算法整理
如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。转为二进制编码:可以先降维成实数,再转为二进制,也可以直接学习一个二进制编码;学习哈希映射函数:基于二进制编码设计或学习哈希方式,使得相似元素靠近,不相似元素远离。数据无关的方法 (Data-Independent Methods)特点:哈希函数与训练集无关,通常为随机投影或手动构造。原创 2023-02-23 21:17:50 · 735 阅读 · 0 评论 -
最大化内积搜索相关研究 (Maximum Inner Product Search, MIPS)
如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。MIPS 问题即在一个向量集合SS中,找到一个与查询向量qqq内积最大的向量zzzzargmaxx∈SxTqzx∈SargmaxxTq这是一个非常困难的问题,本文罗列了部分与其相关的资料。原创 2023-02-22 15:14:24 · 1882 阅读 · 0 评论 -
推荐系统中的协同过滤算法
如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。协同过滤是一种推荐算法,其通常建模为mmm个用户,nnn个物品,只有部分用户和部分物品之间有评分数据,其它评分是空白的,此时就要求我们用已有的部分稀疏数据来预测空白的部分,找到评分最高的物品推荐给用户。基于用户 (user-based):考虑用户之间的相似度,基于相似用户的喜好,预测目标用户对相应物品的评分(可能带给用户惊喜);原创 2023-02-21 22:17:43 · 1091 阅读 · 0 评论 -
优质 CS 读博 (PhD) 经验贴汇总
如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。原创 2023-02-17 20:38:00 · 1107 阅读 · 1 评论 -
推荐系统召回层算法
如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。筛选部分即召回层,其依据用户信息,从千百万量级的候选物品中筛选出几百个物品的同时,需要保证召回率;排序部分即排序层,即对筛选出的物品进行排序,该过程需保证准确率。通过逻辑筛选,例如依据用户兴趣标签、注册信息筛选,以及筛选出最近流行、朋友喜欢,以及各类热门、冷门视频协同过滤 + 快速近邻搜索算法Embedding + 快速近邻搜索算法。原创 2022-10-26 15:54:19 · 753 阅读 · 0 评论 -
论文:Detecting and Correcting for Label Shift with Black Box Predictors(BBSE)
如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。首先从一个流感的例子讲起,医院在八月根据当月数据训练了模型fff,假设其特征x\bm{x}x为「有无咳嗽」,预测标签yyy为「有无得流感」。后续几个月模型fff运转良好,但到第二年二月时,医院发现fff预测为「得流感」的人数大幅增加,此时我们知道这与「冬季是流感高发期」有关。但一个问题随即出现了,用八月数据训出的fff。原创 2022-10-05 22:59:01 · 1177 阅读 · 0 评论 -
模型查搜相关研究
如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。原创 2022-10-01 21:53:54 · 625 阅读 · 0 评论 -
机器学习中常见性能度量汇总
如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。原创 2022-09-21 22:46:49 · 847 阅读 · 0 评论 -
Transformer 模型以及自注意力机制 (Self-attention)
在 Transformer 之前,序列翻译任务(或者说与序列、时序相关的任务)通常采用 RNN、CNN 结构,其中 RNN 的缺点在于:(1)使用计算的先后次序,来表征序列中的先后信息,因此只能串行计算(2)长序列早期的信息可能会丢失;CNN 的缺点在于:捕捉相邻信息依赖卷积的窗口,因此对于长序列的信息可能需要很多层卷积。基于上述问题,Transformer 应运而生,提出新结构,用于实现(1)更好地并行化(2)更好地建模长序列。原创 2022-09-14 23:15:29 · 764 阅读 · 0 评论 -
目标检测 YOLO 系列模型
YOLO (You Only Look Once) 系列模型追求实时目标检测,因此会在一定程度上牺牲精度,以实现更高的检测速度。如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。原创 2022-09-03 15:48:26 · 2922 阅读 · 1 评论