
深度学习基础/原理
文章平均质量分 76
深度学习基础/原理
小爷毛毛(卓寿杰)
NLP对话问答、大模型、AIGC。
公众号:毛毛AIGC。欢迎关注进一步交流!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Chain of Draft:以极简推理加速大模型思考——原理、代码实现与性能突破
摘要: Chain of Draft (CoD) 是一种新型推理范式,通过极简草稿(≤5词/步)替代传统Chain-of-Thought的冗余计算,显著降低LLM推理成本。实验显示,CoD在GSM8K等任务中保持90%+准确率的同时,平均减少85% Token消耗和65%延迟。其核心创新在于:1)硬约束中间态长度;2)仅保留关键计算节点;3)与工程师草稿思维对齐。代码实现包含动态提示组合、多后端LLM适配等模块,支持通过CLI快速验证不同任务/模型的性能提升。该技术为高成本大模型推理提供了轻量化解决方案。原创 2025-07-27 16:51:56 · 55 阅读 · 0 评论 -
检索增强的大模型工具调用:语义驱动的精准API选择技术
在大型语言模型(LLM)应用中,工具调用能力已成为连接AI与真实世界的桥梁。然而,传统方法存在工具选择不准确、参数匹配错误等问题。本文将深入探讨检索增强工具选择器(Retrieval-Augmented Tool Selector) 如何通过语义嵌入技术解决这些挑战。原创 2025-06-03 17:12:08 · 836 阅读 · 0 评论 -
深入解读Qwen3技术报告(六):Qwen3性能评估
Qwen3性能评估框架概览 Qwen3采用多维度评估体系,涵盖基础能力、专业领域、多语言支持、指令执行、安全性和实际应用六大维度。评估方法结合标准化基准测试(如MMLU、GSM8K)、自动化指标分析和人类专家评估,并与主流模型(Llama-3、GPT-4等)进行横向对比。该框架通过量化指标和质性分析,全面衡量模型的语言理解、专业问题解决及安全合规等核心能力,为AI模型评估提供系统化方法论。评估结果展现Qwen3在语言处理和专业任务中的综合性能表现。原创 2025-05-26 13:53:09 · 357 阅读 · 0 评论 -
深入解读Qwen3技术报告(五):后训练对齐
摘要: 本章解析了Qwen3大模型的后训练对齐技术,通过多阶段框架(监督微调、偏好对齐、安全对齐)实现三大目标:有用性、安全性和诚实性。监督微调阶段使用百万级高质量指令-回答对数据,覆盖119种语言和多样化任务类型;偏好对齐通过强化学习优化人类偏好;安全对齐专门训练模型拒绝有害请求。代码示例展示了分阶段对齐流程,强调各环节的协同作用与目标平衡(如安全性与有用性的权衡),最终将基础模型转化为符合人类价值观的AI助手。原创 2025-05-26 11:04:29 · 436 阅读 · 0 评论 -
深入解读Qwen3技术报告(四):Qwen3的预训练之旅
Qwen3的预训练过程通过大规模、多样化的数据构建和优化,显著提升了模型的基础能力和知识储备。与Qwen2.5相比,Qwen3的预训练数据规模翻倍,支持语言数量增加至119种,领域覆盖更加广泛,包括编程、STEM、推理任务、书籍、多语言文本和合成数据等。团队创新性地利用多模态模型从PDF文档中提取高质量文本,并通过合成数据生成策略,利用现有模型生成特定领域的内容,进一步丰富了数据来源。这些策略为Qwen3提供了坚实的知识基础和语言理解能力,确保了其卓越的性能表现。原创 2025-05-23 13:15:45 · 282 阅读 · 0 评论 -
深入解读Qwen3技术报告(三):深入剖析Qwen3模型架构
本文深入剖析了Qwen3模型的架构设计,重点介绍了其基础组件和创新点。Qwen3基于Transformer解码器,采用了层前归一化、分组查询注意力(GQA)等改进技术,以提升性能和计算效率。GQA通过让多个查询头共享同一组键值头,减少了参数量和计算量,同时保持了模型的表现力。此外,Qwen3的架构设计还考虑了扩展性和训练稳定性,使其在大型语言模型中具有显著优势。通过这些技术细节的解析,读者可以更好地理解Qwen3强大能力背后的架构秘密。原创 2025-05-22 16:37:06 · 1647 阅读 · 0 评论 -
深入解读 Qwen3 技术报告(一):引言
本文详细解析了Qwen3的核心架构、预训练策略、后训练优化体系及性能评估与工程实践。Qwen3采用混合专家模型(MoE)和优化后的注意力机制,通过三阶段预训练策略构建大规模多语言语料库,并利用长上下文训练技术扩展模型能力。后训练阶段引入双模融合机制和强化学习策略,进一步提升模型性能。评估体系涵盖通用知识、数学推理、代码生成等多维度指标,工程实践中通过动态批处理和量化部署优化推理效率。Qwen3在多项任务中表现出色,尤其在多语言能力和代码生成方面具有显著优势。原创 2025-05-20 15:26:11 · 443 阅读 · 0 评论 -
深入解读Qwen3技术报告(二):Qwen3模型系列全景
Qwen3模型系列是一个从微型到巨型的AI家族,涵盖了从0.6B到235B参数的全系列模型,分为密集模型和混合专家模型(MoE)两大类。密集模型系列包括从Qwen3-0.6B到Qwen3-32B的多个模型,适用于从移动设备到高性能服务器的各种场景。MoE模型系列则通过稀疏激活的架构,在保持计算量稳定的同时大幅增加参数量,适用于需要高性能但资源有限的场景。Qwen3系列的核心技术创新包括思考模式与非思考模式的统一框架、思考预算机制以及高效的MoE架构,这些创新使得Qwen3能够在不同场景下灵活应对复杂任务,提原创 2025-05-22 13:17:33 · 263 阅读 · 0 评论 -
DeepSeek-R1/Zero、RL GRPO以及蒸馏过程详解
传统方法:老师先教 1000 道例题(SFT 数据),学生模仿练习。R1-Zero 方法:直接扔给学生 100 万道题,配一台“自动批改机”。学生自己摸索解法,机器实时反馈对错。最终,学生总结出一套高效的解题套路,甚至超越老师教的答案。这就是 R1-Zero 的核心——让 AI 在“题海战术+自动批改”中自我顿悟。传统做法:召集全国名师手写答案 → 耗时十年,成本爆炸。AI 辅助做法Step1:请 10 位名师写 100 道标准答案(冷启动数据)。Step2。原创 2025-02-11 15:32:55 · 1864 阅读 · 0 评论 -
【大模型系列故事】从单词魔术师到思维巨人
直到GPT系列的诞生,特别是GPT-3和ChatGPT,它们仿佛一夜之间长大成人,能够独立思考,解决各种难题,甚至进行创造性的工作,不需要太多微调,就像是拥有广泛知识和经验的智者,能在各种场合游刃有余。在90年代,语言模型还处于蹒跚学步的阶段,就像孩子刚开始学习词汇,比如n-gram模型,它们能学会预测下一个单词,但对复杂语境的理解还很有限,像一个只会背诵单词的小朋友。总之,大语言模型的出现,就像一场科技界的文艺复兴,让机器不再是冰冷的工具,而成了有温度、有智慧的伙伴,一起开启了一个充满无限可能的新时代。原创 2024-06-04 16:18:04 · 169 阅读 · 0 评论 -
【简单、高效、性能好】SetFit:无需Prompts的高效小样本学习
由于 SetFit 使用相对较小的模型实现了高精度,因此它的训练速度非常快,而且成本要低得多。:当前的小样本微调技术需要手工制作的提示(prompts )或语言器(verbalisers)将样本转换为适合底层语言模型的格式。虽然基于比现有的少样本方法小得多的模型,但 SetFit 在各种基准测试中的表现与sota的少样本方法相当或更好。因此,训练和运行推理的速度通常快一个数量级(或更多)。由于我们的数据集有 6 个类别,我们选择的样本大小为 8,因此我们的合成数据集包含 6×8=48 个样本。原创 2022-11-28 18:05:09 · 1297 阅读 · 0 评论 -
【微软】【ICLR 2022】TAPEX:通过学习神经 SQL 执行器进行表预训练
在本文中,作者提出了一种新的以执行查询为核心的表格预训练方法——TAPEX(TAble Pretraining via EXecution)。通过逼近表上的正式语言的结构推理过程,实现了高效的表预训练。结构性推理过程与表的可执行性相关联,即表本身就能够支持各种推理操作(例如,对表中的一列进行求和)。特别是,TAPEX通过对语言模型(LM)进行预训练来模拟表上的SQL执行引擎的行为,来近似SQL查询的结构性推理过程。如图1-1所示,原创 2022-11-26 14:19:21 · 1242 阅读 · 0 评论 -
【ACL 2022】用于多标签文本分类的对比学习增强最近邻机制
多标签文本分类(MLTC)是自然语言处理中的一项基本且具有挑战性的任务。以往的研究主要集中在学习文本表示和建模标签相关性上。然而,在预测特定文本的标签时,通常忽略了现有的类似实例中的丰富知识。为了解决这一问题,作者提出了一个k最近邻(kNN)机制,该机制检索几个相邻实例并用它们的标签值作为模型的输出。此外,作者设计了一个多标签对比学习目标,使模型学习到kNN的分类过程,并提高了在推理过程中检索到的相邻实例的质量。原创 2022-11-20 17:30:01 · 2185 阅读 · 0 评论 -
【NAACL 2021】RCI:在基于 Transformer 的表格问答中行和列语义捕获
RCI使用文本匹配来定位答案所在的行或者列,其中一个文本是Question,另一个文本是行或者列。RCI Interaction:序列化文本会使用[CLS]和[SEP]将问题与行或者列文本进行拼接,然后这个序列对被输入至ALBERT。最终[CLS] 隐藏层的输出用于后面的线性层和softmax,判断行或者列是否包含答案。问题的向量表示和列或者行的向量表示会先被分别算出来。然后,这两个向量按如上图所示的方式进行拼接,并使用带有softmax层的全连接层对拼接后的向量进行分类。原创 2022-10-23 16:52:26 · 795 阅读 · 0 评论 -
Prompt Learning——Template
template(可以是特定的文本tokens或抽象的新的tokens ,唯一的区别是初始化)是提示学习框架中最重要的模块之一。请注意,hard template 将使用模型进行优化,而 soft token 将被单独优化。初始化也是有区别的:注意如果两个soft token具有相同soft_ids的 ,它们将共享嵌入:如果尝试定义 10000 个 soft token,可以使用关键词 duplicate:如果您尝试定义 10000 个相同的soft token,可以使用关键词 same:Post原创 2022-07-05 19:10:12 · 1061 阅读 · 0 评论 -
【ICLR 2022】Trans-Encoder:通过自蒸馏和相互蒸馏的无监督句对建模
自然语言处理和信息检索中的许多任务都涉及句子的成对比较——例如,句子相似性检测、释义识别、问答蕴涵和文本蕴涵。最准确的句子比较方法是所谓的cross-encoding,它在逐对的基础上将句子相互映射。然而,训练cross-encoders 器需要带标注的训练数据,收集这些数据是劳动成本很高。我们如何为句子对任务训练完全无监督的模型,从而消除对数据标注的需求呢?原创 2022-07-01 16:59:28 · 689 阅读 · 0 评论 -
【NAACL 2021】AugSBERT:用于改进成对句子评分任务的 Bi-encoder 数据增强方法
论文地址:https://arxiv.org/abs/2010.08240目前,最先进的 NLP 架构模型通常重用在 Wikipedia 和 Toronto Books Corpus 等大型文本语料库上预训练的 BERT 模型作为基线。通过对深度预训练的 BERT 进行微调,发明了许多替代架构,例如 DeBERT、RetriBERT、RoBERTa ……它们对各种语言理解任务的基准进行了实质性改进。在 NLP 中的常见任务中,成对句子评分在信息检索、问答、重复问题检测或聚类等方面有广泛的应用。原创 2022-06-21 16:53:33 · 1140 阅读 · 0 评论 -
预训练语言模型介绍合辑
RoBERTa 也对 batch 大小进行了实验,原始的 BERT 使用的 batch = 256,训练步数为 1M,这与 batch = 2K,训练步数 125K 的计算量是一样的,与 batch = 8K 和训练步数为 31K 也是一样的。针对bert存在的第二个问题,ERNIE对NSP任务做了修改,输入层使用多轮对话来替代句子对分类任务。比如一句话:‘北京是中国的首都,是一座美丽的城市’,在bert的随机mask LM任务中,可能是把‘京’mask掉在再做预测,这样就把‘北京’两个字的语义割裂了。原创 2022-03-24 15:21:54 · 1945 阅读 · 0 评论 -
rasa 介绍文档
Rasa Open Source: NLU (理解语义) + Core (决定对话中每一步执行的actions)Rasa SDK: Action Server (调用自定义的 actions)Rasa NLU理解用户的对话,提取出感兴趣的信息 (如意图分类、实体提取等),以pipeline的方式处理用户对话,在config.yml中配置。Rasa Core根据NLU输出的信息、以及Tracker记录的历史信息,得到上下文的语境:预测用户当前最可能表达的意图;原创 2022-01-25 15:34:18 · 3097 阅读 · 0 评论 -
【RASA】TED Policy:Dialogue Transformers
计算嵌入之间的差异,TED Policy最大化与目标标签的相似性并最小化与错误标签的相似性,这是一种基于Starspace算法的技术。自注意力机制发挥作用的地方:transformer 在每一轮动态访问对话历史的不同部分,然后评估和重新计算前几轮的相关性。在每个对话回合,TED Policy将3部分信息作为输入:用户消息的意图和实体、预测的先前执行的Action、槽位。当需要预测下一个系统动作时,所有可能的系统动作根据它们的相似度进行排序,并选择相似度最高的动作。那这3部分是如何特征化的呢?原创 2021-12-16 18:08:58 · 791 阅读 · 0 评论 -
【RASA】DIET:Dual Intent and Entity Transformer
最近工作中使用到rasa,其nlu部分有一个rasa自己提出的DIETClassifier框架组建,可用于意图分类与实体识别。今天有空,就来研究下它~论文地址:https://github.com/RasaHQ/DIET-paper简介先总结下DIET出彩的地方:DIET是一种用于意图分类和实体识别的多任务体系结构。它能够以即插即用的方式结合语言模型的预训练单词嵌入,并将它们与单词和字符级 n-gram 稀疏特征结合起来。实验表明,即使没有预训练的嵌入,仅使用单词和字符级 n-gram 稀疏特原创 2021-11-28 10:47:25 · 1665 阅读 · 2 评论 -
搜索与问答——【EMNLP 2021】TSDAE:基于Transformer的顺序去噪自动编码器
TSDAE(Transformer-based Sequential Denoising Auto-Encoder)模型使用纯句子作为训练数据来无监督训练句子向量。在训练期间,TSDAE 将加了噪声的句子编码为固定大小的向量,并要求decoder从这个句子表征中重建原始句子。为了获得良好的重建质量,必须在encoder的句子向量中很好地捕获语义。在后续推理时,我们只使用encoder来创建句子向量。架构如下图所示:encoder部分就是将带噪音的文本进行编码。原创 2021-09-16 17:13:56 · 1408 阅读 · 0 评论 -
【EMNLP 2021】SimCSE:句子嵌入的简单对比学习 && 【CVPR 2021】理解对比学习损失函数及温度系数
SimCSE(Simple Contrastive Learning of Sentence Embeddings)是一种简单在没有监督训练数据的情况下训练句子向量的对比学习方法。这个方法是对同一个句子进行两次编码。由于在 Transformer 模型中使用了 dropout,两个句子表征的位置将略有不同。目标函数 Multiple Negatives Ranking Loss:其中,z和z’ 是两个不同的dropout随机掩码。原创 2021-09-16 10:34:25 · 1994 阅读 · 0 评论 -
【ICLR 2021】CT:具有对比张力的语义重调
论文《SEMANTIC RE-TUNING WITH CONTRASTIVE TENSION》地址:https://openreview.net/pdf?之前讲到的是用有监督的方式进行句子向量的匹配等任务。那当没有标注数据的时候,如何训练出更好的句子向量呢?本文作者提出了“对比张力”(CONTRASTIVE TENSION)的对比学习方案——CT:如上图所示,在训练期间,CT 构建了两个独立的编码器(“Model1”和“Model2”),它们共享初始参数以对一对句子进行编码。原创 2021-09-15 21:06:35 · 785 阅读 · 2 评论 -
【EMNLP 2019】Sentence-BERT
在许多NLP任务(特别是在文本语义匹、文本向量检索等)需要训练优质的句子表示向量,模型通过计算两个句子编码后的Embedding在表示空间的相似度来衡量这两个句子语义上的相关程度,从而决定其匹配分数。尽管基于BERT在诸多NLP任务上取得了不错的性能,但其自身导出的句向量(【CLS】输出的向量、对所有输出字词token向量求平均)质量较低。由于BERT输出token向量预训练中,后面接的的分类的任务。所以其实输出token向量并不适合作为生成句子表示。原创 2021-09-15 19:38:53 · 2056 阅读 · 0 评论 -
解读:全民K歌直播推荐算法
看上图示意,应该是每个模态embedding单独与user embedding进行相似度训练。**这样做的话,每个item就会存在3个embedding。但这种方案就忽略了不同模态之间的权重。**我想到的另外一种方案是,其实就是从每个field做emb,变成每个bit unit做emb,在实现上反而更加统一方便。就是将j维映射到i维向量的全连接神经网络。这样不同bit维的特征就能进行自由的交叉了。但这会出现的问题是:有些直播间可能不存在Song ID,需要做特征缺失处理。这里定义了所谓的KFM,其实可以。原创 2021-08-07 19:34:58 · 1277 阅读 · 0 评论 -
多任务学习——【ICLR 2020】PCGrad
最后来看看效果吧~如下图所示,图b是任务1的目标的等高线图,图c是任务2的目标等高线图。图C是使用Adam优化目标梯度更新轨迹,可以看到当下时刻两个任务梯度方向是存在冲突的。而图e使用Adam+PCGrad,可以看到目标梯度更新轨迹穿越等高线就非常顺滑了。在一系列具有挑战性的多任务监督和多任务 RL 问题上,这种方法在效率和性能方面取得了实质性的进展。具体实验结果如下图,紫色为作者的结果。在多任务学习中,由于不同任务梯度之间的更新方向不同,如上图, 我们设要求的投影向量(蓝色虚线)为。原创 2021-08-01 19:01:01 · 3339 阅读 · 0 评论 -
多任务学习——【RecSys 2020】【腾讯视频】PLE
当不同的学习任务之间较为相关时,多任务学习可以通过任务之间的信息共享,来提升学习的效率。但任务之间的相关性并不强,多任务学习可能带来负迁移(negative transfer)跷跷板现象,相关性不强的任务之间的信息共享会影响网络的表现。则是第k个任务的Experts的输出,包含了 Experts k和Experts Shared。PLE就是多层的CGC。原创 2021-07-31 21:16:37 · 483 阅读 · 0 评论 -
多任务学习——【ICML 2018】GradNorm
由于各任务在训练过程中自己的梯度量级和收敛速度也是动态变化的,所以很显然这样定值的w做并没有很好的解决问题。从上图可知,GradNorm 是以平衡的梯度作为目标,优化Grad Loss,从而动态调整各个任务的w。,可能导致有些任务还处于欠拟合,可有些任务已经过拟合了。,造成有的task在梯度反向传播中占主导地位,模型过分学习该任务而忽视其它任务。论文链接:https://arxiv.org/pdf/1711.02257.pdf。r调节着任务收敛速度:收敛速度越快,要注意的是,上式中,减号后面的项,是。原创 2021-07-25 16:18:58 · 1395 阅读 · 1 评论 -
《搜索和推荐中的深度匹配》——2.5 延伸阅读
Query重构是解决搜索中查询文档不匹配的另一种方法,即将Query转换为另一个可以进行更好匹配的Query。Query转换包括Query的拼写错误更正。例如,【1】提出了一种源渠道模型,【2】 提出了一种用于该任务的判别方法。Query转换还包括Query分段【3】【4】【5】。受统计机器翻译 (SMT) 的启发,研究人员还考虑利用翻译技术来处理Query文档不匹配问题,假设Query使用一种语言而文档使用另一种语言。【6】利用基于单词的翻译模型来执行任务。原创 2021-06-25 16:35:26 · 395 阅读 · 0 评论 -
《搜索和推荐中的深度匹配》——2.4 推荐中的潜在空间模型
接下来,我们简要介绍在潜在空间中执行匹配的代表性推荐方法,包括偏置矩阵分解 (BMF)【1】、Factored Item Similarity Model (FISM) 【2】和分解机 (FM)【3】。参阅。原创 2021-06-25 14:44:39 · 539 阅读 · 1 评论 -
深度推荐模型——BERT4Rec [CIKM 19][Alibaba]
2、BST有target item 输入,是二分类的匹配模型。1、BERT4Rec引入了BERT 预训练预测MASK Token的方式,提升了模型的泛化性。可以先参阅阿里的另外一篇论文。原创 2021-05-18 11:32:23 · 571 阅读 · 0 评论 -
图神经网络——【KDD 2019】KGAT
深度推荐算法(如DeepFM等)模型有个缺点:将训练数据里(用户交互数据)的特征进行独立建模,没有考虑到交互数据之间的关系。这使得这些模型不足以从用户的行为中提取出基于属性的协同信息。如上图:用户u1 看了电影i1 ,这个电影是 ei 导演的,传统的CF方法会着重去找那些也看了电影i1 的用户,比如u4、u5 。而监督学习方法会重点关注那些有相同属性ei 的电影,比如 i2。很显然这两类信息都可以作为推荐信息的补充,但是现有的模型不能做到上面两者信息的融合,而且这里的高阶关系也可以作为推荐信息的补充的。比原创 2021-05-17 19:04:33 · 731 阅读 · 0 评论 -
《搜索和推荐中的深度匹配》——1.5 近期进展
尽管传统的机器学习在搜索和推荐匹配方面取得了成功,但深度学习的最新进展为该领域带来了更为重大的进步,提出了许多深度匹配模型。深度学习模型的能力在于能够从原始数据(例如,文本)中学习匹配问题的分布式表示形式,避免手工制作功能的许多限制,并以端到端的方式学习表示形式和匹配网络。此外,深度神经网络具有足够的能力来对复杂的匹配任务进行建模。它们具有灵活性,可以自然地扩展到跨模式匹配,在这种模式下,可以学习通用语义空间来普遍表示不同模式的数据。所有这些特征有助于处理搜索和推荐的复杂性。原创 2021-05-17 17:26:58 · 295 阅读 · 0 评论 -
图神经网络——【SIGIR 2019】NGCF
从早期的矩阵分解到最近出现的基于深度学习的方法,现有的工作通常通过从描述用户(或项目)的现有特性(如ID和属性)映射来获得用户(或项目)的嵌入。作者认为,这种方法的一个固有缺点是,隐藏在用户-项目交互中的协作信号没有在嵌入过程中编码。因此,由此产生的嵌入可能不足以捕获协作过滤效果。作者提出了一个新的推荐框架Neural Graph Collaborative Filtering (NGCF) ,它可以在图结构中学习嵌入表示,让模型可以表达高维特征,显示地将协同过滤信号放入到嵌入过程中。原创 2021-05-17 11:56:20 · 659 阅读 · 0 评论 -
图神经网络——【KDD 2018】PinSage
可以先参阅。本文将基于GraphSAGE来讲讲PinSage。原创 2021-05-14 17:40:43 · 790 阅读 · 0 评论 -
图神经网络——【NIPS 2017】GraphSAGE
直推式(transductive)学习方法是在一个固定的图上直接学习每个节点embedding,但是大多情况图是会演化的,当网络结构改变以及新节点的出现,直推式学习需要重新训练(复杂度高且可能会导致embedding会偏移),很难落地在需要快速生成未知节点embedding的机器学习系统上。本文提出归纳学习—GraphSAGE(Graph SAmple and aggreGatE)框架,通过训练聚合节点邻居的函数(卷积层),使GCN扩展成归纳学习任务,对未知节点起到泛化作用。原创 2021-05-14 14:14:01 · 581 阅读 · 1 评论 -
《搜索和推荐中的深度匹配》——1.4 推荐匹配的挑战
不匹配的问题在推荐中更加严重。在搜索中,查询和文档由相同语言的术语组成,这使得对它们的术语进行直接匹配至少有意义。但是,在推荐中,用户和商品通常由不同类型的特征表示,例如,用户的特征可以是用户ID,年龄,收入水平和最近的行为,而商品的特征可以是商品ID,类别,价格和品牌名称。由于用户和项目的特征来自不同语义的空间,因此基于表面特征匹配的幼稚方法不适用于推荐。更具挑战性的是,这些商品可以通过多模式特征来描述,例如服装产品的图像和电影的封面图像,它们可能在影响用户的决策中起关键作用。原创 2021-05-13 15:36:33 · 298 阅读 · 0 评论 -
当前音乐推荐系统研究中的挑战和愿景
近年来,由于在线流媒体服务的出现和成功,音乐推荐系统(MRS)经历了飞速发展,如今,在线推荐服务几乎可以使所有音乐触手可及。尽管当今的MRS可以极大地帮助用户在这些庞大的目录中找到有趣的音乐,但MRS的研究仍面临着严峻的挑战。特别是在构建、合并和评估推荐策略时,这些策略除了将信息整合到简单的用户物品交互、基于内容表达之外,还需要深入挖掘听众的需求、偏好和意图的本质。MRS研究成为很大的努力方向,但相关的出版物却很少。此趋势和调查文章的目的是双重的。原创 2020-09-21 18:50:13 · 4984 阅读 · 0 评论 -
多任务学习——【SIGIR 2018】ESMM
由于CTR任务的训练样本量要大大超过CVR任务的训练样本量,ESMM模型中特征表示共享的机制能够使得CVR子任务也能够从只有展现没有点击的样本中学习,从而能够极大地有利于缓解训练数据稀疏性问题。点击—>转化,本身是两个强相关的连续行为,作者希望在模型结构中显示考虑这种“行为链关系”,从而可以在整个空间上进行训练及预测。在整个样本空间建模,而不像传统CVR预估模型那样只在点击样本空间建模。原创 2021-05-11 14:28:18 · 256 阅读 · 0 评论