自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(184)
  • 收藏
  • 关注

原创 推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation(三)

本文研究了多模态大语言模型(MLLMs)在多模态推荐任务中的表现。通过分析Qwen-VL-Chat等模型的显著性分数,发现传统MLLMs需要结构调整才能适用于多模态表征任务。零样本实验表明现有MLLMs表示能力不及BM25,但能有效融合多模态信息,且文本表示优于视觉。特别测试了长文本场景,发现大语言模型的长上下文理解能力带来显著性能提升。研究还介绍了Tomato模型的持续预训练细节,包括中文词表扩展和多源数据训练。结果表明需要额外训练才能使MLLMs与推荐任务对齐。

2025-12-12 22:53:49 803

原创 推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation(二)

本文提出NoteLLM-2框架,通过改进多模态大语言模型(MLRM)在推荐系统中的视觉信息利用能力。针对端到端训练导致视觉信息利用不足的问题,提出基于提示的改进(mICL)和基于架构的改进(延迟融合)两种方法:mICL通过重构提示模板解耦视觉与文本表示;延迟融合通过门控机制增强原始视觉信息。实验表明,该方法显著提升了小视觉编码器模型的性能,在线A/B测试显示点击量提升6.35%。分析发现该方法能有效平衡多模态注意力分布,且对超参数变化具有鲁棒性。未来将扩展至视频等多模态推荐场景。

2025-12-12 22:53:00 1002

原创 推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation(一)

本文提出NoteLLM-2框架,旨在解决大语言模型(LLMs)在多模态商品推荐(I2I)中的视觉信息忽视问题。研究发现直接微调的LLMs存在文本偏向性,为此创新性地设计了两种方法:基于提示词的多模态上下文学习(mICL)分离视觉与文本内容,以及晚期融合技术直接整合视觉信息。实验表明,该框架显著提升了多模态表征性能,在召回任务中优于传统方法。研究首次探索了LLM辅助的多模态表征在推荐场景的应用,为跨模态表征学习提供了新思路。

2025-12-09 00:54:52 1111

原创 推荐大模型系列-NoteLLM: A Retrievable Large Language Model for Note Recommendation(三)

本文提出NoteLLM,一个基于大语言模型的可检索笔记推荐系统。研究在小红书商品数据集上验证了模型有效性,采用MetaLLaMA2作为基础模型,通过笔记压缩提示、生成式对比学习(GCL)和协同监督微调(CSFT)三个核心组件实现I2I推荐和标签/类别生成任务。实验表明,NoteLLM在召回率指标上优于现有方法,对高低曝光笔记均有效,在线实验点击率提升16.2%。消融研究证实CSFT模块的关键作用,同时发现标签与类别生成任务存在权衡关系。模型已部署于小红书平台,有效提升推荐效果和用户体验。

2025-12-07 21:48:46 856

原创 推荐大模型系列-NoteLLM: A Retrievable Large Language Model for Note Recommendation(二)

本文提出NoteLLM框架,用于同时处理图像推荐和标签/分类生成任务。该框架包含三个核心组件:1)笔记压缩提示构建,将笔记内容压缩为特殊标记;2)生成式对比学习(GCL),通过对比学习捕获笔记间的协同信号;3)协同监督微调(CSFT),结合语义和协同信息生成标签/分类。GCL利用用户行为数据构建相关笔记对,CSFT则联合优化标签生成和分类任务。实验表明,NoteLLM能有效整合语义和协同信息,在推荐和生成任务中表现优异。

2025-12-07 20:52:05 731

原创 推荐大模型系列-NoteLLM: A Retrievable Large Language Model for Note Recommendation(一)

摘要: 本文提出NoteLLM框架,创新性地利用大语言模型(LLMs)解决社交媒体笔记推荐(I2I)问题。针对现有基于BERT的方法仅将标签/分类作为内容组成部分的局限,该框架通过多任务学习同时优化笔记推荐和标签/分类生成任务。核心创新包括:1)设计笔记压缩提示生成特殊标记作为嵌入;2)采用生成-对比学习识别相关笔记;3)通过协同监督微调生成标签/分类以增强嵌入质量。实验表明,该方案在小红书平台显著优于基线方法,为LLMs在I2I推荐中的应用提供了新思路。

2025-12-07 20:50:39 1108

原创 图神经网络分享系列-GraphSage(Inductive Representation Learning on Large Graphs) (二)

GraphSAGE是一种基于图神经网络的归纳式表示学习方法,其核心在于通过采样和聚合邻居特征实现层次化表征学习。算法采用K层迭代结构,每层节点聚合其邻域信息并更新表示。该方法支持均值、LSTM和池化三种聚合器架构,具有对称性和可训练性。参数学习通过随机梯度下降优化基于图结构的损失函数,使相邻节点表示相似。GraphSAGE与Weisfeiler-Lehman同构测试存在理论关联,通过固定大小邻居采样保证计算效率。实验表明该方法在无监督和任务特定场景下均能生成有效的节点表示。

2025-11-16 22:30:38 827

原创 图神经网络分享系列-GraphSage(Inductive Representation Learning on Large Graphs) (一)

GraphSAGE:一种高效的归纳式图节点嵌入框架 摘要:GraphSAGE提出了一种创新的归纳式框架,用于动态生成未见节点的低维嵌入。与传统的直推式方法不同,该框架通过学习聚合函数来整合节点特征和局部邻域信息,实现对新节点的有效表征。实验表明,该方法在引文网络、社交网络和生物网络等多个领域显著优于基线模型,在跨领域任务中分类准确率提升达51%,聚合器架构改进带来7.4%的性能增益。其核心创新在于打破静态图限制,通过特征采样和聚合机制适应动态变化的图结构,为社交网络分析、生物信息学等领域的实际应用提供了更灵

2025-11-16 22:27:01 620

原创 推荐系统分享系列-PEPNet(Parameter and Embedding Personalized Network)(三)

本文研究了推荐系统中的不完美双跷跷板问题,提出PEPNet(参数和嵌入个性化网络)解决多领域和多任务推荐中的性能不平衡问题。在快手平台的实验中,PEPNet显著优于现有方法,在三个领域六项任务上平均提升0.01-0.03 GAUC。消融实验验证了EPNet和PPNet模块的有效性,超参数分析表明模型稳定可靠。在线A/B测试显示各项指标显著提升,特别是观看时长获得0.1%的商业价值增长。该模型已部署服务3亿用户,证明了在多任务多场景推荐中的优越性能。

2025-11-06 21:13:58 1026

原创 推荐系统分享系列-PEPNet(Parameter and Embedding Personalized Network)(二)

本文提出PEPNet模型解决多领域多任务推荐中的个性化问题。该模型包含三个核心组件:门控神经单元(GateNU)处理个性化先验信息;嵌入个性化网络(EPNet)通过领域特征调整共享嵌入;参数个性化网络(PPNet)为用户定制DNN参数。工程实现中采用特征淘汰、在线同步和分训练策略优化系统性能。实验表明该模型能有效缓解不完全双重seesaw问题,已在快手平台成功部署。

2025-11-06 15:00:25 1012

原创 图神经网络分享系列-GAT(GRAPH ATTENTION NETWORKS) (三)

本文介绍了图注意力网络(GAT)在直推式和归纳式学习任务中的评估结果。在三个标准引文网络数据集(Cora、Citeseer、Pubmed)和蛋白质相互作用(PPI)数据集上的实验表明,GAT模型在所有任务中均达到或超越当前最优性能。通过采用注意力机制,GAT能够为邻居节点分配差异化权重,在Cora和Citeseer上比GCN提升1.5-1.6%,在PPI数据集上比GraphSAGE提升20.5%。文章详细描述了实验设置、对比基线方法、模型架构及其正则化策略,并通过特征可视化验证了模型的判别能力。GAT具有计

2025-11-02 21:31:11 715

原创 图神经网络分享系列-GAT(GRAPH ATTENTION NETWORKS) (二)

本文介绍了图注意力网络(GAT)的核心架构及其技术优势。GAT通过引入注意力机制,在计算节点特征时动态分配不同权重,解决了传统图神经网络的一些局限性。文章详细阐述了单图注意力层的实现,包括输入特征转换、注意力系数计算和多头注意力机制。GAT具有计算高效、可并行化、能处理有向图等优点,其时间复杂度与GCN相当。相比现有方法,GAT能隐式分配节点重要性,不依赖全局结构信息,适用于归纳学习任务。文章还探讨了GAT与MoNet模型的关联,并指出了当前实现中的计算优化方向。

2025-11-02 21:30:47 999

原创 推荐系统分享系列-PEPNet(Parameter and Embedding Personalized Network)(一)

摘要: 本文提出PEPNet(参数与嵌入个性化网络),用于解决多领域多任务推荐系统的双重跷跷板效应。PEPNet通过嵌入个性化网络(EPNet)动态调整特征重要性,参数个性化网络(PPNet)平衡任务差异,实现用户兴趣的精准捕捉。在快手应用中,该模型服务3亿日活用户,线上指标提升1%-2%,具有高效、即插即用的特点。 关键词: 多领域学习、多任务学习、个性化、推荐系统

2025-10-24 23:56:18 547

原创 自然语言处理分享系列-词语和短语的分布式表示及其组合性(二)

摘要:本文探讨了Skip-gram模型中负采样和高频词子采样技术的优化方法。负采样新发展作为分层softmax ставка替代方案, titular 通过3/4次方调整unigram分布作为噪声 recommend 分布效果最佳。高频词子采样显著提升训练速度并改善低频词表示质量。实证表明,负采样在类比任务上优于分层softmax,而短语表示通过词向量加性组合展现出线性语义特性。研究团队开源了训练代码,在 Themen 大规模数据训练拆卸下,模型性能显著提升。

2025-10-23 23:52:59 775

原创 图神经网络分享系列-GAT(GRAPH ATTENTION NETWORKS) (一)

《图注意力网络(GAT)技术解析》摘要: GAT提出了一种基于自注意力机制的新型图神经网络架构,通过掩码注意力层突破传统图卷积方法的局限。该模型使节点能自适应关注邻居特征,动态分配差异化权重,无需复杂矩阵运算或完整图结构信息。采用多头注意力机制替代传统卷积操作,显著降低计算复杂度,支持端到端学习节点关系。实验表明,GAT在Cora等四个基准数据集上均达到SOTA水平,尤其在蛋白质相互作用数据集中展现了优异的归纳学习能力。该技术同步解决了谱方法面临的关键问题,为处理不规则图结构数据提供了新范式。

2025-10-23 23:46:43 692

原创 自然语言处理分享系列-词向量空间中的高效表示估计(三)

本文研究比较了不同词向量模型在语义和句法任务中的表现。通过构建包含近2万测试问题的评估集,发现Skip-gram模型在语义任务中表现最优,CBOW模型在句法任务中领先。实验表明,增加训练数据量和词向量维度能提升性能,但存在收益递减点。研究还展示了词向量代数运算在类比推理等任务中的应用潜力,如"巴黎-法国+意大利=罗马"这类关系推理准确率约60%。采用分布式训练框架后,模型可在万亿级语料上训练,性能较传统方法提升显著。词向量技术为机器翻译、信息检索等NLP任务提供了重要基础。

2025-10-12 11:42:02 675

原创 自然语言处理分享系列-词语和短语的分布式表示及其组合性(一)

本文提出改进的连续Skip-gram模型,通过高频词下采样和负采样优化,显著提升词向量质量和训练效率。针对传统词向量无法表示短语的局限性,提出数据驱动的短语识别方法,将短语作为独立单元处理。模型展现出向量加法组合性,如"Russia"+"river"≈"Volga River"。采用分层softmax的二叉树结构,计算复杂度从O(W)降至O(logW),其中霍夫曼树编码进一步加速高频词处理。这些改进使模型能在单机一天内处理千亿级词汇量。

2025-10-12 11:40:55 1106

原创 自然语言处理分享系列-词向量空间中的高效表示估计(二)

本文探讨了通过神经网络学习词分布式表示的不同模型架构。重点分析了前馈神经网络语言模型(NNLM)和循环神经网络语言模型(RNNLM)的计算复杂度与优化策略,包括层次softmax等效率提升方法。随后提出两种新的对数线性模型:连续词袋模型(CBOW)通过平均上下文词向量预测当前词;连续Skip-gram模型则采用动态窗口策略,以当前词预测周边词。这些模型在保持表示质量的同时显著降低了计算复杂度,为大规模语料处理提供了高效解决方案。

2025-10-08 16:33:22 618

原创 自然语言处理分享系列-词向量空间中的高效表示估计(一)

本文提出两种新型模型架构,用于从超大规模数据中高效计算词向量表示。实验表明,新方法在词汇相似性任务上准确率显著提升,仅需不到一天即可处理16亿词数据,且计算成本大幅降低。词向量在语法和语义相似性度量上达到当前最优性能。研究突破了大语料训练限制,支持百万级词汇表,并通过向量偏移技术揭示词间多重关系。相比传统神经网络语言模型,该方法更高效实用,为自然语言处理任务提供了优质词向量基础。

2025-10-08 14:26:11 1296

原创 图神经网络分享系列-transe(Translating Embeddings for Modeling Multi-relational Data) (二)

本文介绍了TransE知识图谱嵌入模型在WordNet和Freebase数据集上的实验评估。实验采用链接预测任务,对比了RESCAL、SE、SME等多种基线方法。结果表明,TransE在所有指标上均显著优于其他方法,在WN数据集上hits@10达89%,在FB1M数据集上达34%。分析显示TransE的优异表现源于其简洁有效的平移操作设计,能更好地处理1-TO-1、1-TO-MANY等不同类型的关系。此外,TransE在新关系学习任务中展现出快速泛化能力,仅需10个样本即可达到18%的hits@10。研究证

2025-09-30 21:31:58 833

原创 图神经网络分享系列-transe(Translating Embeddings for Modeling Multi-relational Data) (一)

本文提出TransE模型,通过将知识图谱中的关系表示为实体嵌入的平移操作(h+l≈t),实现高效的多关系数据建模。相比复杂模型,TransE参数少、易训练,在WordNet和Freebase的链接预测任务中表现优异,并能扩展到超大规模数据集(100万实体、1700万样本)。研究分析了TransE与结构化嵌入(SE)等方法的差异,指出简单模型在捕捉常见关系模式上的优势。虽然对三元交互建模存在局限,但实验表明TransE在通用知识库中更具实用性。

2025-09-30 21:23:08 1018

原创 图神经网络分享系列-metapath2vec(Scalable Representation Learning for Heterogeneous Networks) (三)

该研究针对异质网络表征学习问题,提出了metapath2vec和metapath2vec++模型。通过在AMiner和DBIS数据集上的实验验证,模型在多类别节点分类、聚类等任务中显著优于DeepWalk、LINE等基线方法,尤其在5%小训练集下会议分类F1值提升达319%。研究还通过相似性搜索和可视化分析证明模型能有效捕捉异质网络的语义关系,并展示出良好的并行计算扩展性(40核加速32倍)。论文为异质网络挖掘提供了新思路,同时指出自动学习元路径、动态网络适应等未来方向。

2025-09-14 15:21:57 958

原创 图神经网络分享系列-metapath2vec(Scalable Representation Learning for Heterogeneous Networks) (二)

本文提出metapath2vec框架及其改进版metapath2vec++,用于解决异构网络表示学习问题。针对网络异构性带来的节点邻域定义和结构语义建模挑战,该框架通过元路径引导的随机游走策略生成异构上下文,并采用异构skip-gram模型进行表征学习。其中,metapath2vec++创新性地引入类型特定的负采样机制,为每种节点类型构建独立的多项分布,有效提升了异构网络嵌入效果。实验表明该方法在节点分类等任务中具有优越性能。

2025-09-14 15:21:00 974

原创 图神经网络分享系列-metapath2vec(Scalable Representation Learning for Heterogeneous Networks) (一)

本文提出metapath2vec和metapath2vec++模型,用于解决异构网络表征学习中的多类型节点嵌入问题。通过元路径引导的随机游走和异构skip-gram模型,有效捕捉网络中的高阶结构和语义关系。实验表明,该模型在节点分类、聚类等任务中性能显著优于基线方法(提升35%-319%),并能自动发现跨节点类型的语义关联。相比同质网络嵌入方法,该框架避免了节点关系同质化带来的表征混淆,为复杂异构网络分析提供了新工具。

2025-09-13 23:06:33 877

原创 图神经网络分享系列-SDNE(Structural Deep Network Embedding) (三)

本文提出了一种结构深度网络嵌入方法(SDNE),通过半监督深度模型联合优化一阶和二阶邻近度,有效捕捉网络的高度非线性结构。实验在5个真实数据集上验证了该方法在网络重构、多标签分类、链接预测和可视化任务中的优越性。结果显示,SDNE在稀疏网络环境下表现稳健,分类任务中Micro-F1和Macro-F1指标显著优于基线方法,链接预测精度在k=1000时仍保持0.9以上,可视化效果边界清晰。参数分析表明,平衡邻近度权重和非零元素重构误差对性能至关重要。该方法为网络表征学习提供了新思路,未来将研究新节点的嵌入问题。

2025-09-13 22:13:53 1091

原创 图神经网络分享系列-SDNE(Structural Deep Network Embedding) (二)

本文提出了一种半监督深度模型SDNE用于网络嵌入,通过结合一阶邻近性(局部结构)和二阶邻近性(全局结构)来学习节点表示。模型采用深度自编码器架构,无监督部分通过邻接矩阵重构保留二阶邻近性,有监督部分利用一阶邻近性约束节点对相似性。针对网络稀疏性问题,模型对非零元素重构施加更高权重。优化过程采用预训练和随机梯度下降,训练复杂度与节点数呈线性关系。该模型能处理新节点表示,但无法处理孤立节点。

2025-09-07 17:15:51 860

原创 图神经网络分享系列-SDNE(Structural Deep Network Embedding) (一)

摘要:本文提出结构深度网络嵌入方法SDNE,通过半监督深度模型解决网络表示学习中的非线性结构捕捉和稀疏性问题。该方法联合优化一阶邻近度(局部结构)和二阶邻近度(全局结构),利用多层非线性函数建模复杂网络特征。在语言网络、引文网络等五个真实数据集上的实验表明,SDNE在多标签分类、链接预测等任务中显著优于传统浅层模型,尤其在稀疏网络和标注数据不足时表现优异。这是首次将深度学习应用于网络表示学习的研究,为网络分析提供了新的解决方案。

2025-09-07 16:00:09 1256

原创 图神经网络分享系列-LINE(三)

本文介绍了LINE模型在大规模网络嵌入中的实验评估。实验覆盖语言网络、社交网络和引文网络三种类型,包含5个真实数据集(最大规模200万节点/10亿边)。研究比较了LINE与图分解、DeepWalk等方法的性能,结果显示:1)在语言网络中,LINE(2nd)在词类比任务上准确率最高(优于Skip-Gram);2)社交网络中LINE(1st+2nd)表现最优;3)引文网络上LINE(2nd)优于DeepWalk。实验验证了边采样优化策略的有效性,处理10亿边网络仅需3小时,且多线程加速比接近线性。结果表明一阶和

2025-08-22 16:17:03 699

原创 图神经网络分享系列-LINE(二)

摘要:本文深入探讨了LINE模型在大规模信息网络嵌入中的应用。该模型通过保留一阶邻近性(直接相连节点间的相似性)和二阶邻近性(共享相似邻居的节点间的相似性)来有效捕捉网络结构。针对优化计算复杂度高的问题,采用负采样和边采样技术提升效率,并讨论了对低度数顶点的处理策略。LINE模型能同时处理有向、无向和加权网络,具有线性时间复杂度,适用于超大规模网络嵌入任务。

2025-08-22 16:14:35 990

原创 图神经网络分享系列-node2vec(三)

本文介绍了node2vec图神经网络算法的实验验证与性能分析。通过《悲惨世界》人物网络实验,证明node2vec能同时捕捉网络同质性和结构等价性特征。在多标签分类和链接预测任务中,node2vec显著优于DeepWalk、LINE等基线方法,最高提升229.2%。研究还验证了算法对参数变化的敏感性、网络扰动的鲁棒性以及百万级节点的线性扩展能力。实验表明,node2vec通过灵活控制搜索参数(p、q)实现网络邻域的可控探索,为网络表示学习提供了兼具解释性和性能优势的解决方案。文章最后讨论了该算法在异质网络和深

2025-08-20 13:55:10 1084

原创 图神经网络分享系列-LINE(一)

本文提出LINE模型,用于解决大规模网络嵌入问题。传统方法难以处理百万级节点的网络,而LINE通过优化目标函数同时保留一阶和二阶邻近性,有效捕捉网络局部与全局结构特征。针对加权网络中梯度爆炸问题,提出边采样算法提升优化效率。实验表明,LINE在语言、社交和引文网络中表现优异,可高效处理数十亿边规模的网络。相比基于矩阵分解和随机游走的方法,LINE具有更明确的优化目标和更广泛的适用性(支持有向/无向、加权/无权图)。该模型为网络可视化、节点分类等任务提供了有效解决方案。

2025-08-20 13:54:52 1101

原创 图神经网络分享系列-node2vec(二)

本文系统阐述了node2vec算法的核心原理与实现框架。该算法通过设计灵活的随机游走策略,在广度优先搜索(BFS)和深度优先搜索(DFS)间取得平衡,有效捕捉网络中的同质性和结构等价性特征。文章详细解析了二阶随机游走机制,重点说明返回参数p和入出参数q对搜索偏置的调节作用,并论证了其在计算效率(O(1)采样复杂度)和空间效率(O(a²|V|))上的优势。最后介绍了节点对特征的扩展方法,包括均值运算、哈达玛积等二元操作符设计,为链接预测等任务提供表示学习支持。全文构建了完整的网络表征学习理论体系,为后续实验验

2025-08-18 15:01:14 1187

原创 图神经网络分享系列-node2vec(一)

本文介绍了图神经网络(GNN)研究的主要问题,重点解析了node2vec算法在节点分类任务中的应用。文章首先概述了GNN的九大研究方向,包括节点分类、链接预测等核心问题。针对节点分类任务,传统方法依赖人工特征工程且泛化性差,而node2vec通过设计有偏随机游走策略,在低维特征空间中灵活捕捉节点的局部和全局结构信息。实验表明,该方法在多标签分类和链接预测任务中表现优异,最高提升26.7%的性能,且具有计算高效、可扩展性强等优势。文章还探讨了node2vec的核心创新点及其在不同领域的应用价值。

2025-08-18 14:57:28 1297

原创 图神经网络分享系列-概览

图神经网络(GNN)是处理非欧几里得数据(如社交网络、分子结构)的重要工具,相比传统深度学习模型更适合建模复杂关系。GNN通过消息传递机制学习节点表示,在推荐系统、生物医药等领域具有广泛应用价值。非欧几里得数据指不规则的图、流形等结构,需用GNN、Transformer等特殊方法处理。掌握GNN技术对AI研究和职业发展都很有帮助。

2025-08-14 12:21:13 559

原创 推荐系统论文分享之多任务模型--PLE(二)

多任务学习(PLE)模型通过共享结构和参数实现多任务协同训练,提升泛化能力。其核心改进在于解耦共享/专属参数,采用渐进式分层提取机制,通过门控网络动态调节信息流。实践需解决梯度冲突、损失函数设计等优化难题,适用于推荐系统CTR、CVR等场景。工程实现要平衡计算开销,支持冷启动任务扩展。前沿方向包括跨域推荐适配和多模态改进,通过分层共享和对抗学习增强模型能力。PLE相比传统MTL和MoE架构,在负迁移问题和任务特异性处理上更具优势。

2025-08-13 23:28:16 950

原创 推荐系统论文分享之多任务模型--PLE(一)

摘要:本文深入探讨了多任务学习(MTL)中的关键挑战——"跷跷板现象",即优化某些任务会导致其他任务性能下降的问题。针对这一挑战,研究提出了渐进式分层提取(PLE)模型,通过显式分离共享组件与任务特定组件,采用渐进式路由机制逐步提取深层语义知识。PLE在腾讯视频推荐系统中的应用表明,相比现有MTL模型能显著提升2.23%的观看量和1.84%的观看时长。该模型通过多层次专家网络和门控机制,实现了更高效的联合表征学习,有效解决了任务间负迁移和性能退化问题,为复杂推荐系统提供了创新解决方案。

2025-08-13 17:41:14 1144

原创 面试常问系列(一)-神经网络参数初始化-之自注意力机制为什么除以根号d而不是2*根号d或者3*根号d

通过上述的不同缩放比例,大家应该可以比较清晰的发现,以一个标准差(68.26%)为例,随着缩放比例加大,变化范围减小,点击值被过度压缩,导致相对趋于均匀,从而无法很好的捕捉不同特征之间的差异,趋于大家都一样的感觉,区分度被缩小。大家感兴趣的可以实操看一下,softmax在不同缩放比例下的分布情况。

2025-05-06 19:05:57 745

原创 面试常问系列(一)-神经网络参数初始化-之-softmax

Softmax的梯度对输入值敏感,过大输入会导致梯度消失。Transformer通过除以dk​​控制点积方差,确保Softmax输入值合理,从而保持梯度稳定,提升训练效率。这一设计是深度学习中处理高维数据时的重要技巧。

2025-05-06 18:15:48 1149

原创 面试常问系列(一)-神经网络参数初始化之自注意力机制

除以dk​​的本质是对点积结果进行方差归一化,确保Softmax的输入值不会随维度增大而失控,从而保持梯度稳定,提升训练效率和模型性能。这一设计是Transformer高效训练的关键细节之一。

2025-03-23 23:36:15 1492

原创 面试常问系列(一)-神经网络参数初始化

Xavier初始化解决的是饱和激活函数(sigmoid/tanh)\但是针对非饱和激活函数,relu等无效。那么针对于relu这种激活函数该怎么办呢?可以使用kaiming初始化。

2025-03-23 17:10:20 1381

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除