自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(755)
  • 资源 (5)
  • 收藏
  • 关注

原创 SLMRec 论文中解决Dnorm​损失多层收敛不稳定的「核心 3 个技术方案」(论文原文答案,全部是技术亮点)

SLMRec 通过分块层对齐 + 教师特征 Detach 冻结 + 分层衰减权重 λ₂,解耦多层梯度冲突,固定拟合锚点,平衡层间收敛节奏,彻底解决 D_norm 多层收敛不稳问题。

2026-01-07 16:02:22 559

原创 SLMRec 详细介绍(重点:损失函数)

SLMRec 是面向序列推荐(SR) 的小语言模型,核心目标是解决大语言模型(LLM)在序列推荐中参数冗余、部署低效的问题。其核心思路是通过分层知识蒸馏,将深层 LLM(教师模型)的关键知识迁移到浅层小模型(学生模型),仅用 LLM 类推荐模型 13% 的参数,就实现了相当甚至更优的性能,同时训练 / 推理速度分别提升 6.6 倍和 8.0 倍。模型采用师生架构:教师模型为深层 LLM(如 LLaMa-7B),学生模型为同隐藏维度的浅层 LLM;

2026-01-04 15:56:10 337

原创 qwen3 训练loss 出现nan

在 Qwen3 的训练 / 微调过程中,loss 变为 NaN(Not a Number,非数字) 是数值计算完全失效的核心标志,意味着模型在损失函数计算、梯度传播环节出现了无法被计算机解析的无效数值运算—— 这不是 “模型学不好(loss 高)”,而是 “训练流程本身崩溃”,继续训练会导致参数更新完全失效(参数也会变成 NaN),必须立即停止并排查问题。

2025-12-29 21:06:02 748

原创 训练时开启 KV 缓存会和is_causal=False 冲突

KV 缓存与 is_causal=False 冲突的本质是:KV 缓存的设计根基是「因果掩码(is_causal=True)+ 逐 token 生成」,而 is_causal=False 打破了 “因果限制”,且训练场景本身无需 KV 缓存,两者从逻辑、维度、场景上完全不兼容。对于你的核心需求(训练 Qwen3 时禁用因果掩码),训练阶段必须禁用 KV 缓存(这也是行业通用做法);若需推理时禁用因果掩码,同样要关闭 KV 缓存,或改用全序列一次性输入的推理方式(而非逐 token 生成)。

2025-12-29 17:09:39 590

原创 大语言Qwen3模型QA训练数据如何生成

对 Qwen3 等 Decoder-only 模型而言,QA 数据输入构造的本质是“将问答对转换为符合对话模板的连续序列,通过 labels 屏蔽实现‘根据 Question 生成 Answer’的训练目标”,这是实现高质量问答能力的基础。

2025-12-29 12:07:09 745

原创 scaled_dot_product_attention实现

SDPA 是 Transformer 注意力机制的核心,公式如下:关键要素:以下是纯 PyTorch 手动实现的 SDPA,包含缩放、注意力掩码、因果掩码核心逻辑,注释详细且适配新手理解:手动实现的测试示例(模拟 Qwen3 单 head 场景)mask作用mask主要是屏蔽掉attention矩阵无效的权重,

2025-12-26 16:43:03 269

原创 大语言模型要用分组注意力机制GQA

对 Q:保留足够多的 head,保证细粒度的语义查询能力,适配中文的复杂语义;对 K/V:减半 head 数,大幅降低显存占用和计算成本,满足线上推理的效率需求。该设计是 “性能不降级(或轻微降级)、效率大幅提升” 的最优解,也是 Qwen3 相比纯 MHA/MQA 模型,在产业落地中更具竞争力的核心原因之一。

2025-12-26 16:03:02 856

原创 大语言模型在线推理过程

大语言模型(如 Qwen3)的输出过程本质是基于自回归机制的逐 token 生成循环,从 “输入预处理” 到 “最终文本输出” 可拆解为「预处理→初始化→逐 token 生成→后处理」四大阶段,每个阶段都对应具体的张量计算、缓存更新和采样逻辑。

2025-12-25 21:20:46 501

原创 attention_mask和causal mask区别联系

2025-12-25 20:09:57 90

原创 Mobile ALOHA 简介

最近这几天,在机器人领域最火的一个话题,非Mobile ALOHA项目莫属了。不管是在Youtube,科技网站,还是国内微信公众号视频号,到处都能看到Mobile ALOHA相关的报道和视频。我也跟着这股热潮,深入了解了一下Mobile ALOHA,整理出来一些内容,跟大家一起学习分享。Mobile ALOHA(一种用于双手远程操作的低成本开源硬件系统),主要解决了机器人训练需要人类操作员仔细指导的移动双手机器人的高成本和技术挑战。它的成本只是现成系统的一小部分,并且可以从少至 50 次的人类演示中学习。

2024-10-18 20:31:04 1801 1

原创 深度学习领域最常用的10个激活函数,一文详解数学原理及优缺点

激活函数是神经网络模型重要的组成部分,本文作者Sukanya Bag从激活函数的数学原理出发,详解了十种激活函数的优缺点。激活函数(Activation Function)是一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式。类似于人类大脑中基于神经元的模型,激活函数最终决定了要发射给下一个神经元的内容。在人工神经网络中,一个节点的激活函数定义了该节点在给定的输入或输入集合下的输出。标准的计算机芯片电路可以看作是根据输入得到开(1)或关(0)输出的数字电路激活函数。

2024-02-27 21:53:36 1497

原创 Pytorch卷积层原理和示例 nn.Conv1d卷积 nn.Conv2d卷积

一,前提二,卷积层原理1.概念2.作用3. 卷积过程三,nn.conv1d1,函数定义:2, 参数说明:3,代码:4, 分析计算过程四,nn.conv2d1, 函数定义2, 参数:3, 代码4, 分析计算过程在开始前,要使用pytorch实现以下内容,需要掌握tensor和的用法卷积层是用一个固定大小的矩形区去席卷原始数据,将原始数据分成一个个和卷积核大小相同的小块,然后将这些小块和卷积核相乘输出一个卷积值(注意这里是一个单独的值,不再是矩阵了)。特征提取卷积的本质就是用卷积核的

2024-02-05 20:43:33 3537

原创 绘制频率分布直方图的三种方法,总结的很用心

直方图能帮助迅速了解数据的分布形态,将观测数据分组,并以柱状条表示各分组中观测数据的个数。简单而有效的可视化方法,可检测数据是否有问题,也可看出数据是否遵从某种已知分布。本次案例通过生成深圳市疫情个案数据集中所有患者的年龄参数直方图。分别使用Matplotlib、Pandas、Seaborn模块可视化Histogram。其中,Matplotlib和Pandas样式简单,看上去吸引力不大。Seaborn可往单变量直方图上添加很多东西,更美观,pandas可成组生成直方图。

2024-02-04 11:31:00 7456

原创 Tensorflow 中的损失函数 —— loss 专题汇总

标准的损失函数并不合适所有场景,有些实际的背景需要采用自己构造的损失函数,Tensorflow 也提供了丰富的基础函数供自行构建。例如下面的例子:当预测值(y_pred)比真实值(y_true)大时,使用 (y_pred-y_true)*loss_more 作为 loss,反之,使用 (y_true-y_pred)*loss_lesstf.greater(x, y):判断 x 是否大于 y,当维度不一致时广播后比较。

2024-01-24 21:49:46 3916 1

原创 「2023 | 快手」PEPNet:融合个性化先验信息的多场景多任务网络

之前梳理过多场景建模方法:推荐系统(二十四)「知识梳理」多场景建模梳理,现在介绍快手提出的多场景多任务方法PEPNet。From: 2023 快手。

2024-01-18 16:05:49 5374

原创 端智能在大众点评搜索重排序的应用实践

端智能重排序是大众点评搜索在边缘计算方向的一次探索实践,并且在核心指标上取得了较为显著的效果。通过利用端上计算的能力,更高效地捕捉用户的实时兴趣偏好,弥补云端服务决策延迟、用户反馈信息获取延迟等问题。及时调整未曝光候选结果的顺序,把更符合用户意图的商户排上来,从而带来更好的用户搜索触达体验。同时,我们对前后端训练、部署预估框架进行了升级,为后续进一步快速迭代实验奠定了良好的基础。

2024-01-16 21:36:25 1852 1

原创 推荐系统模型(一) DFN 详解 Deep Feedback Network for Recommendation

在大多数的推荐系统中,往往注重于隐式正反馈(例如:点击),而忽略掉用户的其他行为(例如大多数CTR模型只考虑用户的喜欢,而忽略了不喜欢)。腾讯在Deep Feedback Network for Recommendation 一文中,提出了一个新颖的推荐系统模型,该模型使用了一个新的神经网络框架,考虑了,通过大量的实验证实了该模型的有效性和鲁棒性。

2024-01-16 20:41:21 2988

原创 大模型在广告ctr预估中的应用

预训练大模型在ctr预估方面取得了不错的效果,但是应用大模型方面还主要停留在提取离线预训练,然后使用大模型的打分结果或者中间的embedding向量,这种级联的应用方式相对灵活方便。但是这种使用大模型提取特征的方式存在自身的问题,那就是通过独立训练得到的特征,对于最终的ctr模型来说不是最优的。主要原因是预训练的大模型和ctr模型存在不对齐的问题,造成大模型提取的特征存在冗余重叠的情况。为了解决这个问题,微软ad团队提出了预训练+联合学习和蒸馏学习的方式,对大模型进行端到端的应用,从而返回大模型真正的威力。

2024-01-11 20:12:02 1128

原创 NLP技术在搜索推荐场景中的应用

本文主要介绍了NLP技术在搜索推荐场景中的应用。在搜索推荐中,文本信息是很常见的一种信息来源,因此如何利用文本信息提升CTR预估、推荐等模型效果,以及如何利用NLP技术解决相关性问题,都是搜推广场景中很有价值的研究点。

2024-01-10 18:55:29 1213

原创 互联网广告行业发展历程

1994年全球第一个互联网广告诞生。1995年左右是互联网大众化的启蒙期,也开启了门户广告时代。这个阶段互联网用户规模有限,广告主对互联网的认知也较弱,尝鲜者并不多。电视、报纸、广播、户外等仍是广告主流媒体。由于媒体特点、流量规模、交易成本等的限制,当时的流量通常是打包售卖的,CPM、CPT是主流。广告销售顾问提前与客户确定广告位置、广告内容、广告展示时间,媒体在相应的时间展示广告。随着雅虎、谷歌等搜索引擎的发展,互联网广告有了第一次革命性变化。

2024-01-05 21:15:10 1456

原创 一文快速了解oCPX

o是Optimized,优化一词的首字母。CPX即Cost Per X,“X”即泛指传统的那些按不同方式进行结算的模式,如:CPC(Cost Per Click,按点击付费)、CPM(Cost Per Mille,按千次曝光付费)、CPA(Cost Per Action,按转化效果付费(转化效果例如:表单留销售线索、App下载安装、新注册用户、领优惠劵、加购物车、甚至下单等))等;

2023-12-19 11:36:34 5679

原创 当大语言模型遇见广告:新变革还是新泡沫?

人工智能可能从未受到过如此之高的关注度。2022年11月30日,OpenAI正式发布了ChatGPT,它是一款基于GPT3.5架构 1 进行训练的人工智能聊天机械人。ChatGPT像是一个全能的人,无论是有关文化、历史、艺术还是科技和商业的问题,它都能给出有理有据的回答。因此,相比传统搜索引擎,ChatGPT显然更加易用,这给搜索引擎的广告带来了直接的冲击。

2023-12-13 17:49:51 1106

原创 百度凤巢大模型与搜索广告满意度设计和实践

2023-12-13 17:27:53 1081

原创 传谷歌拟在广告中使用新AI模型,并为YouTuber提供建议

据内部文件显示,该公司已经批准了在大型语言模型(LLM)的推动下,使用生成式人工智能来自动化广告和广告支持的消费者服务的计划。值得一提的是,谷歌最近提供了 Google Duet 和 Google Chat 帮助,允许人们使用简单的自然语言来获得与云相关的问题的答案,例如如何使用某些云服务或功能,或者为他们的项目获得详细的实施计划。现如今,随着人工智能聊天机器人的热潮迅速席卷整个科技行业,并吸引了华尔街的关注,谷歌及其同行,包括微软 Meta 和亚马逊,正急于将自己最复杂的模型嵌入尽可能多的产品中。

2023-12-13 16:08:06 566

原创 语义搜索与LLM可以做些什么

然而,随着语义搜索的引入,搜索的体验类似于与朋友交谈,让搜索结果得到了显著的改善。这种新的方法可以根据单词和句子的含义进行搜索,而不仅仅是特定的术语,从而产生更准确的播客搜索体验。包括利用他们的一体化播客创作应用程序Anchor的语义搜索,以增强播客API和使用自然语言的播客搜索功能。虽然Stack Overflow在最近在其搜索中集成了语义模型,但早在去年ChatGPT在互联网上名声大开时,就有一些人预测语义搜索与语言模型结合的方式可以成为实现更好的搜索体验的合适方法。但谷歌并不是唯一一家这样做的公司。

2023-12-13 15:49:01 646

原创 眼花缭乱的ADN/ADX/DSP/DMP/SSP和他们的关系链

做过互联网广告尤其是程序化广告的同学都遇到过以下这些名词,或许正被他们折磨的焦头烂额,这篇文章,我们就来说说这些概念的含义及他们之间的关系链。ADN:AD Network——广告网络或广告联盟。连接广告主和媒体的中间商。ADX:ADExchange——广告交易平台。连接广告主/SSP和DSP的平台。DSP:需求方平台——Demand SidePlatform。代表广告主利益的平台。SSP:供应方平台——Supply Side Platform。代表媒体利益的平台。

2023-12-08 18:12:08 7703 1

原创 互联网广告的发展历程

1994年全球第一个互联网广告诞生。追本溯源,网络广告发源于美国。1994年10月14日是网络广告史上的里程碑,美国著名的Hotwired杂志推出了网络版的Hotwired,并首次在网站上推出了网络广告,这立即吸引了AT&T等14个客户在其主页上发布广告,10月27日当一个468x60的Banner广告出现在页面上时,标志着网络广告正式诞生。1995年左右是互联网大众化的启蒙期,也开启了门户广告时代。这个阶段互联网用户规模有限,广告主对互联网的认知也较弱,尝鲜者并不多。

2023-12-05 15:26:57 3998

原创 这5种软实力,在职场上很重要

汇报项目成果、需要别人支持、跨部门合作等,也需要你能用简洁明了的语言表达清楚需求,并让别人听起来觉得合情合理,能舒服地接受你的“说服”,心甘情愿地配合。如果你能力很强,但总是搞分裂、扰乱军心,在职场是不受欢迎的。美国密歇根大学发表的一篇文章称,只有全员合作才能带来更好的结果,组织中的每个人都要有意识地去贡献自己的技能和经验,才能加快共同目标的实现。所以,在一个团队里,不要轻易嚼人舌根、说人坏话、散播谣言和消极情绪,多一些和谐友好的合作、乐于助人、尊重他人,善于协调工作、处理冲突,才能凝聚力量、集思广益。

2023-12-04 16:57:04 840

原创 作为项目经理,你少不了要有的软实力

如果确实近期没有话题,或者可以更新的内容很好,那么也不要轻易取消会议,可以适当缩短会议时间,也可以和团队成员闲聊一会,对团队的建设也是不无裨益的,甚至有意想不到的收获。这样才方便接收者在不打开邮件的情况下,快速识别你邮件的主要内容,以决定邮件的优先级,对于老板来说尤其是这样,他们每天可能收到几百封邮件,不可能每封邮件都马上阅读,甚至有些邮件根本就不读。那么,你就会发现,你的软实力就会不断上升,而这种实力会变成你的个人魅力,从你的每个毛孔里散发出来,这就是重复的力量!如果计划做得好,怎么老是有紧急的事情呢?

2023-12-04 15:35:28 591

原创 LLM Fine-Tuning大模型FT方法

Here we discuss fine-tuning Llama 2 with a couple of different recipes. We will cover two scenarios here:This helps make the fine-tuning process more affordable even on 1 consumer grade GPU. These methods enable us to keep the whole model frozen and to jus

2023-11-28 21:28:11 1350

原创 精调llama模型

github地址:https://github.com/facebookresearch/llama-recipes。

2023-11-28 20:22:27 1241

原创 Huggingface 超详细介绍

Hugging face 起初是一家总部位于纽约的聊天机器人初创服务商,他们本来打算创业做聊天机器人,然后在github上开源了一个Transformers库,虽然聊天机器人业务没搞起来,但是他们的这个库在机器学习社区迅速大火起来。目前已经共享了超100,000个预训练模型,10,000个数据集,变成了机器学习界的github。其之所以能够获得如此巨大的成功,一方面是让我们这些甲方企业的小白,尤其是入门者也能快速用得上科研大牛们训练出的超牛模型。

2023-11-26 10:58:37 16022 2

原创 FlagEmbedding目前最好的sentence编码工具

请注意,预训练的目标是重构文本,预训练后的模型无法直接用于相似度计算,需要进行微调之后才可以用于相似度计算。08/02/2023: 🎉 🎉 发布中英文向量模型BGE(BAAI General Embedding的缩写), 在MTEB和C-MTEB榜单上取得最好的性能。更新向量模型:发布bge-*-v1.5向量模型,缓解相似度分布问题,提升无指令情况下的检索能力(但检索任务仍建议使用指令)10/12/2023: 发布 LLM-Embedder, 专为大语言模型各种检索增强任务设计的英文向量模型。

2023-11-25 22:48:38 2107

原创 gpt是如何进行训练的?

input经过矩阵计算得到权重att后,经过masked_fill掩码处理,得到了掩码的att权重,然后经过softmax归一化处理,最后的v乘积得到了每个output字符用前面input字符权重加权的表示,最后经过矩阵变换成voc_size大小的输出,就是我们要求的output输出,最后把我们计算得到output和target进行交叉熵损失函数计算,得到最终的loss,从而进行梯度下降优化整个模型。是的你没有看错,输入输出就是一个字符的错位。sentence:如何理解gpt的原理。

2023-11-25 22:46:23 1624 3

原创 问答知识库快速构建技术解析及行业实践

现阶段对话式 AI 技术应用的业界难题,主要是新场景中对话机器人的冷启动问题。上面介绍了我们在快速构建问答知识库上的工作,在一定程度上解决了冷启动问题,使冷启动和知识库更新时间缩短近 70%,但是仍然需要一定的人力在工具的辅助下进行知识库审核和构建。目前流行的基于提示学习 prompt 的小样本学习,可充分利用预训练模型在大量无监督数据集上学习到的丰富知识,进一步减少冷启动所需要的数据量和人力投入。

2023-11-23 15:08:10 729

原创 SELF-RAG: 让LLM集检索,生成跟评判等多种能力于一身

尽管基础能力出众,但是大模型只能依赖于被压缩到模型参数中的知识,所以经常会生成不符合事实的回复。针对这种事实性错误,目前主流的解决方案是知识增强,引入外部的知识源来引导模型生成。但是不考虑具体情形,一味地去检索外部文档可能会损害语言模型的多样性,生成不合适的回复。基于此,有研究人员提出了Self-Reflective Retrieval-Augmented Generation(SELF-RAG),一种新的大模型知识增强框架,可以通过检索跟自我反思提升大模型生成的质量跟事实可靠性。

2023-11-18 11:07:06 1230

原创 值得收藏!基于LLM的推荐系统全面综述!

大型语言模型(LLMs)已在自然语言处理(NLP)领域崭露头角,并在推荐系统(RS)领域近期受到了极大关注。这些模型通过自监督学习在大量数据上进行训练,已在学习通用表示上取得了显著成功,并有可能通过一些有效的迁移技术(如微调和提示调整等)来增强推荐系统的各个方面。利用语言模型的力量来提高推荐质量的关键在于利用它们对文本特征的高质量表示以及对外部知识的广泛覆盖,以建立项目和用户之间的关联。

2023-10-22 00:01:11 3953

原创 Bag of Tricks for Efficient Text Classification(FastText)

主要的有点就是快,用途就是用于文本分类,模型结构如上,主要是通过embedding将文本转换成向量,然后进行mean-pooling,然后输入到hidden隐向量中,通过softmax输出多分类,损失函数是对数似然损失函数(log-likelihood loss).

2023-10-21 23:38:04 278

原创 全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent

近日,国内领先的人工智能大模型公司面壁智能又放大招,联合清华大学 NLP 实验室共同研发并推出大模型「超级英雄」——XAgent。通过任务测试,XAgent 在真实复杂任务的处理能力已全面超越 AutoGPT。现已在 GitHub 正式开源,地址 https://github.com/OpenBMB/XAgent案例展示地址:https://x-agent.net/博客地址:https://blog.x-agent.net。

2023-10-17 20:53:58 3291

原创 AutoGPT:自动化GPT原理及应用实践

当输入prompt时,其会被编码器映射至潜在空间特定维度的高语义表征向量。这些向量通过解码器解码生成我们所需要的回答。

2023-10-17 20:05:30 2797

数据库课程设计-图书馆信息管理系统

(1) 读者信息的制定、输入、修改、查询,包括种类、性别、借书数量、借书期限、备注。 (2) 书籍基本信息制定、输入、修改、查询,包括书籍编号、类别、关键词、备注。 (3) 借书信息制定、输入、修改、查询,包括书籍编号、读者编号、借书日期、借书期限、备注。 (4) 还书信息制定、输入、修改、查询,包括书籍编号、读者编号、还书日期、还书期限、备注。 (5)意外处理(续借、超期赔偿、丢失赔偿、损坏赔偿等) (6)多条件查询各种信息. (7)用户权限(普通读者和图书管理员) (8)异常处理

2011-05-18

javacc-4.0和javacc-5.0

用于编译.jj文件的软件包,javacc工具,编译NutchAnalysis.jj文件时用到的,很好的一个开源代码

2012-09-17

数据结构试验 山东大学

山东大学 数据结构试验 试验1 子集全排序 试验2 插入排序 冒泡排序 归并排序 基数排序 试验3 链表 插入删除 合并 正向反向输出 试验4 二叉树 插入删除 前序中序后序遍历 试验5 堆 插入删除输出排序 试验6 图 输出最小树

2011-05-19

JMF开源软件包

JMF开源软件包,可以使用编写视频音乐播放器等

2012-09-23

图形学第二个试验-多边形世界

写一个可以交互的OpenGL应用程序,支持用户利用鼠标创建和删除2维多边形对象。基本功能包括: 对象创建:支持用户利用鼠标指定各个顶点位置,创建多边形。 对象删除: 支持用户选择一个多边形(与你的多边形保存的数据结构有关)并删除。 对象存储: 设计一种数据结构存储每个多边形的顶点与边,支持文件存盘,。 提示:由于删除操作需要多边形的选择机制,你可以在设计数据结构时,把可以帮助你完成选择的信息一起保存。 扩展功能可以包括(至少选择其一): 1. 支持用户选择多边形的颜色 2. 支持用户移动多边形 3. 支持用户改变多边形单个顶点的位置 4. 支持3D多边形 5. 其他(需要通过指导老师认可)

2011-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除