自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 (一)绪论-大规模语言模型从理论到实践

早期语言模型以 n-gram 为主,通过统计固定窗口内词的联合概率建模。但受限于窗口长度和数据稀疏,建模能力有限,依赖平滑技术修正。

2025-04-15 23:07:11 586

原创 NLP面试题思考

对比项用途主要用于自动摘要评估,也可用于文本生成主要用于机器翻译评估,也可用于文本生成核心思想召回率为主,衡量参考文本中的 n-gram 是否出现在生成文本中精确率为主,衡量生成文本中的 n-gram 是否出现在参考文本中计算方式计算 n-gram 召回率(ROUGE-N)、最长公共子序列(ROUGE-L)等计算 n-gram 精确率,并加上长度惩罚n-gram 统计参考文本中的 n-gram 是否出现在生成文本生成文本中的 n-gram 是否出现在参考文本主要指标ROUGE-N。

2025-03-17 02:09:41 1054

原创 (八)涨指标——王树森8h工业界推荐系统笔记

对于信息流推荐系统:视频时长增加可能导致用户看的视频数减少,因此需要在两者之间做平衡。

2025-03-12 23:11:52 238

原创 (五)行为序列——王树森8h工业界推荐系统笔记

最简单的方法是对用户行为取简单的平均,作为特征输入召回、排序模型。计算的向量可作为用户特征,反映用户的兴趣,把不同数据形成的向量拼起来,可用于召回、排序模型。SIM 的原理是对用户行为序列做快速筛选,缩短序列长度,使得DIN可以用于长序列。它是对 LastN 序列建模的一种方法,效果优于简单的平均。DIN序列短,记录用户近期行为,而SIM的序列长,记录用户长期行为,时间越久远,重要性越低。

2025-03-12 21:47:49 459

原创 (四)特征交叉——王树森8h工业界推荐系统笔记

Deep & Cross Networks (DCN) 译作“深度交叉网络”,可以用于召回双塔模型、粗排三塔模型、精排模型。DCN 由一个深度网络和一个交叉网络组成,交叉网络的基本组成单元是交叉层 (Cross Layer)。FM 是线性模型的替代品,能用线性回归、逻辑回归的场景,都可以用 FM。个参数,因此简化为上述矩阵相乘近似值,即FM,可将二阶交叉权重数量从。FM 使用二阶交叉特征,表达能力比线性模型更强。

2025-03-12 00:26:42 240

原创 (三)排序——王树森8h工业界推荐系统笔记

此处举例有两个目标,因此用了两组权重:p1p2p3/q1q2q3,若有十个目标,则用十组权重。不能直接把预估的完播率用到融分公式,因为对长视频不公平,视频时长越长,完播率可能会越低。说明此时任务只使用了某一个专家神经网络,没有对所有的神经网络做融合。·线上推理代价大:如果有n篇候选笔记,整个大模型要做n次推理。介于后期融合的双塔模型和前期融合的精排模型之间,前期部分融合。

2025-03-02 14:02:27 449

原创 (一)协同过滤——解读推荐系统经典算法

协同过滤是一种利用群体行为数据的推荐算法,通过分析用户的历史行为(如评分、点击等),协同过滤通过分析用户行为数据,找到相似的用户(UserCF)并推荐他们喜欢的物品,或找到相似的物品(ItemCF)并推荐给喜欢过同类物品的用户,从而预测目标用户可能感兴趣的内容。其核心思想是“相似的用户喜欢相似的物品(UserCF)或“相似的物品被相似的用户喜欢(ItemCF),通过协同大家的反馈和意见,从海量信息中筛选出目标用户可能感兴趣的内容。

2025-02-27 00:16:50 4926

原创 (二)召回——王树森8h工业界推荐系统笔记

矩阵补充的本质是对用户 ID 和物品 ID 做 embedding,并用两个 embedding 向量的內积预估用户对物品的兴趣。两个塔各输出一个向量,作为用户、物品的表征。被召回的物品只有很小一部分,因此未被召回的物品约等于全体物品,从全体物品中做抽样,作为负样本。2. 对于last-n列表中每个物品,通过“物品>物品”的索引,找到 top-k相似物品。3. 对于取回的相似物品(最多有nk个),用公式预估用户对物品的兴趣分数。相似的用户可能会喜欢同样的笔记,因此把A用户喜欢的笔记推荐给没看过的B用户。

2025-02-11 22:37:21 889

原创 (一)基础知识——王树森8h工业界推荐系统笔记

1. 基础知识2. 召回3. 排序交叉结构4. 用户行为序列5. 多样性6. 物品冷启动7. 涨指标。

2025-02-03 23:00:02 500

原创 大模型剪枝(一)解读Wanda论文: A Simple and Effective Pruning Approach for Large Language Models

2023提出的新剪枝算法Wanda论文解读

2024-06-11 06:16:32 6011 1

原创 Echarts基础:用python读取excel数据的网页可视化

最近在imooc上搜索数据分析,学习了一个python工程师体验营,主要内容是:python基础 + python读取excel数据 + Echarts图表可视化记录一下课程内容,巩固记忆。Echarts简介:Apache ECharts是一个基于 JavaScript 的开源可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。Echarts拥有丰富的功能,可以通过模板实现各种数据图表可视化,并且官网有许多示例,可以直接复制代码进行修改,实现自己的需要。官网示例:

2021-10-27 14:33:27 7527

原创 SQL经典50题练习

SQL这套50题在网上流传很广,是比较经典、全面的一套题,最近刚入职数据开发工程师,SQL需要加强,因此自然不能错过这套题,答案都是自己写的,有错误或者可以改进的地方欢迎指出。数据表介绍题中所需数据来自四个表,分别是学生-成绩-课程-老师,此处列出四个表的字段与关联图创建表及插入数据学生表Studentcreate table Student(SId varchar(10),Sname varchar(10),Sage datetime,Ssex varchar(10));i

2021-10-12 09:03:44 11979 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除