- 博客(12)
- 收藏
- 关注
原创 (一)绪论-大规模语言模型从理论到实践
早期语言模型以 n-gram 为主,通过统计固定窗口内词的联合概率建模。但受限于窗口长度和数据稀疏,建模能力有限,依赖平滑技术修正。
2025-04-15 23:07:11
586
原创 NLP面试题思考
对比项用途主要用于自动摘要评估,也可用于文本生成主要用于机器翻译评估,也可用于文本生成核心思想召回率为主,衡量参考文本中的 n-gram 是否出现在生成文本中精确率为主,衡量生成文本中的 n-gram 是否出现在参考文本中计算方式计算 n-gram 召回率(ROUGE-N)、最长公共子序列(ROUGE-L)等计算 n-gram 精确率,并加上长度惩罚n-gram 统计参考文本中的 n-gram 是否出现在生成文本生成文本中的 n-gram 是否出现在参考文本主要指标ROUGE-N。
2025-03-17 02:09:41
1054
原创 (五)行为序列——王树森8h工业界推荐系统笔记
最简单的方法是对用户行为取简单的平均,作为特征输入召回、排序模型。计算的向量可作为用户特征,反映用户的兴趣,把不同数据形成的向量拼起来,可用于召回、排序模型。SIM 的原理是对用户行为序列做快速筛选,缩短序列长度,使得DIN可以用于长序列。它是对 LastN 序列建模的一种方法,效果优于简单的平均。DIN序列短,记录用户近期行为,而SIM的序列长,记录用户长期行为,时间越久远,重要性越低。
2025-03-12 21:47:49
459
原创 (四)特征交叉——王树森8h工业界推荐系统笔记
Deep & Cross Networks (DCN) 译作“深度交叉网络”,可以用于召回双塔模型、粗排三塔模型、精排模型。DCN 由一个深度网络和一个交叉网络组成,交叉网络的基本组成单元是交叉层 (Cross Layer)。FM 是线性模型的替代品,能用线性回归、逻辑回归的场景,都可以用 FM。个参数,因此简化为上述矩阵相乘近似值,即FM,可将二阶交叉权重数量从。FM 使用二阶交叉特征,表达能力比线性模型更强。
2025-03-12 00:26:42
240
原创 (三)排序——王树森8h工业界推荐系统笔记
此处举例有两个目标,因此用了两组权重:p1p2p3/q1q2q3,若有十个目标,则用十组权重。不能直接把预估的完播率用到融分公式,因为对长视频不公平,视频时长越长,完播率可能会越低。说明此时任务只使用了某一个专家神经网络,没有对所有的神经网络做融合。·线上推理代价大:如果有n篇候选笔记,整个大模型要做n次推理。介于后期融合的双塔模型和前期融合的精排模型之间,前期部分融合。
2025-03-02 14:02:27
449
原创 (一)协同过滤——解读推荐系统经典算法
协同过滤是一种利用群体行为数据的推荐算法,通过分析用户的历史行为(如评分、点击等),协同过滤通过分析用户行为数据,找到相似的用户(UserCF)并推荐他们喜欢的物品,或找到相似的物品(ItemCF)并推荐给喜欢过同类物品的用户,从而预测目标用户可能感兴趣的内容。其核心思想是“相似的用户喜欢相似的物品(UserCF)或“相似的物品被相似的用户喜欢(ItemCF),通过协同大家的反馈和意见,从海量信息中筛选出目标用户可能感兴趣的内容。
2025-02-27 00:16:50
4926
原创 (二)召回——王树森8h工业界推荐系统笔记
矩阵补充的本质是对用户 ID 和物品 ID 做 embedding,并用两个 embedding 向量的內积预估用户对物品的兴趣。两个塔各输出一个向量,作为用户、物品的表征。被召回的物品只有很小一部分,因此未被召回的物品约等于全体物品,从全体物品中做抽样,作为负样本。2. 对于last-n列表中每个物品,通过“物品>物品”的索引,找到 top-k相似物品。3. 对于取回的相似物品(最多有nk个),用公式预估用户对物品的兴趣分数。相似的用户可能会喜欢同样的笔记,因此把A用户喜欢的笔记推荐给没看过的B用户。
2025-02-11 22:37:21
889
原创 (一)基础知识——王树森8h工业界推荐系统笔记
1. 基础知识2. 召回3. 排序交叉结构4. 用户行为序列5. 多样性6. 物品冷启动7. 涨指标。
2025-02-03 23:00:02
500
原创 大模型剪枝(一)解读Wanda论文: A Simple and Effective Pruning Approach for Large Language Models
2023提出的新剪枝算法Wanda论文解读
2024-06-11 06:16:32
6011
1
原创 Echarts基础:用python读取excel数据的网页可视化
最近在imooc上搜索数据分析,学习了一个python工程师体验营,主要内容是:python基础 + python读取excel数据 + Echarts图表可视化记录一下课程内容,巩固记忆。Echarts简介:Apache ECharts是一个基于 JavaScript 的开源可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。Echarts拥有丰富的功能,可以通过模板实现各种数据图表可视化,并且官网有许多示例,可以直接复制代码进行修改,实现自己的需要。官网示例:
2021-10-27 14:33:27
7527
原创 SQL经典50题练习
SQL这套50题在网上流传很广,是比较经典、全面的一套题,最近刚入职数据开发工程师,SQL需要加强,因此自然不能错过这套题,答案都是自己写的,有错误或者可以改进的地方欢迎指出。数据表介绍题中所需数据来自四个表,分别是学生-成绩-课程-老师,此处列出四个表的字段与关联图创建表及插入数据学生表Studentcreate table Student(SId varchar(10),Sname varchar(10),Sage datetime,Ssex varchar(10));i
2021-10-12 09:03:44
11979
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅