- 博客(22)
- 资源 (2)
- 收藏
- 关注
原创 推荐广告之-MLR学习
算法简介:该算法是阿里的盖坤大神力作:Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction,介绍了阿里广告的一个主要ctr预估模型Large Scale Piece-wise Linear Model (LS-PLM),在2012年就开始使用,据说早期叫做Mixture of LR(MLR)...
2019-07-04 21:16:29
2070
2
原创 Spark-job计算之——数据倾斜问题
spark在大数据处理各项业务中扮演着越来越重要的角色,基于内存的计算方式,处理任务效率高。但是由于业务问题和程序处理问题,有时会遇到各种各样的问题,其中包含数据倾斜,任务倾斜,GC等各种问题。本文主要根据个人在业务数据处理中遇到的数据倾斜问题以及解决方法。本文是对数据倾斜问题的一点个人认识和总结,希望能对各位有点帮助,于此同时,本人是大数据算法方面的新人,行文处如存在任何不足和缺陷请各位...
2018-05-04 23:07:41
442
1
原创 一文学会使用Scala
IntroduceScala上一门纯面向对象的函数式编程语言,其主要贡献以及备受欢迎大概是因为其是Spark的开发语言(个人观点)。1.Scala 语言具有一下特性: • 面向对象特性 • 函数式编程 • 静态类型 • 扩展性 • 并发性 2.语法基础:Scala:执行可以是交互模式,亦可脚本模式语法: •区分大小写 •类名称:首字母大写,一般命...
2018-03-09 16:05:42
298
原创 文本分类中的文本特征表示
Introduce 文本话题分析文本分类的一个应用领域,主要是针对文本表现的主题的划分。目前,针对文本话题分类的研究还是很热的,主要包括微博,知乎等大型话题社区,论坛类网站。之前知乎针对该问题在著名的机器学习比赛网上,还开展了比赛,有关技术和code有很多。文本话题分析主要是应用是对文本进行领域划分、个性化推荐、社交网络、广告预测等各个领域等。而特征选择会对分类结果产生极大的影响。因此,
2018-01-11 16:49:45
14095
1
原创 文本分类问题中数据不均衡的解决方法的探索
Data Skew数据倾斜是数据挖掘中的一个常见问题,它严重影响的数据分析的最终结果,在分类问题中其影响更是巨大的,例如在之前的文本分类项目中就遇到类别文本集合严重不均衡的问题,本文主要结合项目实验,介绍一下遇到数据不均衡问题时的常见解决方法。数据倾斜的解决方法1.过采样和欠采样过采样 过采样是处理样本不均衡的一个基本解决方法,其实现简
2018-01-11 16:24:13
8510
9
原创 Biterm Topic Model(BTM)的python 实现
Biterm Topic Model(BTM)的python 实现前言 最近在看话题模型相关的论文。有关话题模型现在比较主流的解决方法有LDA,PLSA以及mixture of unigrams,本人研究了LDA(Latent Dirichlet Allocation),BTM等话题模型。首先说明在研究和实验LDA话题模型时发现,在解决short text话题分析时,这是由于其基于文
2017-10-16 15:50:45
20627
47
转载 Ubuntu docker spark集群部署
docker spark 一键部署 # 首先下载docker脚本>git clonegit@github.com:amplab/docker-scripts.git 切换路径到docker-scripts分别运行脚本加载spark相关镜像>./apache-hadoop-hdfs-precise/build>./dnsmasq-precise/build>./s
2016-04-23 10:49:26
513
原创 算法中的工程技能必知必会
本文系统梳理了算法工程化的核心技能体系,涵盖编程基础、数据结构、性能优化、大规模处理、测试调试、系统集成和领域优化七大维度。算法工程师需要超越理论实现,掌握C++/Python等编程语言的高效开发能力,理解时间复杂度与硬件特性的工程权衡,熟练运用分布式框架处理海量数据,并建立完善的测试监控体系。关键是要在算法性能、系统稳定性和业务需求间实现动态平衡,通过模块化设计、并行计算、近似算法等技术手段,将学术算法转化为可落地的产品方案。不同领域还需针对性优化,如机器学习模型的压缩部署或实时流处理的延迟控制,最终实现
2025-08-14 15:19:52
779
原创 如何通过 Actor 网络压缩为概率分布实现
本文提出了一种高效建模Top-N推荐系统动作空间的方法。针对候选池组合数随规模指数增长的问题,核心思路是将组合选择分解为N步序列决策,通过条件概率乘积建模联合分布。具体实现中,Actor网络采用注意力机制处理已选商品序列,计算上下文向量并生成掩码条件概率分布,避免重复选择。同时引入全局价值引导和多样性约束优化组合质量,并采用两阶段筛选处理大规模候选池。该方法通过结构化分解将指数级动作空间压缩为可计算的分步决策,有效平衡了推荐的相关性与多样性,已在多个工业级推荐系统中得到应用。
2025-08-13 17:37:27
630
原创 在线 A2C实践
本文介绍了在线A2C算法在推荐系统中的实践应用。该算法将推荐过程建模为强化学习问题,通过Actor生成推荐策略、Critic评估策略价值。实践过程包括:将推荐问题转化为MDP、实时样本采集与处理、Actor-Critic网络设计、在线训练与部署等环节。重点解决了实时性、稳定性和工程落地三大挑战,采用流式数据处理、模型轻量化、在线增量更新等技术方案。最终实现了一个能够动态适应用户兴趣、兼顾短期和长期价值的实时推荐系统,并通过监控指标持续优化模型效果。该方案在电商推荐场景中取得了良好效果。
2025-08-13 14:58:30
662
原创 推荐中的在线学习
推荐系统的在线学习技术是 “实时性” 与 “准确性” 的平衡艺术,核心是通过轻量优化算法、探索策略和混合架构,让模型快速适应动态环境。未来趋势将结合强化学习和大语言模型(LLM),进一步提升长周期推荐和复杂兴趣建模能力。
2025-08-11 21:32:54
874
原创 OneRec 学习笔记
模型框架语义分词器:首创协同感知的多模态分词方案。一方面融合视频的标题、标签、语音转文字、图像识别等多维信息,另一方面融入用户行为信息建模,采用 RQ-Kmeans 技术,将每个视频转化为 3 层粗到细的语义 ID,让模型能够 “理解” 快手平台上亿级别的视频内容。编码器 - 解码器:编码阶段同时考虑用户静态特征、短期行为序列、有效观看序列和终身行为序列,对用户全生命周期行为序列进行压缩处理,实现精准的兴趣建模。
2025-08-01 09:40:45
1928
原创 AMGR流程浅析
AMGR 通过多模态序列生成与多粒度行为建模,实现了推荐系统从 “信息过滤” 到 “内容创造” 的跃迁。全模态融合:打破数据模态壁垒,提升推荐的丰富性;端到端生成:减少级联架构的误差传递,增强建模效率;工业级优化:通过模型压缩、异步生成等技术,满足亿级流量场景的实时性需求。尽管面临推理效率、可控性等挑战,但随着高效注意力机制、动态策略优化等技术的成熟,AMGR 有望成为下一代推荐系统的主流范式,推动个性化推荐向智能决策助手和内容创作引擎演进。
2025-07-31 13:25:24
780
原创 推荐系统 精排和粗排越相似越好吗?
摘要: 推荐系统中,粗排和精排的设计目标存在本质差异:粗排侧重高效过滤(轻量模型、简化特征),快速筛选候选集;精排侧重精准排序(复杂模型、丰富特征),输出最终结果。两者关系应保持“核心趋势一致,细节适度差异”:粗排需覆盖精排的优质候选(通过模型蒸馏实现偏好对齐),同时允许效率驱动的合理偏差,由精排修正。过度追求相似性会导致效率损失或精度下降,合理分工才能实现“高效筛选+精准排序”的协同优化。
2025-07-31 10:55:12
1119
原创 推荐系统生成式架构是未来趋势吗?
生成式推荐系统:从技术革新到工业落地 生成式推荐系统正通过大语言模型(LLM)实现端到端序列生成,替代传统级联架构,提升建模效率和效果。工业实践显示,快手、美团等企业已通过混合架构优化算力利用率(如训练MFU达23.7%),并解决冷启动、多样性等问题。技术瓶颈如推理延迟和可控性通过序列压缩、注意力优化逐步突破,但数据偏差和隐私问题仍需关注。未来方向聚焦多模态生成、具身智能和自进化系统,推动推荐系统向“个性化内容引擎”升级。生成式架构有望成为下一代推荐主流范式。
2025-07-31 10:53:28
1585
原创 生成式推荐网络架构汇总
【摘要】生成式推荐网络在工业界呈现多样化发展,腾讯AMGR采用多模态编码和Transformer解码,实现15%的点击率提升;快手OneRec通过MoE架构和DPO优化,观看时长提升1.6%;Google TIGER利用语义ID生成式检索,冷启动准确率提升12%;Meta HSTU采用特征序列化技术,转化率提升12.4%;字节跳动Infinity实现高分辨率图像生成,点击率提升9.3%。技术趋势呈现多模态融合、高效架构和可信生成三大方向,推动推荐系统从"候选排序"向"内容生成+
2025-07-30 16:45:17
1239
原创 推荐中的序列建模
摘要:序列建模通过分析用户行为时序模式(如浏览-点击-购买链路)来提升推荐效果,克服了传统方法忽略时序关联的局限。主流方法从马尔可夫链发展到深度学习模型:RNN/LSTM处理短序列,Transformer解决长程依赖和并行计算问题,GNN捕捉物品转移关系,混合模型结合长短期偏好。评估指标包括Recall@k、NDCG等,应用场景覆盖会话推荐、实时更新等。该技术正从静态推荐向动态建模演进,未来需优化兴趣多样性处理和实时响应能力。 (149字)
2025-07-30 15:53:25
861
原创 机器学习特征那些事
在机器学习中,数据能够决定模型效果的上线,模型只是在这之上锦上添花。因此数据特征的优劣对于最终的效果至关重要。本文乃是对于个人多年工作和学习所得的一点总结和认识,如果有什么不足和理解不到位之处,希望可以和业内大佬们一起讨论和交流。特征 define1:人或事物可供识别的特殊的象征或标志。特征:在机器学习上解释是建立在原始数据之上的特定表示,它是一个单独的可度量属性,通常用结构化数据集中的一列表示。特征工程:将原始数据转化为特征的过程,使得特征可以很好地测量或描述输入输出之间的内在关系特征开发流程复杂且繁琐,
2022-06-01 17:04:48
1285
2
原创 【无标题】tf2 class-1 tensorflow 2.x 学习 ----- 简介
简 介Tensorflow 是Google Disblief平台2015年开源的继续学习框架,深受学术界和工业界研究者和工程师们的欢迎。Tensorflow 2.x是Google 2018年开始开始迭代,2019年3月开始发布。Tensorflow 2. x 相比1.x 改进:默认Eager 运行模式: Eager 即命令行交互运行环境 删除 tf.contrib 库 ,高阶api 整合到tf.keras 精简api, 删除重复,去掉重叠api 去全局变量 autograph 加速模型.
2022-05-21 13:34:14
216
原创 推荐系统的核心与问题
今天阅读一位大神力作,特总结梳理的推荐算法的核心问题所在。如有问题,还望指出,仅是个人学习所得。 在18年,还有美国知名flag企业高管决策人,在讨论要不要个性化。讲什么multi perspect,而且是美国的主流讨论议题,都在讨论如何防止信息茧房。而今,如果把推荐大略分为5个阶段,国内位于第四阶段,大多数美国推荐团队还没迈进第二阶段。国外注重理论研究,乍看之下理论高大上,深入看产品的算法细节,却不及13年百度feed的水平。这帮神仙距离实现太远了吧。 G家的...
2020-09-08 20:49:32
599
原创 Spark 问题汇总
在大数据领域,spark 是一个比较受欢迎的大数据处理平台,但是由于数据量过大等一系列问题,造成任务执行不成功,现在总结个人在工程实践中遇到的一些个奇葩问题.1.数据倾斜问题现象:1.可能会报资源不足,内存溢出2.大部分task 均执行完,只有少数几个task始终在执行中3.2.Kyro 序列化问题现象:1.报异常:| org.apache.spark.SparkExcepti...
2019-06-05 17:57:50
845
原创 spark 资源优化之道
在spark job执行中,我们通常会遇到这样那样的奇怪问题。该节主要介绍开发部署中遇到的一些资源分配问题。如:资源不足,资源分配过多,队列紧张等很多很多问题。在工程实践中,我们都希望自己的job 能够以最快的速度,最优的流程执行,以提高我们效率。于是乎我们往往在spark job提交的配置脚本中配置的job的资源越多越好,这就带来的一个问题,集群资源有限,可用资源不能够满足大资源的job...
2018-07-31 20:18:50
294
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅