
推荐系统
文章平均质量分 81
瑞行AI
这个作者很懒,什么都没留下…
展开
-
深度推荐模型包DeepCTR
DeepCTR包主要是对目前的一些“基于深度学习的点击率预测算法”进行了实现,官方文档参考本文主要记录DeepFM算法的相关操作细节。实验数据prefix:用户输入(query前缀)query_prediction:预测的用户完整需求查询词,最多10条;预测的查询词可能是前缀本身,数字为统计概率title:文章标题tag:文章类型label:是否点击0/1import pandas as pdimport numpy as npimport lightgbm as lgbfrom sk原创 2019-08-18 13:29:57 · 850 阅读 · 0 评论 -
推荐系统特征维度
在推荐系统中,特征的本质是“对某个行为相关信息的抽象表达”。抽取特征时,尽量保留“推荐环境及用户行为过程中的所有有用信息”,摒弃冗余信息。用户行为数据显性反馈:评分、点赞等;隐性反馈:点击、播放时长、加购等。用户行为类特征向量:(1)代表用户行为的物品id序列,转化成multi-hot向量。(2)预训练好的物品embedding向量,再average pooling或attention 生成历史行为embedding向量。用户关系数据社交网络,显性关系:好友、关注;隐形关系:点赞、同时对某一物原创 2019-08-17 17:43:11 · 1316 阅读 · 0 评论 -
贝叶斯平滑ctr计算
更新Beta分布里的alpha和beta参数Beta(a,b)=θa−1(1−θ)b−1B(a,b),B函数是一个标准化函数\displaystyle Beta(a,b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a,b)},B函数是一个标准化函数Beta(a,b)=B(a,b)θa−1(1−θ)b−1,B函数是一个标准化函数用矩估计估计出来的参数alpha和beta => 给ctr计算做平滑np.random.seed(0)class HyperParam原创 2019-08-19 16:45:46 · 1446 阅读 · 0 评论 -
用户点击item序列embedding
场景描述:一句话是一个文本序列,通常可以直接使用word2vec编码;类似的,用户浏览商城时,依先后顺序点击的物品id,也构成物品序列,可以对各个用户的物品序列用word2vec训练。模型训练完,对一个新来的物品id,可以用模型预测,预测的向量就是对物品的embedding向量。%matplotlib inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snspl原创 2019-05-27 12:26:18 · 1983 阅读 · 0 评论 -
FM/FFM
FM背景及相关算法对比(1)FM(factorization machine)是在LR(logistic regression)基础上,加入了特征的二阶组合项;(2)SVM和FM的主要区别在于,SVM的二元特征交叉参数是独立的,如wijw_{ij}wij,而FM的二元特征交叉参数是两个k维的向量vi、vjv_i、v_jvi、vj,即<vi,vj><...原创 2019-04-20 16:11:37 · 811 阅读 · 0 评论 -
GBDT+LR
用GBDT构造组合特征的原理【1】 首先,用GBDT对原始训练数据做训练,得到一个二分类器,利用网格搜索寻找最佳参数组合。【2】GBDT训练好做预测的时候,把模型中的每棵树计算得到的/预测概率值所属的叶子结点位置记为1,这样,就针对每个样本行/构造出了新的训练数据。【3】新的训练数据构造完后,与原始训练数据中的label(输出)数据一并输入到Logistic Regression分类器中进行...原创 2019-04-18 17:58:52 · 601 阅读 · 0 评论 -
LFM/funk-SVD
隐语义模型(LFM)通过隐含特征(latent factor)联系用户兴趣和物品。比如给用户推荐图书的场景,隐含特征可以是图书的类别。通过降维的方法补全评分矩阵。算法理论用户uuu对物品iii的兴趣rui=puTqi=∑k=1Kpu,kqi,kr_{ui}=p^T_u q_i=\sum\limits_{k=1}^K p_{u,k}q_{i,k}rui=puTqi=k=1∑Kpu,k...原创 2019-04-18 17:58:00 · 955 阅读 · 0 评论 -
user-based CF
user-based CF当一个用户A需要个性化推荐时,先找到"和A有相似兴趣的其他用户",然后把"这些用户喜欢&A没听过的物品"推荐给A。算法步骤(1)找到和目标用户兴趣相似的用户集合(2)找到这个集合中的用户喜欢的&目标用户没听说过的物品推荐给目标用户wuv=∣N(u)∩N(v)∣∣N(u)∪N(v)∣,wuv=∣N(u)∩N(v)∣∣N(u)∣∣N(v)∣w_{uv...原创 2019-04-18 17:55:05 · 1049 阅读 · 0 评论 -
item-based CF
item-based CF给用户推荐那些和他们之前喜欢的物品相似的物品。item-based CF并不是利用物品的内容属性计算物品之间的相似度,主要是通过分析用户的行为记录计算物品间的相似度。算法步骤(1)计算物品之间的相似度(2)根据物品的相似度和用户的历史行为,给用户生成推荐列表wij=∣N(i)∩N(j)∣∣N(i)∣w_{ij}=\frac{|N(i)\cap N(j)|}{|N...原创 2019-04-18 17:49:44 · 1624 阅读 · 1 评论 -
推荐系统常见问题
(一)哈利波特问题问题:购买任何一本书的人似乎都会购买《哈利波特》,因为《哈利波特》太热门了,确实是购买任何一本书的人几乎都会购买它。解决方案:(1)在item-based CF的相似度计算公式的分母上,加大对热门物品的惩罚wij=∣N(i)∩N(j)∣∣N(i)∣1−α∣N(j)∣αw_{ij}=\frac{|N(i)\cap N(j)|}{|N(i)|^{1-\alpha}|N(j)|...原创 2019-04-18 17:46:35 · 2625 阅读 · 0 评论 -
推荐系统简介
推荐系统存在的前提(1)信息过载;(2)用户需求不明确推荐系统的目标连接用户和物品,发现长尾商品;留住用户和内容生产者,实现商业目标推荐系统的应用领域新闻资讯推荐;短视频推荐;商品推荐推荐系统的评估用户——满足需求内容提供方——获取长尾流量,获得互动和认可网站——留住用户,实现商业目标评估指标准确性;满意度;覆盖率;多样性;新颖性;惊喜度;信任度;实时性;鲁棒性;可扩展性;商...原创 2019-04-18 17:45:00 · 598 阅读 · 0 评论 -
Wide&Deep/DeepFM
基于DNN的推荐算法引入背景推荐系统的一大挑战是同时具备”记忆能力“和”泛化能力“。”记忆能力“:学习那些经常同时出现的特征,发觉历史数据中存在的共现特性。”泛化能力“:基于迁移相关性,探索之前几乎没出现过的新特征组合。基于嵌入的模型(FM)对之前没出现过的特征具备二阶泛化能力,即为每个query和item特征学习一个低维稠密的嵌入向量。但FM很难有效学习低维表示,当query-item矩...原创 2019-04-20 18:13:53 · 1349 阅读 · 0 评论