推荐系统学习记录二 ——用户特征和Item特征的常用方法

soaringpig

于 2019-10-10 10:52:14 发布

阅读量3.1k

点赞数 2

CC 4.0 BY-SA版权

文章标签：推荐系统

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/soaringpig/article/details/102387074

这篇博客探讨了推荐系统中的用户和Item特征处理，包括item的类别和统计特征、用户画像、数据存储和使用、Embedding的概念与应用，以及特征工程的各种策略，如特征选择、离散化和组合。同时，提到了特征服务平台的重要性以及处理样本不均衡的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

item 特征

item一般是指一个需要打分的个体，搜索中，是等待被搜索的个体；推荐中，是等待被推荐的个体。但是实际的业务中，往往不是这么简单。

在item中，我们都用过什么特征？
item的类别
item的统计类特征
在统计类特征中，不是只有sum，ratio，average等这样的特征，有的时候我们也会用到平滑，例如在广告推荐中，A广告投放了10次，被点击1次，B广告投放了1000次，被点击了10次，我们并不能说A的ctr是0.1，因为这样会带来很大的偶然性，此时我们可以加入平滑因子。典型的通过设置β因子，通过 β 分布做平滑。

用户特征

离散值和连续值的特点
离散值和连续值的相互转化
离散特征和连续特征
所有的线性模型都喜欢用离散值，因为连续值中的某个异常点会把模型拉偏。
可以通过不同线性模型的叠加去处理不同的值，降低模型对数据的敏感度
用户画像
用户的特征挖掘如何捕捉到真正有用的用户特征，这是和业务以及建模问题强相关的。
u2i特征 user to item
常见的 u2i特征
u2i特征和特征交叉的区别
常见的u2i特征偏统计类，例如一个月内某人购买鞋子的数量，而特征交叉是id类特征的交叉。
u2i大部分情况下刻画的是统计特征，特征交叉偏item

数据的存储和使用

在工业界，大规模数据的存储方式与一般使用支持map-reduce的数据库进行存储，比如Hive
一个数据查询的两个阶段：Mapper,Reduce
均匀哈希分桶和数据倾斜
在线数据存储

在线和离线的区别？
离线强调数据量的大，在线强调数据serve/inference过程的快
为什么要用在线的hbase？
hbase的性能能满足我们的要求，并且不是一个关系型的数据库
特征服务平台
- 如何规范的管理特征
- 特征实时化的好处
  带来实时信息
  对于新的广告的特征快速从不准确变得准确
  上下文，统计信息更加准确
- 如何做到特征共用
- 特征的生命周期
- 离线特征和实时特征

Embedding（嵌入）

1.什么是embedding?
一开始，embedding是在word2vec中使用的，在nlp中把一个单词映射成一个向量，随后在Deeplearning中得到使用。但是embedding本质上是一个数学问题而不是机器学习的问题，其实就是一个matrix。
对于数据的两种表示方式

OneHot representation
无法考虑到不同维度的关系
如国王-男=女王-女
但是在OneHot中是得不到这样的结果的
Distributed representation
密集向量，是一种分布式的表示。可以克服one-hot representation的上述缺点，基本思路是通过训练将每个词映射成一个固定长度的短向量，所有这些向量就构成一个词向量空间，每一个向量可视为该空间上的一个点。此时向量长度可以自由选择，与词典规模无关，这样相近意义的词就会聚集在一起，可以更精准的表现出近义词之间的关系
2.从FM角度去看embedding（矩阵分解）
首先来看LR
$Y =W^TX$
FM模型的表达式：
$y=σ(w⋅x+xT⋅W(2)⋅x)y=\sigma(w \cdot x+x^T\cdot W^{(2)}\cdot x)$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。