item 特征
item一般是指一个需要打分的个体,搜索中,是等待被搜索的个体;推荐中,是等待被推荐的个体。但是实际的业务中,往往不是这么简单。
- 在item中,我们都用过什么特征?
item的类别
item的统计类特征 - 在统计类特征中,不是只有sum,ratio,average等这样的特征,有的时候我们也会用到平滑,例如在广告推荐中,A广告投放了10次,被点击1次,B广告投放了1000次,被点击了10次,我们并不能说A的ctr是0.1,因为这样会带来很大的偶然性,此时我们可以加入平滑因子。典型的通过设置β因子,通过 β 分布做平滑。
用户特征
- 离散值和连续值的特点
- 离散值和连续值的相互转化
- 离散特征和连续特征
所有的线性模型都喜欢用离散值,因为连续值中的某个异常点会把模型拉偏。
可以通过不同线性模型的叠加去处理不同的值,降低模型对数据的敏感度 - 用户画像
用户的特征挖掘如何捕捉到真正有用的用户特征,这是和业务以及建模问题强相关的。
u2i特征 user to item
常见的 u2i特征
u2i特征和特征交叉的区别
常见的u2i特征偏统计类,例如一个月内某人购买鞋子的数量,而特征交叉是id类特征的交叉。
u2i大部分情况下刻画的是统计特征,特征交叉偏item
数据的存储和使用
在工业界,大规模数据的存储方式与一般使用支持map-reduce的数据库进行存储,比如Hive
一个数据查询的两个阶段:Mapper,Reduce
均匀哈希分桶和数据倾斜
在线数据存储
- 在线和离线的区别?
离线强调数据量的大,在线强调数据serve/inference过程的快 - 为什么要用在线的hbase?
hbase的性能能满足我们的要求,并且不是一个关系型的数据库 - 特征服务平台
- 如何规范的管理特征
- 特征实时化的好处
带来实时信息
对于新的广告的特征快速从不准确变得准确
上下文,统计信息更加准确 - 如何做到特征共用
- 特征的生命周期
- 离线特征和实时特征
Embedding(嵌入)
1.什么是embedding?
一开始,embedding是在word2vec中使用的,在nlp中把一个单词映射成一个向量,随后在Deeplearning中得到使用。但是embedding本质上是一个数学问题而不是机器学习的问题,其实就是一个matrix。
对于数据的两种表示方式
- OneHot representation
无法考虑到不同维度的关系
如国王-男=女王-女
但是在OneHot中是得不到这样的结果的 - Distributed representation
密集向量,是一种分布式的表示。可以克服one-hot representation的上述缺点,基本思路是通过训练将每个词映射成一个固定长度的短向量,所有这些向量就构成一个词向量空间,每一个向量可视为该空间上的一个点。此时向量长度可以自由选择,与词典规模无关,这样相近意义的词就会聚集在一起,可以更精准的表现出近义词之间的关系
2.从FM角度去看embedding(矩阵分解)
首先来看LR
Y = W T X Y =W^TX Y=WTX
FM模型的表达式:
y = σ ( w ⋅ x + x T ⋅ W ( 2 ) ⋅ x ) y=\sigma(w \cdot x+x^T\cdot W^{(2)}\cdot x) y=σ(w⋅x+</