特征工程
文章平均质量分 69
Madazy
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习之特征提取
机器学习之特征提取1.为什么要特征提取原始数据常常是高维的,其中包含了许多冗余信息或者十分稀疏或者计算量大,拿原始数据来训练可行,但是往往直接训练是低效的。所以特征提取往往是必要的。注:特征提取主要是为了解决下面三个问题,(1)原始数据特征中的强相关性造成的冗余信息。(2)原始数据十分稀疏。(3)原始数据维度巨大。2.特征提取的主要方法。主成分分析(PCA)主成分分析是特征提取中的常...原创 2018-11-13 21:12:41 · 14873 阅读 · 0 评论 -
机器学习之特征组合、特征交叉
机器学习之特征组合、特征交叉为什么需要特征组合、特征交叉?特征交叉是数据特征的一种处理方式,通过特征组合的方式增加特征的维度,以求得更好的训练效果。在实际场景中,我们常常遇到这要的情况,线性分类起无法在如下样本中(无法画一条直线将下列黄点和蓝点分开),所以特征组合是一种让线性模型学习到非线性特征的方式:例如在广告模型中用到了大量的特征组合,因为LR是广告推广中最常用的模型,但...原创 2018-11-15 20:27:52 · 15286 阅读 · 0 评论 -
机器学习之数据预处理
机器学习之数据预处理1. 为什么需要数据预处理?原始数据来自于现实场景,常常有以下几个特征:脏、乱、差、缺。脏体现在原始数据里混杂许多噪声数据,乱体现在原始数据各维度量纲不同一。差体现在数据错误、出现不寻常不一致,这和脏相似。缺体现在原始数据的某些数据段值的缺失。2. 数据预处理的方法。脏乱——归一化、标准化、中心化归一化、标准化和中心化是数据预处理中重要的方法:归一化和标准化的区...原创 2018-11-14 10:59:08 · 805 阅读 · 0 评论 -
特征组合之因子分解机(FM)
特征组合之因子分解机(FM)1. 为什么需要因子分解机?在上一篇博客特征组合中提到,暴力交叉会导致特征组合的特征稀疏的问题,所以FM(Factorization Machine)主要目标是:解决数据稀疏的情况下,特征怎样组合的问题。核心:对于因子分解机FM来说,最大的特点是对于稀疏的数据具有很好的学习能力。2.什么是FM因子分解机?FM因式分解机是一种基于LR模型的高效的学习特征间相互...原创 2018-11-20 21:32:12 · 2163 阅读 · 0 评论 -
特征组合之FFM
FFM(Field-aware Factorization Machine)1. 为什么需要FMM?Field-aware即通过引入field的概念,FFM把相同性质的特征归于同一个field。 基于FM,提高FM模型的表达能力和复杂度,从而提高FM的学习能力。2. 什么是FMM&FMM的推导?与FM相似,在线性回归的模型上引入特征组合部分。与FM不同的是,特征组合部分的隐向量多了...原创 2018-11-21 12:20:43 · 1609 阅读 · 0 评论 -
特征组合之DeepFM
特征组合之DeepFM1. 为什么需要DeepFM?我们在之前的文章中提到FM, FMM,理论上,FM可以处理高阶的特征组合,但由于计算复杂度的原因,一般只处理二阶的特征组合(即在FM章节提到的度为2的FM)。所以我们很一般地想到用DNN的方法来解决拟合更高阶的特征组合。注:可以很显然地得知,高阶的特征组合的参数时阶乘上涨的。比如2阶的FM的特征组合部分的参数数量时 C(n,2),则三阶的时...原创 2018-11-22 13:20:20 · 2383 阅读 · 0 评论 -
最邻近搜索之KD-Tree 与 LSH
最邻近搜索之KD-Tree 与 LSH什么是最邻近搜索问题?在内容搜索、推荐系统和一些机器学习算法常常遇到最邻近搜索问题,在大数据场景下,O(n)的时间复杂度往往是不能被接受的,所以需要一些方法来返回近似的解或用空间复杂度以换取更优的时间开销。什么是最邻近搜索问题?...原创 2019-06-18 09:25:06 · 809 阅读 · 0 评论
分享