【百面机器学习】特征工程01

目录

 

1特征归一化

1.1为什么需要对数值类型的特征做归一化?

1.2在对数据进行预处理时,应该怎样处理类别型特征?

1.2.1序号编码(保留数值大小)

1.2.2.独热编码(不保留数值大小)

1.2.3二进制编码

1.3什么是组合特征?如何处理高维组合特征?

1.4怎样有效地找到组合特征?

1.5文本表示模型

1.5.1知识点:

1.5.2问题:

1.5.3解答


1特征归一化

主要分为两种数据类型:结构化数据(文本数据),非结构化数据(音视频数据即二进制数据)

1.1为什么需要对数值类型的特征做归一化?

为了将所有的特征都统一到一个大致相同的数值区间内。

在学习速率相同的情况下,x 1 的更新速度会大于x 2 ,需要较多的迭代才能找到最优解。如果将x 1 和x 2 归一化到相同的数值区间后,优化目标的等值图会变成图1.1(b)中的圆形,x 1 和x 2 的更新速度变得更为一致,容易更快地通过梯度下降找到最优解。

数据归一化并不是万能的。在实际应用中,通过梯度下降法求解的模型通常是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树模型则并不适用,以C4.5为例,决策树在进行节点分裂时主要依据数据集D关于特征x的信息增益比(详见第3章第3节),而信息增益比跟特征是否经过归一化是无关的,因为归一化并不会改变样本在特征x上的信息增益。

1.2在对数据进行预处理时,应该怎样处理类别型特征?

1.2.1序号编码(保留数值大小)

序号编码通常用于处理类别间具有大小关系的数据。例如成绩,可以分为低、中、高三档,高表示为3、中表示为2、低表示为1,转换后依然保留了大小关系。

1.2.2.独热编码(不保留数值大小)

独热编码通常用于处理类别间不具有大小关系的特征。例如血型,一共有4个取值(A型血、B型血、AB型血、O型血),独热编码会把血型变成一个4维稀疏向量,A型血表示为(1, 0, 0, 0),B型血表示为(0, 1, 0, 0),AB型表示为(0, 0,1, 0),O型血表示为(0, 0, 0, )。对于类别取值较多的情况下使用独热编码需要注意以下问题。

1]使用稀疏向量来节省空间。在独热编码下,特征向量只有某一维取值为1,其他位置取值均为0。因此可以利用向量的稀疏表示有效地节省空间,并且目前大部分的算法均接受稀疏向量形式的输入。

2]配合特征选择来降低维度。高维度特征会带来几方面的问题。

第一:KNN中,高维空间下两点之间的距离很难得到有效的衡量;

第二:逻辑回归中,参数的数量会随着维度的增高而增加,容易引起过拟合问题;

第三:通常只有部分维度是对分类、预测有帮助

1.2.3二进制编码

先用序号编码给每个类别赋予一个类别ID,然后将类别ID对应的二进制编码作为结果。A、B、AB、O四种血型,001,010,011,100

1.3什么是组合特征?如何处理高维组合特征?

假设一部电影只有电影类型和电影语言对电影的点击是有影响的,我们列出如下统计

1.4怎样有效地找到组合特征?

并不是所有的特征组合都是有意义的。因此,需要一种有效的方法来帮助我们找到应该对哪些特征进行组合。

基于决策树的特征组合寻找方法 假设原始输入特征包含年龄、性别、用户类型(试用期、付费)、物品类型(护肤、食品等)4个方面的信息,并且根据原始输入和标签(点击/未点击)构造出了决策树,如图1.2所示。

决策树就是一个很好的特征组合模型

1.5文本表示模型

1.5.1知识点:

词袋模型,TF-IDF,主题模型,词嵌入模型

1.5.2问题:

有哪些文本表示模型?它们各有什么优缺点?

1.5.3解答

词袋模型

最基础的文本表示模型是词袋模型。顾名思义,就是将每篇文章看成一袋子词,并忽略每个词出现的顺序。具体地说,就是将整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对应的权重则反映了这个词在原文章中的重要程度。常用TF-IDF来计算权重,公式为:

TF(t,d)为单词t在文档d中出现的频率;IDF(t)是逆文档频率,用来衡量单词t对表达语义所起的重要性

直观的解释:如果一个词在很多文章中都出现了,那么就说明这个词对文章的分类共享比较小,相应的IDF就比较小,IDF可以看成是TF的权重值,TF就是该单词在该文章中出现的频率

N元模型

将文章进行单词级别的划分有时候并不是一种好的做法,比如英文中的naturallanguage processing(自然语言处理)一词,如果将natural,language,processing这3个词拆分开来,所表达的含义与三个词连续出现时大相径庭。通常,可以将连续出现的n个词(n≤N)组成的词组(N-gram)也作为一个单独的特征放到向量表示中去,构成N-gram模型。

另外,同一个词可能有多种词性变化,却具有相似的含义。在实际应用中,一般会对单词进行词干抽取(Word Stemming)处理,即将不
同词性的单词统一成为同一词干的形式。

主题模型

主题模型用于从文本库中发现有代表性的主题(得到每个主题上面词的分布特性),并且能够计算出每篇文章的主题分布,通过这种方式对文章进行归类,就是如果说一篇文章中词的分布如果和这些有代表性的主题分布特征相似,那么我们就可以认为该篇文章比较适用于

词嵌入

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值