
特征工程
文章平均质量分 85
主要包含了 特征筛选、升维降维、数据标准化、异常处理等内容。精简上手。
Tony Einstein
记录生活,记录成长,佛系更新。
做一个会思考、会解决问题的思考者!希望得到你的关注、点赞、收藏!
展开
-
数据标准化适用场景以及优缺点
Scikit-learn 提供了多种数据标准化方法,以下是一些常见的方法及其特点原创 2024-03-26 02:38:21 · 880 阅读 · 0 评论 -
《精通特征工程》学习笔记(7):自动特征生成:图像特征提取和 深度学习
图像和声音是以数字像素或波形来记录的。图像中的单个“原子”是一个像素。在音频数据中,基本单位是对波形密度的一次测量。这些单位包含的语义信息要比文本数据的基本单位(单词)少。因此,与文本相比,图像和音频上的特征提取和特征工程要困难得多。计算机视觉研究的重点是人工定义的用于提取良好图像特征的流程。有一段时间,像 SIFT 和 HOG(后文中会介绍)这样的图像特征提取器曾经成为了标准。近期深度学习研究的发展扩展了传统机器学习模型的应用范围,它们在基础层中集成了自动特征提取技术。原创 2023-06-07 22:05:42 · 815 阅读 · 0 评论 -
《精通特征工程》学习笔记(6):非线性特征化与k-均值模型堆叠
当数据位于一个薄饼状的线性子空间时,PCA 是非常有用的。但如果数据形成了一个更加复杂的形状,情况又将如何呢?如果线性子空间是一张平展的纸,那么非线性流形的一个简单例子就是卷起来的纸,它有个非正式的名称,叫作瑞士卷。一旦卷了起来,二维平面就占据了三维空间,尽管它本质上还是个二维对象。换句话说,它具有低本征维数。如果能够以某种方式展开瑞士卷,就可以恢复二维平面。这就是非线性数据降维的目标,它假定流形要比它所在的全维度空间简单,然后试图将其展开。原创 2023-06-07 17:28:03 · 776 阅读 · 0 评论 -
《精通特征工程》学习笔记(5):数据(特征)降维
通过自动数据收集和特征生成技术,可以快速获取大量特征,但不是所有特征都是有用的。数据降维就是在保留重要信息的同时消除那些“无信息量的信息”。这个方差就是 X 第 k 大奇异值的平方。奇异值的排序列表称为矩阵的谱(spectrum)。因此,要确定使用多少主成分,可以对数据矩阵做一个简单的谱分析,并选定能解释足够方差的阈值。原创 2023-06-07 16:39:10 · 829 阅读 · 0 评论 -
《精通特征工程》学习笔记(4):分类变量:自动化时代的数据计数
分类变量是用来表示类别或标记的。在实际的数据集中,类别的数量总是有限的。类别可以用数字表示,但与数值型变量不同,分类变量的值是不能被排序的。(作为行业类型,石油和旅游之间是分不出大小的。)它们又称为无序变量。原创 2023-06-07 16:21:41 · 1599 阅读 · 0 评论 -
《精通特征工程》学习笔记(3):特征缩放的效果-从词袋到tf-idf
tf-idf 是在词袋方法基础上的一种简单扩展,它表示词频 - 逆文档频率。tf-idf 计算的不是数据集中每个单词在每个文档中的原本计数,而是一个归一化的计数,其中每个单词的计数要除以这个单词出现在其中的文档数量。N 是数据集中的文档总数。分数 N / ( 单词 w 出现在其中的文档的数量 ) 就是所谓的逆文档频率。如果一个单词出现在很多文档中,那么它的逆文档频率就接近于 1。如果一个单词只出现在少数几个文档中,那么它的逆文档频率就会高得多。原创 2023-06-07 15:42:58 · 1169 阅读 · 0 评论 -
《精通特征工程》学习笔记(2):文本数据:扁平化、过滤和分块
词袋将一个文本文档转换为一个扁平向量。之所以说这个向量是“扁平”的,是因为它文本数据:扁平化、过滤和分块|35不包含原始文本中的任何结构。原始文本是一个单词序列,但词袋中没有任何序列,它只记录每个单词在文本中出现的次数。在词袋特征化中,一篇文本文档被转化为一个计数向量。(向量就是n个数值的集合。)这个计数向量包含词汇表中所有可能出现的单词。如果某个单词(比如“aardvark”)在文档中出现了3次,那么特征向量在对应于这个单词的位置就有一个计数值3。原创 2023-06-07 12:36:04 · 671 阅读 · 0 评论 -
《精通特征工程》学习笔记(1):数值特征处理
特征选择技术可以精简掉无用的特征,以降低最终模型的复杂性,它的最终目的是得到一个简约模型,在不降低预测准确率或对预测准确率影响不大的情况下提高计算速度。为了得到这样的模型,有些特征选择技术需要训练不止一个待选模型。换言之,特征选择不是为了减少训练时间(实际上,一些技术会增加总体训练时间),而是为了减少模型评分时间。原创 2023-06-07 11:20:26 · 965 阅读 · 0 评论 -
数据无量纲化 学习(2):数据缩放(数据标准化 / 数据无量纲化 )的作用、适用场景、具体方法
缩放到均值为0,方差为1(Standardization——StandardScaler())缩放到0和1之间(Standardization——MinMaxScaler())缩放到-1和1之间(Standardization——MaxAbsScaler())缩放到0和1之间,保留原始数据的分布(Normalization——Normalizer())原创 2023-04-04 18:01:08 · 1859 阅读 · 0 评论 -
数据无量纲化 学习(0):线性变换与非线性变换
如果函数可以表达为ax+b的形式,就是线性的(在平面上画出来是一条直线),如果出现了指数(x^3)或者对数项(log(x))之类的,就是非线性的(在平面上画出来是一条曲线)翻译 2023-04-04 16:15:01 · 1099 阅读 · 1 评论 -
数据无量纲化 学习(1):三种常用数据缩放方法的对比:StandardScaler、MinMaxScaler、RobustScaler
数据的无量纲化可以是线性的,也可以是非线性的。线性的无量纲化包括中心化(Zero-centered或者Mean-subtract- 缩放到均值为0,方差为1(Standardization——StandardScaler()) - 缩放到0和1之间(Standardization——MinMaxScaler()) - 缩放到-1和1之间(Standardization——MaxAbsScaler()) - 缩放到0和1之间,保留原始数据的分布(Normalization——Normalizer())原创 2023-04-03 15:51:01 · 3463 阅读 · 0 评论