
特征工程
文章平均质量分 52
macan_dct
一直在思考怎样才能有意义地过这一生,却发现时间从来没让我这么去做
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
pandas时间序列相减,找出时间最接近的
两张表如下:表1:表2:需求: 按照表1的“用户唯一ID”,在表2 中找到对应的“客户风险等级”和“评估日期”难点: 每个“用户唯一ID”对对应不同“评估日期”日期下的“客户风险等级”,所以不能简单的使用pd.merge()解决方法: 双层循环,找到时间差小的“评估日期”作为当前用户的“客户风险等级”,同时为了体现是最近的信息,必须保证# 客户风险表## 因为每个用户在不同时期会有不同的风险等级,所以这里需要一个一个迭代,去匹配与当前交易日期最接近的评估日期下的风险等级custom_ri原创 2021-12-16 13:04:38 · 2042 阅读 · 0 评论 -
数据挖掘常用套路总结
数据挖掘常用套路总结前言一、特征抽取二、特征选择1、删除那些特征值相同的特征2、选择最佳特征功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程...原创 2021-12-09 16:42:53 · 360 阅读 · 0 评论 -
使用numpy将大数组存以TXT格式储到记事本中
有时候某个数组特别大,使用编译器不容看出每个像素的分布情况,这时候就可以将该数组完整的存到一个TXT中,在TXT中仔细观察。img2 = Image.open("G:/Program/HUAWEICloud/data/train/labels/382_7_33.png")i = np.asarray(img2)np.savetxt('iii', i, fmt='%s', delimiter=' ')...原创 2021-12-09 16:40:48 · 520 阅读 · 0 评论 -
特征工程——特征交叉、交叉特征、特征组合
特征工程——特征交叉、交叉特征、特征组合关于特征交叉的作用以及原理,我这里不进行详细描述,因为大佬们已经说得很清楚了,这里就附上几个连接:特征组合&特征交叉 (Feature Crosses)结合sklearn进行特征工程对于特征离散化,特征交叉,连续特征离散化非常经典的解释下面说怎样制作和交叉特征:多项式生成函数:sklearn.preprocessing.Polynomi...原创 2020-01-15 15:03:30 · 9919 阅读 · 0 评论 -
特征工程——特征选择
特征工程——特征选择特征选择实践特征重要性递归特征消除(RFE)SelecFromModel相关矩阵分析单变量选择套索回归注:该文来自微信公众号:Datawhale减少统计分析期间要使用的特征的数量可能会带来一些好处,例如:提高精度降低过拟合风险加快训练速度改进数据可视化增加我们模型的可解释性事实上,统计上证明,当执行机器学习任务时,存在针对每个特定任务应该使用的最佳数量的特征...原创 2020-01-14 16:04:23 · 1069 阅读 · 0 评论 -
问题记录——pd.read_hdf throws 'cannot set WRITABLE flag to True of this array'
问题记录——pd.read_hdf throws 'cannot set WRITABLE flag to True of this array'解决办法:降级numpy可以使用如下写入h5文件df.to_hdf('../testA.h5', 'df')但是无法读取h5文件a = pd.read_hdf("../testA.h5","df")a报错:~/.local/lib/py...原创 2020-01-13 15:23:19 · 1023 阅读 · 1 评论 -
pandas中diff用法
pandas中diff用法Series.diif(periods=1)计算Series中的元素与Series中另一个元素的差值(默认为上一行中的元素)。参数periods表示元素之间做差间隔举例:不指定做差间隔,即默认period=1,表示与前一行数据元素的差异>>> s = pd.Series([1, 1, 2, 3, 5, 8])>>> s....原创 2020-01-13 13:01:53 · 6119 阅读 · 0 评论 -
pandas中iloc和loc的区别和用法
pandas中iloc和loc的区别和用法from Pandas中loc和iloc函数用法详解(源码+实例)loc函数:通过行索引 “Index” 中的具体值来取行数据(如取"Index"为"A"的行)iloc函数:通过行号来取行数据(如取第二行的数据)本文给出loc、iloc常见的五种用法,并附上详细代码。利用loc、iloc提取行数据import numpy as npim...转载 2020-01-13 12:48:52 · 2965 阅读 · 0 评论 -
数据挖掘——为什么使用哑变量?哑变量有哪些作用?哪些情况应该使用哑变量?
数据挖掘——为什么使用哑变量?哑变量有哪些作用?哪些情况应该使用哑变量?直接给链接:https://www.cnblogs.com/sddai/p/8834373.html转载 2019-11-18 20:40:49 · 3549 阅读 · 0 评论 -
数据挖掘——特征选择
数据挖掘——特征选择前言特征选择1、sklearn.feature_selection.GenericUnivariateSelect——具有可配置策略的单变量特征选择器前言特征选择是数据挖掘人物中相当重要的一步,选择地好既能去除冗余特征减少不必要的计算,又能增加数据的表达性,增加算法的准确率。特征选择的方法很多,需要一个萝卜一个坑,所以需要找到最适合当前任务的特征选择方法。这篇介绍sklea...原创 2019-11-12 21:36:13 · 957 阅读 · 0 评论 -
机器学习——特征工程之K均值降维
机器学习——特征工程之K均值降维前言一、K-均值聚类(K-means)1、算法推导2、举例二、降维前言1、先直观解释什么是平面(线性子空间)和流形(非线性子空间):答:如果线性子空间是一张平展的纸,那么非线性流形的一个简单例子就是卷起来的纸,可以把流形看作一个可以以多种方式伸展和卷动的曲面,平面(线性子空间)可以推广为流形(非线性子空间)。2、为什么能够使用降维手段实现降维?(后面有图)...原创 2019-09-06 16:55:15 · 1405 阅读 · 1 评论 -
机器学习——特征工程之数据降维
机器学习——特征工程之数据降维:低维嵌入(一)前言低维嵌入(MDS)主成分分析(PCA)前言前面关于特征工程已经可以将大部分数据集转成期望的纯数字形式,但是有时数据维数太多会造成维数灾难,,所以需要降维。降维有几种方法:低维嵌入(MDS)、主成分分析(PCA)、线性判别分析(LDA)、核化线性降维(KPCA)、局部线性嵌入(LLE)、SVD。如果有可能,会一一说明(此部分内容大部分来自西瓜书)...原创 2019-09-05 19:01:35 · 2211 阅读 · 2 评论 -
机器学习——特征工程之分类变量
机器学习——特征工程之分类变量前言分类变量的编码1、one-hot 编码2、虚拟编码3、效果编码处理大型分类变量1、特征散列化2、分箱计数总结前言关于特征工程,已经对空值、数值型和文本数据的处理做了大致方法的说明,这篇对数据类型中的另一大重要部分——分类变量,作处理方法总结。声明:关于编程语法相关问题不会展开论述,本文只针对方法路线分类变量的编码先说明什么样的数据被称为分类变量:分类变量...原创 2019-08-30 16:05:43 · 3523 阅读 · 2 评论 -
机器学习——特征工程之数据相关性
机器学习——特征工程之数据相关性前言图表相关性协方差和协方差矩阵代码实现相关系数1、皮尔逊相关系数( Pearson correlation coefficient)2、斯皮尔曼相关性系数、秩相关系数(spearman correlation coefficient)3、Kendall Rank(肯德尔等级)相关系数信息熵和互信息前言在样本属性很多的数据集中,一定会存在一些与标签关系不那么强的...原创 2019-08-27 17:59:08 · 8241 阅读 · 0 评论 -
传统机器学习——特征工程之文本数据(三)
传统机器学习——特征工程之文本数据(特征缩放的效果:从词袋到tf-idf)(三)前言tf-idf:词袋的一种简单扩展tf-idf方法测试1、加载并清理数据集2、创建分类数据集3、使用tf-idf变换来缩放词袋4、使用逻辑回归进行分类5、使用正则化对逻辑回归进行调优前言词袋表示法简单易行,但存在明显缺点:有些单词会被过分强调:举例:还是用这篇文本为例,希望使用的方法能够强调两个主角“Emm...原创 2019-08-27 09:35:22 · 659 阅读 · 0 评论 -
传统机器学习——特征工程之文本数据(二)
传统机器学习——特征工程之文本数据(二)前言意义的单位:从单位、n元词到短语解析与分词通过搭配提取进行短语检测1、 基于频率的方法2、用于搭配提取的假设检验3、文本分块和词性标注前言该篇接前面《传统机器学习——特征工程之文本数据(一)》,继续总结文本数据的处理方法。声明:关于编程语法相关问题不会展开论述,本文只针对方法路线。意义的单位:从单位、n元词到短语主要目的是将字符串转换成一个单词...原创 2019-08-26 21:03:41 · 587 阅读 · 0 评论 -
传统机器学习——特征工程之文本数据(一)
传统机器学习——特征工程之文本数据(一)前言元素袋——将自然文本转成扁平向量词袋n元词袋使用过滤获取清洁特征停用词基于频率的过滤高频词罕见词词干提取总结前言对于文本数据,可以建立一个单独的研究领域,包括词袋模型(Bag of word)、TF-IDF(Term Frequency-Inverse Document Frequency)、主题模型(Topic Model)、词嵌入模型(Word ...原创 2019-08-23 11:20:54 · 1267 阅读 · 1 评论 -
传统机器学习——特征工程之数值处理
传统机器学习——特征工程之数值处理前言二值化区间量化(分箱)1.固定宽度分箱前言书接上文,前面两篇介绍了关于空值的处理,这篇开始用不同手段细化处理过程,本篇将会介绍数值型数据的二值化、区间量化(分箱)、对数变换、指数变换、特征缩放\归一化、交互特征、特征选择。(注:为了只操作在一个数据集上,有些原理在其上的应用可能比较生硬)声明:关于编程语法相关问题不会展开论述,本文只针对方法路线。二值...原创 2019-08-22 18:11:13 · 1200 阅读 · 2 评论 -
传统机器学习——特征工程之空值处理
传统机器学习——特征工程之空值处理前言空值处理——准备空值处理——字符型空值空值处理——数值型空值空值处理——变换前言前一篇介绍了清洗数据集中的异常值,之后便可以开始处理空值、字符型等数据类型。写在最前面,测试集和训练集最好concat一起,然后再进行数据处理。声明:关于编程语法相关问题不会展开论述,本文只针对方法路线。空值处理——准备首先要知道训练集中哪些列有空值,下面代码中的full...原创 2019-08-21 18:06:46 · 2775 阅读 · 0 评论