
Feature enginnering
张博208
知识搬运工
展开
-
Data profiling in Python
Data profiling is intended to help understand data leading to a better data prepping and data quality.Data profiling is the systematic up front analysis of the content of a data source, all the way fr...转载 2019-11-25 14:37:40 · 700 阅读 · 0 评论 -
四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps
引言机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据,也有一些降维算法处理高转载 2017-06-13 10:08:36 · 800 阅读 · 0 评论 -
关于特征提取和PCA VS LDA(linear Discriminant Analysis)
关于特征提取和PCA VS LDA(linear Discriminant Analysis)(一) (2015-05-24 12:57:25)转载▼标签: 机器学习 特征选择 lineardiscriministic分类: 计算机技术周六日看了两个很不错的营养贴,其一曰:linea转载 2017-07-04 16:53:35 · 849 阅读 · 0 评论 -
多维标度法(MDS)的Python实现
多维标度法(multidimensional scaling,MDS)是一种在低维空间展示“距离”数据结构的多元数据分析技术,是一种将多维空间的研究对象( 样本 或 变量 ) 简化到低维空间进行定位、分析和归类, 同时又保留对象间原始关系的数据分析方法。多维标度法与主成分分析(Principle Component Analysis,PCA)、线性判别分析(Linear Discrimin转载 2017-07-04 16:55:08 · 3728 阅读 · 0 评论 -
Learning Scikit-learn Machine Learning in Python
Chapter 4: Advanced Features - Feature Engineering and Selection%pylab inlineimport pandas as pdimport numpy as npimport matplotlib.pyplot as plttitanic = pd.read_csv('data/titanic.csv')print原创 2017-08-01 09:35:15 · 899 阅读 · 0 评论 -
Understanding Feature Engineering (Part 1) — Continuous Numeric Data
Introduction“Money makes the world go round” is something which you cannot ignore whether to choose to agree or disagree with it. A more apt saying in today’s digital revolutionary age would be “Dat...转载 2018-11-30 09:07:35 · 798 阅读 · 0 评论 -
Understanding Feature Engineering (Part 2) — Categorical Data
IntroductionWe covered various feature engineering strategies for dealing with structured continuous numeric data in the previous article in this series. In this article, we will look at another typ...转载 2018-11-30 09:22:38 · 691 阅读 · 0 评论 -
Understanding Feature Engineering (Part 3) — Traditional Methods for Text Data
IntroductionWe have covered various feature engineering strategies for dealing with structured data in the first two parts of this series. Check out Part-I: Continuous, numeric data and Part-II: Dis...转载 2018-11-30 09:23:55 · 509 阅读 · 0 评论 -
Understanding Feature Engineering (Part 4) — A hands-on intuitive approach to Deep Learning Methods
IntroductionWorking with unstructured text data is hard especially when you are trying to build an intelligent system which interprets and understands free flowing natural language just like humans....转载 2018-11-30 09:26:30 · 838 阅读 · 0 评论 -
白化whitening
https://blog.youkuaiyun.com/hjimce/article/details/50864602转载 2018-11-30 09:46:05 · 309 阅读 · 0 评论 -
使用sklearn做单机特征工程
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法转载 2017-06-08 09:54:56 · 289 阅读 · 0 评论 -
使用sklearn优雅地进行数据挖掘
目录1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特转载 2017-06-08 09:57:46 · 357 阅读 · 0 评论 -
连续特征离散化的方法
在FFM算法编码之前突然考虑到标准化的问题,例如大多数的属性都是0-1,出现的部分连续属性比如价格可能会很大,这些的情况会不会影响FFM的结果。首先在网上搜了一下,连续特征离散化处理起到的效果是什么,这里引用一下知乎的回答作者:严林链接:https://www.zhihu.com/question/31989952/answer/54184582来源:知乎著作权归作转载 2017-06-12 11:39:11 · 1294 阅读 · 0 评论 -
特征工程与模型调优
[-]一 数据选择清洗采样数据选择数据格式化数据清洗正负样本不均衡二 特征处理特征处理分类1数值型2类别型3时间型4文本型5统计型6组合型特征选择1做特征选择原因2特征选择与降维区别3特征选择方法特征处理流程图四模型调优过拟合欠拟合线性模型权重分析bad-case分析模型融合一. 数据选择/清洗/采样1.转载 2017-06-11 20:48:33 · 3478 阅读 · 0 评论 -
Discover Feature Engineering, How to Engineer Features and How to Get Good at It
Discover Feature Engineering, How to Engineer Features and How to Get Good at Itby Jason Brownlee on September 26, 2014 in Machine Learning Processhttp://machinelearningmastery.com/disco转载 2017-06-08 10:23:20 · 651 阅读 · 0 评论 -
机器学习中的特征选择问题
机器学习中,特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。强烈推荐一篇博文,说如何进行特征选择的:http://machinelearningmastery.com/discover-feature-engineering-ho转载 2017-06-08 10:19:46 · 1380 阅读 · 0 评论 -
特征工程(Feature Enginnering)学习记要
http://cowlet.org/2013/10/14/understanding-data-science-designing-useful-features-with-r.html 最近学习特征工程(Feature Enginnering)的相关技术,主要包含两块:特征选取(Feature Selection)和特征抓取(Feature Extraction)。这里记录一些要点,作为转载 2017-06-12 13:01:24 · 655 阅读 · 0 评论 -
特征工程 vs. 特征提取:比赛开始!
“特征工程”这个华丽的术语,它以尽可能容易地使模型达到良好性能的方式,来确保你的预测因子被编码到模型中。例如,如果你有一个日期字段作为一个预测因子,并且它在周末与平日的响应上有着很大的不同,那么以这种方式编码日期,它更容易取得好的效果。但是,这取决于许多方面。首先,它是依赖模型的。例如,如果类边界是一个对角线,那么树可能会在分类数据集上遇到麻烦,因为分类边界使用的是数据的正交分解(转载 2017-06-08 10:13:10 · 438 阅读 · 0 评论 -
特征工程以及特征选择的工程方法
关于特征工程(Feature Engineering),已经是很古老很常见的话题了,坊间常说:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。纵观Kaggle、KDD等国内外大大小小的比赛,每个竞赛的冠军其实并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作转载 2017-06-08 10:04:10 · 3417 阅读 · 0 评论 -
特征工程
[-]背景综述特征使用方案特征获取方案特征与标注数据清洗样本采样与样本过滤特征分类特征处理与分析特征归一化离散化缺省值处理特征降维特征选择特征选择-产生过程和生成特征子集方法特征选择有效性分析特征监控参考转 机器学习中的数据清洗与特征处理综述摘要本文转自美团技术团队(见转载链接),非转载 2017-06-08 10:02:31 · 394 阅读 · 0 评论 -
特征选择与特征学习
特征选择与特征学习在机器学习的具体实践任务中,选择一组具有代表性的特征用于构建模型是非常重要的问题。特征选择通常选择与类别相关性强、且特征彼此间相关性弱的特征子集,具体特征选择算法通过定义合适的子集评价函数来体现。在现实世界中,数据通常是复杂冗余,富有变化的,有必要从原始数据发现有用的特性。人工选取出来的特征依赖人力和专业知识,不利于推广。于是我们需要通过机器来学习和抽取特征,促进特征转载 2017-06-08 10:00:58 · 3897 阅读 · 0 评论 -
特征离散化系列(一)方法综述
一.互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种,但目标是一致的,训练结果对效果的影响是比较大,但是训练方法本身,对效果的影响却不是决定性的,因为训练的是每个特征的权重,权重细微的差别不会引起ctr的巨大变化。在训练方法确定后,对ctr预估起到决转载 2017-06-12 11:22:51 · 1679 阅读 · 0 评论