
特征工程
醉糊涂仙
这个作者很懒,什么都没留下…
展开
-
特征工程的意义
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。...转载 2018-07-19 08:22:25 · 3056 阅读 · 0 评论 -
one-hot encoding
1. one-hot 1.1 one-hot编码 什么是one-hot编码?one-hot编码,又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。举个例子,假设我们有四个样本(行),每个样本有三个特征(列),如图: 上图中我们已经对每个特征进行了普通的数字编码:我们的feature...转载 2018-07-19 15:50:16 · 4871 阅读 · 1 评论 -
独热编码(one-hot encoding)与哑编码
转载:http://f.dataguru.cn/thread-908867-1-1.html 在机器学习问题中,我们通过训练数据集学习得到的其实就是一组模型的参数,然后通过学习得到的参数确定模型的表示,最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中,我们会对训练数据集进行抽象、抽取大量特征,这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型(如...转载 2018-07-19 16:18:35 · 5761 阅读 · 0 评论 -
无量纲化
1,无量纲化使不同规格的数据转换到同一规格。 2,常见的无量纲化方法有标准化和区间缩放法。2.1**标准化**的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。 标准化需要计算特征的均值和标准差,即正态分布标准化,公式表达为: 使用preproccessing库的StandardScaler类对数据进行标准化的代码如下:from sklearn.datase...转载 2018-07-25 11:37:12 · 14506 阅读 · 0 评论 -
抓包工具(网络流量特征提取工具)
在互联网用户行为分析和异常行为检测的相关研究中,协议识别和特征提取是网络流量特征分析的重要技术手段。下面,本文为大家介绍几款常用的网络流量特征提取的工具。一、WireSharkWireShark是一款常见的网络数据包分析工具。该软件可以在线截取各种网络封包,显示网络封包的详细信息,也可分析已有的报文数据,如由 tcpdump/Win Dump、WireShark 等采集的报文数据。Wi...转载 2018-08-21 08:59:30 · 12714 阅读 · 0 评论