
机器学习之独热编码
iken_g
肝肝肝
展开
-
为什么要独热编码、优缺点、
一、为什么要独热编码?独热编码(哑变量 dummy variable)是因为大部分算法是基于向量空间中的度量来进行计算的,为了使非偏序关系的变量取值不具有偏序性,并且到圆点是等距的。使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编码后,编码后的特征,...原创 2019-04-19 21:47:45 · 21554 阅读 · 1 评论 -
电影小数据分析
一、预处理先给源码git下载:https://github.com/linkunxin/filmRvenuePred或者网盘下载:1、数据初步处理先来看一下数据集样子然后总览一下数据情况( info() ),在此之前,我们往往将测试集和训练集先合并,统一处理后再分开,就不用处理两遍了。import pandas as pdimport numpy as npimport mat...原创 2019-07-31 21:02:26 · 2631 阅读 · 0 评论