
机器学习
Wanhe.Qin
这个作者很懒,什么都没留下…
展开
-
sklearn几种交叉验证的比较
1 sklearn.model_selection.train_test_split()将数据集划分为训练集train和测试集test,再调用score方法在test数据集中评估,默认train : test = 3:1。缺点是数据集只划分一次,具有偶然性.链接: 文档.示例:from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression as lr原创 2020-06-14 18:02:37 · 1114 阅读 · 0 评论 -
哑变量(Dummy Variable)、独热编码(one-hot Encoding)、label-encoding归纳
1 概念当某特征具有k个属性值,那么:哑变量(虚拟变量)—— 具有k-1个二进制特征,基准特征将被忽略独热编——:具有k个特征二进制特征姓名年纪小明童康康青迈克中哑变量/虚拟变量姓名童青小明10康康01迈克00独热编码姓名童青中年小明100康康010迈克0012 优缺点1 哑变量:从k-1个变量推论第k个类别,不太直观,但不冗余;2 独热原创 2020-06-12 11:37:38 · 9168 阅读 · 0 评论