
机器学习实战
文章平均质量分 50
飞奔的帅帅
马云给你还花呗
展开
-
划分数据集之前one-hot,还是划分之后one-hot
在处理类别型特征时,有时需要进行one-hot在进行模型训练时,需要把数据划分train和test,类别型数据是在划分之前one-hot,还是划分之后?在划分之前做one-hot整体one-hot,train和test 不会出现某个值无法编码的问题。train和test的维度都是一致的,可以做训练和测试。但,如果给你一份新的数据集,在类别型数据里出现了新的值,该怎么表示?划...原创 2019-12-04 17:03:18 · 1416 阅读 · 1 评论 -
python3实现kmeans算法
1.定义计算距离的函数def distEclud(vecA,vecB): # vecA,vecB是数组形式,列表形式不行 return sum((vecA-vecB)**2)**0.5vecA,vecB是1行n列的形式,也就是一个样本。欧式距离的计算过程:两数组各个元素相减,然后各个元素平方,再求和,最后取平方根验证:a = np.array([1,1,...原创 2018-11-09 16:37:22 · 7982 阅读 · 1 评论 -
python3 knn算法实现
1 代码实现import numpy as npdef knn_classify(inx,train,labels,k): row = np.shape(train)[0] #训练集有多少行 test = np.tile(inx,[row,1]) # 把一个样本复制row行 dis = test-train # 数组各个元素对应相减 dis = dis**2...原创 2018-11-08 15:57:27 · 688 阅读 · 0 评论