
机器学习
Ron_Lee_sdj
生信代码狗,科研界的混子
展开
-
R语言中的one-hot编码实战
当我们在使用xgboost或者lightgbm等机器学习包时,这些包的输入数据默认都是全数值形式的矩阵,但是我们的原始数据中有可能出现分类变量等非数值型变量,那么如何使用R放入数据包进行one-hot编码是一件很重要的事情我们使用ggplot2中的diamonds数据集和R自带的model.matrix函数。观察diamonds数据集:Classes ‘tbl_df’, ‘tbl’ and 'da...原创 2018-06-22 12:27:13 · 11664 阅读 · 4 评论 -
Kmeans算法的R语言代码实现
Kmeans算法是机器学习里面用的相当多的一种聚类算法,属于半监督学习的范畴,如果你对数据科学很熟悉的话,R和Python都有相应的封装函数,这篇文章带你从R自带函数中解脱出来,进一步探索kmeans算法的内部并用R原生代码进行实现!Kmeans算法分为如下几个步骤:确定中心点的数量k,随即从数据中选取k个数据 计算数据点到每个中心点的距离(一般为欧式距离),确定每个点归类到最近点的类当...原创 2018-12-27 21:18:06 · 6055 阅读 · 1 评论