今天主要是对原来的代码增加新的统计模块,而且尝试做Kmeans+KNN 的结合。
1、Kmeans 模型 能对训练集样本进行聚类,并且生成对应的标签数据。
KNN对训练集的样本和标签进行fit ,然后对测试集进行predict类群处理。
本身KNN算法是一个超参数函数,可以通过调优的。
2、基于Kmeans模型进行聚类,推荐,同时,使用二分类模型进行准入判断,形成二阶段的模型构造。
3、对于少数据量而不平衡类问题,需要造数据的话,可以通过增加噪音来实现样本量的补足,但是度需要把握好。
今天是周五,一周又过去了,感觉自己却没有多大长进,确实需要好好地反思自我,惶恐之,学习之。