
机器学习-分类
Muzi_Water
这个作者很懒,什么都没留下…
展开
-
Win10+IDEA+Scala+Spark2.1.0官方实例——朴素贝叶斯
从Spark 2.0开始,Spark中的基于RDD的spark.mllib包已进入维护模式,现在Spark主要的机器学习API是基于DataFrame的spark.ml包,基于RDD的API将在Spark3.0之后移除,(DataFrame API支持的语言有Scala,Java,Python和R。Dataset API 支持Scala和Java。 Python不支持Dataset API)。所...翻译 2019-04-22 16:24:12 · 744 阅读 · 0 评论 -
机器学习——样本不均衡的处理方式
本片博文主要是对机器学习的分类问题中存在的样本不均衡情况的处理说明,具体如下:当对数据进行分类训练的时候,有时候会出现原始数据样本不均衡的情况,也就是正例与反例样本数量存在差异。此时为了能够更好的训练模型,需要对原始数据进行“过采样”或“下采样”来使得训练数据分布均衡。过采样:让正反例样本一样多,通常是对较少的数据进行数据生成,让其与较多的数据一样多。下采样:让正反例样本一样少,通常是对较多...原创 2019-01-07 14:19:40 · 2091 阅读 · 0 评论