
机器学习
大数据-酷峰中行
大数据分析挖掘
展开
-
Spark2 ML包,机器学习示例数据Affairs
// affairs:一年来婚外情的频率 // gender:性别 // age:年龄 // yearsmarried:婚龄 // children:是否有小孩 // religiousness:宗教信仰程度(5分制,1分表示反对,5分表示非常信仰) // education:学历 // occupation:职业(逆向编号的戈登7种分类) // rati原创 2016-11-30 19:45:50 · 858 阅读 · 0 评论 -
Spark2 feature Bucketizer之将连续数据离散化到指定的范围区间
import org.apache.spark.ml.feature.Bucketizer// Double.NegativeInfinity:负无穷;Double.PositiveInfinity:正无穷 // 分为10个组:[负无穷,-5),[-5,-4),[-4,-3.5),[-3.5,-0.5),[-0.5,0),[0,0.5),[0.5,2),[2,3.5),[3.5,4),[4,正无穷原创 2016-11-30 21:29:11 · 5486 阅读 · 0 评论 -
Spark2 机器学习之决策树分类Decision tree classifier
分类决策树代码import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.Datasetimport org.apache.spark.sql.Rowimport org.apache.spark.sql.DataFrameimport org.apache.spark.sql.Columnimport org.a原创 2016-11-30 19:50:58 · 4642 阅读 · 0 评论 -
Spark2 DataFrameStatFunctions探索性数据统计分析
相关系数val df = Range(0,10,step=1).toDF("id").withColumn("rand1", rand(seed=10)).withColumn("rand2", rand(seed=27))df: org.apache.spark.sql.DataFrame = [id: int, rand1: double ... 1 more field]df.stat.co原创 2016-12-01 16:47:01 · 1292 阅读 · 0 评论