- 博客(8)
- 收藏
- 关注
原创 Spark2 DataFrameStatFunctions探索性数据统计分析
相关系数val df = Range(0,10,step=1).toDF("id").withColumn("rand1", rand(seed=10)).withColumn("rand2", rand(seed=27))df: org.apache.spark.sql.DataFrame = [id: int, rand1: double ... 1 more field]df.stat.co
2016-12-01 16:47:01
1286
原创 APP数据分析体系
APP的数据指标体系主要分为五个维度:用户规模与质量、参与度分析、渠道分析、功能分析及用户属性分析。 1.用户规模和质量维度主要是分析用户规模指标,这类指标一般为产品考核的重点指标; 2.参与度分析主要分析用户的活跃度; 3.渠道分析主要分析渠道推广效果; 4.功能分析主要分析功能的活跃情况、页面访问路径以及转化率; 5.用户属性分析主要分析用户特征。一、用户
2016-12-01 13:54:31
1388
原创 Spark2 加载保存文件,数据文件转换成数据框dataframe
hadoop fs -put /home/wangxiao/data/ml/Affairs.csv /datafile/wangxiao/ hadoop fs -ls -R /datafile drwxr-xr-x - wangxiao supergroup 0 2016-10-15 10:46 /datafile/wangxiao -rw-r--r-- 3 wangx
2016-12-01 09:57:26
1285
原创 Spark2 DataSet聚合操作
import org.apache.spark.sql.functions._data.groupBy("gender").agg(count($"age"),max($"age").as("maxAge"), avg($"age").as("avgAge")).show +------+----------+------+------+
2016-12-01 09:24:31
828
原创 Spark2 feature Bucketizer之将连续数据离散化到指定的范围区间
import org.apache.spark.ml.feature.Bucketizer// Double.NegativeInfinity:负无穷;Double.PositiveInfinity:正无穷 // 分为10个组:[负无穷,-5),[-5,-4),[-4,-3.5),[-3.5,-0.5),[-0.5,0),[0,0.5),[0.5,2),[2,3.5),[3.5,4),[4,正无穷
2016-11-30 21:29:11
5484
原创 Spark2 机器学习之决策树分类Decision tree classifier
分类决策树代码import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.Datasetimport org.apache.spark.sql.Rowimport org.apache.spark.sql.DataFrameimport org.apache.spark.sql.Columnimport org.a
2016-11-30 19:50:58
4637
原创 Spark2 ML包,机器学习示例数据Affairs
// affairs:一年来婚外情的频率 // gender:性别 // age:年龄 // yearsmarried:婚龄 // children:是否有小孩 // religiousness:宗教信仰程度(5分制,1分表示反对,5分表示非常信仰) // education:学历 // occupation:职业(逆向编号的戈登7种分类) // rati
2016-11-30 19:45:50
855
原创 游戏大数据分析--游戏玩家
游戏玩家1 新增玩家1.1 新增设备激活:当日新增加的激活设备量。新增玩家账户:当日新增加的玩家帐户数1.2 玩家转化:安装游戏的玩家中(即激活设备)有注册账户的玩家比例,1人多次注册,只记1次有效转化。例如:共5台激活设备,其中3台每人1次注册,1台没有注册,1台注册了3次账户,共注册了6个不同账户;注册转化率=(3+1)/5=80%,而不是用6次注册/5台设备1.3 单设备账户
2016-11-30 16:48:14
6987
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人