
spark
文章平均质量分 66
Wintersee
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark计算相关性系数(皮尔森、斯皮尔曼、卡方检验)
皮尔森、斯皮尔曼(pearson spearman): import spark.implicits._ import org.apache.spark.mllib.stat.Statistics import spark.sql val df = sql(s"select * from xxxx ") val columns = List("xx",原创 2017-09-10 19:44:56 · 6380 阅读 · 0 评论 -
Hadoop Hive Spark hive建表语句对表在hdfs上存储的file或block数量、以及后续spark读文件跑模型的影响
Hadoop Hive Spark hive建表语句对表在hdfs上存储的file或block数量、以及后续spark读文件跑模型的影响 hive语句建的表在hdfs上存储的file个数( 即`fs -ls`命令展示的items个数)等于语句执行时候的reducer个数,而spark又是根据file的读取文件。所以若数据表的数据量过大而文原创 2017-10-31 15:11:42 · 2280 阅读 · 0 评论