partition

最新推荐文章于 2025-08-09 00:09:41 发布

weixin_33897722

最新推荐文章于 2025-08-09 00:09:41 发布

阅读量76

点赞数

CC 4.0 BY-SA版权

文章标签：大数据人工智能

原文链接：http://www.cnblogs.com/ylx1214/p/4554832.html

机器学习一般算法的输入是训练集和测试集，通常来说是(label, key : value)这样的序对。对于这种输入，直接使用SparkContext提供的textFile()接口就好了，MLlib内部会转换成LabeledPoint类。

分布式数据并行环境下，保持数据的本地性是非常重要的内容，事关分布式系统性能高下。要想更好的了解Spark是怎么运作的，输入也许是很重要的一个环节。举一个小例子，你或许有心情在一台不错的机器上使用Spark处理100GB的数据。按理说这不应算作多大的应用场景，但如果不仔细调整一下你的输入的话，你会发现Spark甚至会在这台机器上切分上千个partition来并行处理这份数据。而这上千个partition随便来一个shuffle造成的百万量级的shuffle数据交换会把Spark性能拖死。实际上，调用Hadoop的API访问本地磁盘的默认块大小为32MB，据其分块策略，当然会产生上千个partition。另外，如果你本地是一堆小文件，如LDA的语料库，你会发现Spark甚至会为每个文件分配一个或多个 partition！所以，这下你应该知道为什么有时简单的Spark程序也会非常慢了吧。

转载于:https://www.cnblogs.com/ylx1214/p/4554832.html