
spark
caodaoxi
这个作者很懒,什么都没留下…
展开
-
Can't find libcurl or curl/curl.h (RuntimeError)
sudo apt-get install libcurl3 libcurl3-gnutls libcurl4-openssl-dev原创 2013-12-31 00:27:37 · 1589 阅读 · 0 评论 -
RDD
RDD是什么东西?在Spark中有什么作用?如何使用? 1、RDD是什么 (1)为什么会产生RDD? 传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法 (2)RDD的具体描述 RDD(弹性数据集)是Spark提供的最重要的抽象的概念,它是一种有容转载 2014-01-01 22:50:56 · 2980 阅读 · 0 评论