
Spark
ljh0302
软件研发工程师
后端Java,前端Angular
展开
-
使用Spark读写CSV格式文件
转载地址:http://blog.youkuaiyun.com/zy_zhengyang/article/details/49382715CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的),其文件以纯文本形式存表格数据(数字和文本)。CSV文件由任意数目的记录组成,记录转载 2016-07-11 11:07:01 · 3081 阅读 · 0 评论 -
Spark中repartition和coalesce的用法
转载地址:http://blog.youkuaiyun.com/u011981433/article/details/50035851repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T]他们两个都是RDD的分区进行重新划分,repartition只是coale转载 2016-07-11 15:43:04 · 1299 阅读 · 0 评论 -
Spark 中 map 与 flatMap 的区别
转载地址:http://www.bkjia.com/yjs/927704.html通过一个实验来看Spark 中 map 与 flatMap 的区别。步骤一:将测试数据放到hdfs上面hadoopdfs -put data1/test1.txt /tmp/test1.txt该测试数据有两行文本:步骤二:在Spark中创建一个RDD来读转载 2016-06-30 10:40:18 · 1397 阅读 · 0 评论