Scala
文章平均质量分 78
守猫de人
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
groupByKey 和reduceByKey 的区别
他们都是要经过shuffle的,groupByKey在方法shuffle之间不会合并原样进行shuffle,。reduceByKey进行shuffle之前会先做合并,这样就减少了shuffle的io传送,所以效率高一点。案例:object GroupyKeyAndReduceByKeyDemo { def main(args: Array[String]): Unit = {原创 2017-07-14 10:53:28 · 5253 阅读 · 1 评论 -
scala读取HDFS文件,每次读取一定的字节数
用scala读取一个只有字符的文件,该文件是已经清洗完的数据,有规律,一行是一条数据。现在的需求是一次读取文件中的一部分,依次读取完。如果有疑问,或者找出错误的解决方案,请和我联系。一起研究讨论原创 2017-07-26 11:00:22 · 4421 阅读 · 2 评论 -
scala读取HDFS上的文件,每次读取一行
用scala读取一个只有字符的文件,该文件是已经清洗完的数据,有规律,一行是一条数据。现在的需求是一次读取文件中的一部分,依次读取完。之前用字节流偶尔出现乱码,最后改成一次读取一行了。import java.io.{BufferedReader, InputStreamReader}import org.apache.hadoop.fs.FSDataInputStream/**原创 2017-07-26 11:14:55 · 8130 阅读 · 3 评论 -
Spark计算结果继续追加在HDFS目录下,不会覆盖之前的文件
由于工作需要,我用scala实现在已将有的目录下面继续写入文件。需要重写MultipleTextOutputFormat这个类,具体的请看下面代码,需要交流可以联系我import java.text.SimpleDateFormatimport java.util.Dateimport org.apache.hadoop.fs.{FileSystem, Path}import or原创 2017-07-11 13:50:33 · 7108 阅读 · 3 评论 -
Container exited with a non-zero exit code 1 Failing this attempt. Failing the application.
最近在使用spark on yarn模式提交任务,下面是我测试的案例--提交命令spark-submit --master yarn-cluster --class com.htlx.sage.bigdata.spark.etl.Application --driver-memory 1g --num-executors 2 --executor-memory 2g --executor-core...原创 2018-04-24 14:14:11 · 4106 阅读 · 2 评论 -
如何配置sbt的build.sbt使得编译时将依赖包也打包进去
最近在使用spark on yarn模式提交任务,下面是我测试的案例--提交命令spark-submit --master yarn-cluster --class com.htlx.sage.bigdata.spark.etl.Application --driver-memory 1g --num-executors 2 --executor-memory 2g --executor-core...原创 2018-04-24 14:20:00 · 8233 阅读 · 2 评论
分享