
spark
刀砍磁感线
这个作者很懒,什么都没留下…
展开
-
emr+hadoop2.4+spark1.2 class not found com.hadoop.compression.lzo.LzoCodec
aws 云上的 spark on yarn 模式下,hadoop集群的core-site.xml有:io.compression.codec.lzo.classcom.hadoop.compression.lzo.LzoCodecspark on yarn会默认使用集群的编码方式,但是相关的jar包不会自动的添加,需要自己配置,在 $spark_home/conf/s原创 2015-04-02 16:00:26 · 2708 阅读 · 0 评论 -
spark 目录通配符
在以spark分析栈进行数据分析计算时,经常需要在多目录中选择一定数目的目录或文件。此时就需要用到通配符,使程序更加简洁,代码更加优美。一般目录选择情况,及其方法: n选1 :目录或文件夹唯一,直接写全目录。如:hdfs://192.168.0.1:9000/spark/app/xxxx 。 n选m : 使用通配符 [] 。如:hdfs://192.168.0.1:9000/s原创 2015-06-19 11:04:53 · 3967 阅读 · 0 评论 -
spark OutOfMemoryError (GC overhead limit exceeded)
spark 执行报告异常:15/04/17 04:15:57 INFO scheduler.TaskSetManager: Lost task 471.0 in stage 1.0 (TID 459) on executor ip-172-1-1-2.cn-north-1.compute.internal: java.lang.OutOfMemoryError (GC overhead lim原创 2015-06-05 14:45:47 · 3894 阅读 · 0 评论 -
scala 在 spark 中操作 hdfs
问题场景:在编写spark程序时,输出目录存在会造成spark任务失败。处理方法有2种,第一利用脚本方式,在主任务之上加层处理,第二,在spark任务中先处理掉目录。spark支持的可编程语言有Scala、Python、Java。其中Python无需编译打包,十分方便,但是貌似没有处理hdfs系统的Python接口,而Python的执行脚本语言是异步于主任务的,换言之,主任务与脚本任务的执行完成顺原创 2015-07-08 10:00:47 · 7623 阅读 · 0 评论 -
scala 随机数函数截取 spark 数据集
scala代码:scala.math.abs(scala.util.Random.nextInt())%27scala.math.abs:绝对值scala.util.Random.nextInt:随机数应用,截取spark数据集:val data = sc.textFile("hdfs://localhost:9000/ModelData/*").f原创 2015-07-14 17:33:06 · 4641 阅读 · 0 评论 -
spark1.2 使用breeze 的 netlib.BLAS 异常
使用spark1.2 的 standalone 模式运行使用breeze的任务,报如下警告:15/07/28 02:49:32 WARN netlib.BLAS: Failed to load implementation from: com.github.fommil.netlib.NativeSystemBLAS15/07/28 02:49:32 WARN netlib.BLAS: F原创 2015-07-29 20:06:58 · 6616 阅读 · 2 评论 -
使用Spark ALS实现协同过滤
转自:http://blog.javachen.com/2015/06/01/how-to-implement-collaborative-filtering-using-spark-als.html本文主要记录最近一段时间学习和实现Spark MLlib中的协同过滤的一些总结,希望对大家熟悉Spark ALS算法有所帮助。更新:【2016.06.12】Spar转载 2015-08-12 10:22:09 · 6258 阅读 · 1 评论 -
spark 多目录输出
/** * 多目录输出 */class RDDMultipleTextOutputFormat extends MultipleTextOutputFormat[Any, Any] {//指定该条记录的输出文件 override def generateFileNameForKeyValue(key: Any, value: Any, name: String): Str原创 2016-09-23 14:34:05 · 3975 阅读 · 0 评论