
spark
BedrockOfAI
这个作者很懒,什么都没留下…
展开
-
Spark 处理中文乱码问题(UTF-8编码)
Spark 处理中文乱码问题(UTF-8编码)2015年12月03日 16:14:24 amber_amber 阅读数:19878 标签: spark编码汉字UTF-8 更多个人分类: spark学习分享问题场景要用spark处理一大堆微信日志数据,日志存放在HDFS上,是xml格式,里面有大量的中文。用scala + java实现了xml的处理逻辑,其中有一步是要获取xml中的一...转载 2018-11-08 17:26:46 · 8062 阅读 · 0 评论 -
Spark容错机制
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/dengxing1234/article/details/73613484容错方式容错指的是一个系统在部分模块出现故障时还能否持续的对外提供服务,一个高可用的系统应该具有很高的容错性;对于一个大的集群系统来说,机器故障、网络异常等都是很常见的,Spark这样的大型分布式计算集群提供了...转载 2019-06-04 18:30:20 · 204 阅读 · 0 评论 -
Spark 窄依赖、款依赖
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/Suubyy/article/details/81190460窄依赖 定义:窄依赖英文为Narrow Dependency。在Spark中,我们具体操作的是RDD数据,而RDD是由多个Partition组成的,所以实际上我们真正操作的是Partition上的数据。当我们操作Parti...转载 2019-06-04 17:04:56 · 272 阅读 · 0 评论 -
Spark on Yarn的运行原理
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/u013573813/article/details/69831344一、YARN是集群的资源管理系统1、ResourceManager:负责整个集群的资源管理和分配。2、ApplicationMaster:YARN中每个Application对应一个AM进程,负责与RM协商获取资源...转载 2019-06-04 16:12:16 · 210 阅读 · 0 评论 -
spark窗口函数简单实现
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/zhangfengBX/article/details/80659612Window函数,可以统计最近一段时间的数据,使用Window函数加载成DStream:DStream.window("窗口长度","滑动间隔")reduceByKeyAndWindow窗口长度:必须是B...转载 2019-05-23 18:26:44 · 549 阅读 · 0 评论 -
spark中的cache() persist() checkpoint()之间的区别
cache()与persist():会被重复使用的(但是)不能太大的RDD需要cache。cache 只使用 memory,写磁盘的话那就叫 checkpoint 了。 哪些 RDD 需要 checkpoint?运算时间很长或运算量太大才能得到的 RDD,computing chain 过长或依赖其他 RDD 很多的 RDD。 实际上,将 ShuffleMapTask 的输出结果存放...转载 2019-05-23 18:20:51 · 246 阅读 · 0 评论 -
spark中文文档
原文链接:http://www.apachecn.org/bigdata/spark/268.htmlApache Spark™ 是一个快速的, 用于海量数据处理的通用引擎.官方网址:http://spark.apache.org中文文档:http://spark.apachecn.org花了大概两周左右的时间,在原来Spark 2.0.2 中文文档版本的基础上,终于迭代出...转载 2019-05-12 20:38:54 · 414 阅读 · 0 评论 -
spark-submit 详细参数说明
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/qq_29303759/article/details/82659185主要参考:https://www.cnblogs.com/weiweifeng/p/8073553.html在spark命令行输入./bin/spark-submit --help可以看到spark-sub...转载 2019-05-12 18:58:02 · 5963 阅读 · 0 评论 -
spark读取日志中文乱码,日志是GBK类型
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/u012893747/article/details/72844058由于spark在读取文件时的默认编码格式为utf-8,所以spark在处理gbk格式的文件时会出现乱码问题,以下代码则可以解决这一问题import org.apache.spark.SparkConfimp...转载 2019-05-21 12:30:41 · 1091 阅读 · 0 评论 -
解决scalac Error: bad option -make:transitive
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/qq_24309787/article/details/80924831关闭idea打开项目所在位置并进入 .idea修改scala_compiler.xml文件删除掉参数行包含-make:transitive保存后退出编辑并重启idea打开项目...转载 2019-05-10 15:16:30 · 245 阅读 · 0 评论 -
spark-spark-SparkSQL的3种Join实现(转)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/hjw199089/article/details/64922729 转载自:http://blog.youkuaiyun.com/asongoficeandfire/article/details/53574034 引言 Join是SQL语句中的常用操作,良好的表结构能够将数据分散...转载 2018-11-21 16:42:50 · 171 阅读 · 0 评论 -
Exception in thread "main" java.lang.Exception: When running with master 'yarn' either
Exception in thread "main" java.lang.Exception: When running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.上面中的错误是HADOOP_CONF_DIR和YARN_CONF_DIR没有设...转载 2019-06-27 16:26:51 · 1140 阅读 · 0 评论