
Spark
文章平均质量分 69
kwu_ganymede
Spark高级工程师
展开
-
Kafka基础操作命令
Kafka基础操作命令原创 2017-04-11 14:21:45 · 1099 阅读 · 0 评论 -
Java\Scala\Python三种语言求解经典编程实例(二)—— 尾数前移
Java\Scala\Python三种语言求解经典编程实例(二)—— 尾数前移原创 2016-05-28 16:42:33 · 1009 阅读 · 0 评论 -
Java\Scala\Python三种语言求解经典编程实例(一)——求水仙花数
Java\Scala\Python三种语言求解经典编程实例(一)——求水仙花数原创 2016-05-28 16:22:52 · 4159 阅读 · 0 评论 -
Spark性能优化:JVM参数调优
Spark性能优化:JVM参数调优年轻代:主要是用来存放新生的对象。老年代:主要存放应用程序中生命周期长的内存对象。Spark中,垃圾回收调优的目标就是,只有真正长时间存活的对象,才能进入老年代,短时间存活的对象,只能呆在年轻代。不能因为某个Survivor区域空间不够,在Minor GC时,就进入了老年代。从而造成短时间存活的对象,长期呆在老年代中占据了空间,而且Full GC时要回收大量的短时间存活的对象,导致Full GC速度缓慢。原创 2016-05-02 23:42:42 · 20508 阅读 · 2 评论 -
Spark-Sql创建多数据源Join实例——涉及关系库数据源
Spark-Sql创建多数据源Join实例1、Spark-Sql数据来源有多种,Hive,Kakfa,RDD及关系库等。2、注册临时表与关系库映射表的join实现,核心思想就是,Hive和关系库的数据,分别加载出来做成dataframe,然后分别注册成临时表。原创 2016-05-26 16:56:55 · 6596 阅读 · 0 评论 -
Spark-1.5/1.6的新特性
Spark-1.5及1.6的新特性原创 2016-05-02 23:02:41 · 2004 阅读 · 0 评论 -
详解Scala的Option的模式匹配
详解scala的Option的模式匹配原创 2016-05-12 15:22:08 · 4439 阅读 · 0 评论 -
详解大数据数据仓库分层架构
大数据数据仓库是基于HIVE构架的数据仓库,分布文件系统为HDFS,资源管理为Yarn,计算引擎主要包括MapReduce/Tez/Spark等,分层架构如下:原创 2016-05-10 23:06:08 · 39851 阅读 · 2 评论 -
查看Spark-Master节点与Slaves节点的网络交互
关于Spark提供的交互端口,默认情况下页面监控的端口为8080,交互的端口为7077。如何查看主节点的端口与的交互与链接:原创 2016-05-10 10:42:50 · 6736 阅读 · 0 评论 -
Spark-Sql版本升级对应的新特性汇总
Spark-Sql版本升级对应的新特性汇总原创 2016-04-01 17:06:18 · 1077 阅读 · 0 评论 -
Spark版本升级后部署路径的调整
Spark版本升级后部署路径的调整原创 2016-04-28 10:33:33 · 991 阅读 · 0 评论 -
sparkR集群启动脚本的封装
sparkR默认是以单机方式运行的。实现sparkR的集群启动,需要指定master地址,占用内存、CPU,及UI端口等,这对分析人员来说是比较麻烦的。如何实现对其启动的封装,方便分析人员来使用:原创 2015-10-13 13:40:44 · 874 阅读 · 0 评论 -
基于CDH5.4的Spark1.4.1下SparkR的部署
基本CDH5.4的Spark1.4.1下SparkR的部署,R与Spark的结合为数据分析提供高效的解决方案,Hadoop的中hdfs为数据分析提供分布式存储。本文介绍集成安装的步骤:原创 2015-10-13 13:32:24 · 1155 阅读 · 0 评论 -
[解决]Spark运行中java.net.UnknownHostException: nameservice1的异常
解决Spark运行中java.net.UnknownHostException: nameservice1的异常,nameservice1是配置hdfs中用到的HA,在执行spark程序时出现 java.net.UnknownHostException: nameservice1异常,找到正确的路径。原创 2015-10-13 13:43:57 · 13179 阅读 · 1 评论 -
基于spark1.4.1的sparkR的实例操作
基于spark1.4.1的sparkR的实例操作,sparkR的操作基本语法与R一致,其中添加了rJava、rhdfs、SparkR的依赖库的支持。原创 2015-10-13 13:42:01 · 1038 阅读 · 0 评论 -
基于sparksql调用shell脚本执行SQL
基于sparksql调用shell脚本执行SQL,sparksql提供了类似hive中的 -e , -f ,-i的选项原创 2015-10-13 13:23:08 · 5487 阅读 · 0 评论 -
基于CDH5集群配置snappy压缩
基于CDH5集群配置snappy压缩原创 2015-11-04 15:36:29 · 2600 阅读 · 0 评论 -
Spark-MLlib机器学习相关的数据类型
Spark-MLlib机器学习相关的数据类型原创 2016-04-21 00:29:18 · 921 阅读 · 0 评论 -
查看Spark进程的JVM配置及内存使用
如何查看正在运行的Spark进程的JVM配置以及分代的内存使用情况,是线上运行作业常用的监控手段:原创 2016-05-06 11:41:48 · 10568 阅读 · 0 评论 -
Scala语法中的协变与逆变
Scala语法中的协变与逆变原创 2016-12-21 22:52:15 · 1207 阅读 · 0 评论 -
Spark应用程序的测试与发布
Spark应用程序的测试与发布原创 2016-02-16 14:44:50 · 1028 阅读 · 0 评论 -
基于IntelliJ IDEA开发Spark的Maven项目——Scala语言
基于IntelliJ IDEA开发Spark的Maven项目——Scala语言 Maven管理项目在JavaEE普遍使用,开发Spark项目也不例外,而Scala语言开发Spark项目的首选。因此需要构建Maven-Scala项目来开发Spark项目,本文采用的工具是IntelliJ IDEA 2016,IDEA工具越来越被大家认可,开发java, python ,scala 支持都非常好原创 2016-07-05 16:41:52 · 30161 阅读 · 4 评论 -
IntelliJ Idea 常用快捷键列表
IntelliJ Idea 常用快捷键列表转载 2016-07-05 17:55:17 · 736 阅读 · 0 评论 -
IDEA启动配置列出项目列表
IDEA启动配置列出项目列表File -> Settings -> SystemSettings 去掉 Reopen last project on startup 的勾即可原创 2016-07-06 10:11:06 · 5149 阅读 · 0 评论 -
Spark-MLlib实例——决策树
Spark-MLlib实例——决策树原创 2016-07-26 23:14:35 · 7531 阅读 · 1 评论 -
Spark-MLlib实例——逻辑回归
Spark-MLlib实例——逻辑回归,应用于二元分类的情况,这里以垃圾邮件分类为例,即是否为垃圾邮件两种情况。原创 2016-04-17 23:58:36 · 5062 阅读 · 0 评论 -
基于Cloudera Manager5.7配置MapReduce与HiveOnSpark压缩
基于Cloudera Manager5.7配置MapReduce与HiveOnSpark压缩原创 2016-07-15 18:04:41 · 1530 阅读 · 0 评论 -
Spark-Streaming处理Kafka数据——封装成对象处理
Spark-Streaming处理Kafka数据格式基本上都是字符串类型的,我们如何封装成对象处理呢原创 2016-05-22 23:09:54 · 2857 阅读 · 1 评论 -
基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程
基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程原创 2016-02-28 22:28:33 · 18264 阅读 · 5 评论 -
Java\Scala\Python三种语言求解经典编程实例(四)—— 求10000以内的自守数
Java\Scala\Python三种语言求解经典编程实例(四)—— 求10000以内的自守数原创 2016-06-07 23:21:29 · 2704 阅读 · 0 评论 -
Spark配置文件详解
Spark配置文件详解原创 2016-03-19 13:29:30 · 5029 阅读 · 1 评论 -
Spark集群启动命令汇总
Spark集群启动命令汇总原创 2016-05-18 17:24:24 · 14395 阅读 · 1 评论 -
Spark-Sql之DataFrame实战详解
在Spark-1.3新加的最重要的新特性之一DataFrame的引入,很类似在R语言中的DataFrame的操作,使得Spark-Sql更稳定高效。原创 2016-05-07 15:17:21 · 6372 阅读 · 0 评论 -
Hadoop经典案例Spark实现(七)——日志分析:分析非结构化文件
Hadoop经典案例Spark实现(七)——日志分析:分析非结构化文件原创 2016-05-17 23:09:18 · 19172 阅读 · 1 评论 -
Spark作业优化总结
Spark作业优化总结,针对Spark-Streaming作业,针对 Shuffle的优化原创 2016-04-26 00:00:34 · 1959 阅读 · 0 评论 -
基于spark1.4的Spark-Sql
基于spark1.4的Spark-Sql,spark1.4.1在7月15刚发布,提供较好sql支持原创 2015-10-13 13:21:19 · 656 阅读 · 0 评论 -
Sparak-Streaming基于Offset消费Kafka数据
Sparak-Streaming基于Offset消费Kafka数据原创 2016-03-19 14:53:26 · 5003 阅读 · 3 评论 -
Hadoop经典案例Spark实现(四)——平均成绩
Hadoop经典案例Spark实现(四)——平均成绩原创 2016-01-08 14:57:58 · 5959 阅读 · 3 评论 -
【解决】Spark On Yarn执行中executor内存限制问题
解决Spark On Yarn执行中executor内存限制问题原创 2015-10-13 10:23:59 · 4730 阅读 · 0 评论 -
【解决】Spark运行时产生的临时目录的问题
在执行spark-sql时,查询数据量超过1.7亿行,数据量大小38G,出现系统盘占用突然变高的情况,监控如下:原创 2015-10-13 10:23:10 · 7779 阅读 · 0 评论