
Spark
文章平均质量分 71
coding如逆水行舟
这个作者很懒,什么都没留下…
展开
-
spark hive 任务优化浅谈
spark hive 任务优化浅谈数据倾斜数据倾斜的表现问题查找问题解决拆数据合数据预计算其他零零散散的任务优化技巧在日常的etl开发的过程中,不管是使用spark,或者是hive来做开发,经常会遇见任务跑的特别慢,或者任务出现oom,或者数据量并不大,但是任务就是跑的特别慢等等情况。关于任务的优化,我将自己工作中用到的一些小的trick分享出来。数据倾斜数据倾斜是什么?数据倾斜是在计算数...原创 2020-01-19 23:21:09 · 473 阅读 · 0 评论 -
学习Spark:一.Spark简介
Apache Spark是一个快速、通用的集群计算系统。它提供Java中,Scala,Python和R的api,和一个最优化的引擎。它还支持一组丰富的高级工具,包括Spark SQL和SQL结构化数据处理、MLlib机器学习,GraphX图处理,流处理。原创 2015-07-25 11:45:45 · 1025 阅读 · 0 评论 -
学习spark:二、RDD的Transformations操作
Apache Spark是一个快速、通用的集群计算系统。它提供Java中,Scala,Python和R的api,和一个最优化的引擎。它还支持一组丰富的高级工具,包括Spark SQL和SQL结构化数据处理、MLlib机器学习,GraphX图处理,流处理。原创 2015-08-03 15:26:44 · 1371 阅读 · 0 评论 -
学习spark:三、RDD的action操作
Apache Spark是一个快速、通用的集群计算系统。它提供Java中,Scala,Python和R的api,和一个最优化的引擎。它还支持一组丰富的高级工具,包括Spark SQL和SQL结构化数据处理、MLlib机器学习,GraphX图处理,流处理。原创 2015-08-05 09:59:07 · 863 阅读 · 0 评论 -
学习spark:四、Spark MLlib1.51功能一览
最近在看Spark MLlib,对于这个库,我想从宏观上看这个库能够干什么,以便更深入学习和使用它。原创 2015-12-30 23:26:02 · 840 阅读 · 0 评论 -
学习spark:五、Spark SQL, DataFrames and Datasets Guide
Spark SQL是一个用作结构数据处理的一个模块。不像Spark RDD中的API,Spark SQL提供给Spark更多关于数据和计算的信息。从内部来说,Spark SQL提取信息的接口经过额外的优化。有很多方法使用Spark SQL,包括SQL, DataFrames的API和Datasets的API。Spark SQL的计算引擎与语言或者API是独立开的。这种统一意味着开发人员可以很容易在不同的APIs之间来原创 2016-06-06 17:54:13 · 984 阅读 · 0 评论 -
学习spark:五、spark编程指南
去年学习Spark了一段时间,今年捡回来,发现好多东西都已经忘记了。现在讲官方网站上的东西转诉过来,回顾并记录下来。从RDD、action、transformation到persist和共享变量,很多核心概念,翻译的过程中增加了影响,下次忘记了,再看看这篇文章。翻译 2016-05-19 12:06:11 · 3665 阅读 · 0 评论 -
spark使用工作使用过程中的部分错误,原因
java.net.ConnectException: Connection refused 这个问题的出现是由于集群的连接出错导致的。可能的原因集群安全验证没有通过。 这次我出现这个错误就是这个原因。公司的集群中使用kerberos协议身份验证,在使用之前一定要通过kinit。Kinit命令用于获取和缓存principal(当前主体)初始的票据授予票据(TGT),此票据用于Kerbero...原创 2018-05-31 17:53:26 · 445 阅读 · 0 评论