
spark
lvdan86546853
让一切随风。
展开
-
Spark体系概况
一、Spark来源Spark依托于Hadoop,原有的Hadoop在刚发布是非常完善的,但随着对Hadoop的深入使用,发现存在许多问题。Hadoop最早的版本是MRv1版本,任务的提交和调度如下。 可知Hadoop主要分成3个主要部分,HDFS提供数据源,JobTrack负责任务的资源分配管理以及任务的调度,TaskTrack主要负责任务的执行。当集群任务较多,JobTrack会出现负原创 2017-09-25 14:31:05 · 388 阅读 · 0 评论 -
spark调优
mark一下,转自美团技术点评的2篇博文前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Sp转载 2017-11-23 22:08:04 · 219 阅读 · 0 评论 -
spark加载外部资源方式
首选说明spark加载文件:1、采用 Source. fromFile (LocalPath)方式加载,可加载本地文件,这里本地文件指的是非集群方式2、加载hdfs,sc.textfile()3、采用 sc.textFile(“file:///path to the file/”),要求本地文件必须存在集群上的所有节点,且路径相同 (集群模式),local模式可以加载。个人测试机转载 2017-11-02 18:39:37 · 6702 阅读 · 0 评论 -
sparksql 正则匹配总结
这里对sql常用的一些正则匹配作一些匹配,都是来源别人博客,此处稍作整理和总结。mark一下1、sql中有like 和 rlike,具体区别like:%:匹配零个及多个任意字符 _:与任意单字符匹配 []:匹配一个范围 [^]:排除一个范围 ESCAPE 关键字定义转义符 WHERE ColumnA LIKE '%5/%%' ESCAPE '/'原创 2017-10-25 13:19:54 · 38745 阅读 · 0 评论 -
Spark-SQL之DataFrame操作大全
Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成 Spark-SQL可以以其他RDD对象、parquet文件、json转载 2017-10-25 11:51:30 · 291 阅读 · 0 评论 -
Spark存储与读取文件方法小结
http://blog.youkuaiyun.com/buring_/article/details/42424477 mark一:Spark中常常面临这RDD的存储问题,记录一下常常面临的几种情况。saveAsObjectFile, SequenceFile, mapFile, textFile我就不说了。首先:在写文件的时候,经常输出的目录以及存在,需要一个删掉目录以及存在的情况。大致功能转载 2017-10-25 10:34:36 · 2052 阅读 · 0 评论 -
Hadoop中的文件格式
http://blog.youkuaiyun.com/bingduanlbd/article/details/52088520 mark 一下,原先看过,再复习。Hadoop中的文件格式大致上分为面向行和面向列两类:面向行:同一行的数据存储在一起,即连续存储。SequenceFile,MapFile,Avro Datafile。采用这种方式,如果只需要访问行的一小部分转载 2017-10-25 10:19:15 · 760 阅读 · 0 评论 -
认识SparkSQL中的Catalyst
本文主要介绍SparkSQL的优化器系统Catalyst,上文讲到其设计思路基本都来自于传统型数据库,而且和大多数当前的大数据SQL处理引擎设计基本相同(Impala、Presto、Hive(Calcite)等),因此通过本文的学习也可以基本了解所有其他SQL处理引擎的工作原理。SQL优化器核心执行策略主要分为两个大的方向:基于规则优化(RBO)以及基于代价优化(CBO),基于转载 2017-10-12 20:00:29 · 324 阅读 · 0 评论 -
sparkSQL1.1入门
http://blog.youkuaiyun.com/book_mmicky/article/details/392887152014年9月11日,Spark1.1.0忽然之间发布。笔者立即下载、编译、部署了Spark1.1.0。关于Spark1.1的编译和部署,请参看笔者博客Spark1.1.0 源码编译和部署包生成 。 Spark1.1.0中变化较大是sparkSQL转载 2017-09-28 18:21:30 · 581 阅读 · 0 评论 -
spark dataframe操作集锦
DataFrame 的函数Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行2、 collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、 count() 返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学计算的类表值(cou...转载 2018-03-02 18:04:42 · 1660 阅读 · 0 评论