
大数据
文章平均质量分 77
野男孩
坚持做技术的土人
展开
-
Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (1)
续第三章:Learning Spark 第三章 RDD编程 已翻译整理完毕,PDF可下载PS:今天去换药,一上午就没了,坑爹啊~~ 加油加油,第四章!!第四章处理键值对(Key/Value Pairs) 本章介绍如何处理键值对,这是Spark中常见的一种数据类型。键值对RDD通常用于聚合操作,也经常会将一些初始ETL(提取,转换,加载)获翻译 2015-09-28 20:54:36 · 856 阅读 · 0 评论 -
Spark SQL操作之-函数汇总篇-中
Welcome to StackEdit!环境说明1. JDK 1.82. Spark 2.1继续函数部分内容,这一篇补上窗口函数部分。窗口函数是什么窗口函数,顾名思义,这里存在一个窗口的概念。也就是指表内数据参与到函数计算的一个区间。这里说的计算区间,我理解是有两个意思。第一是看是否需要按指定的列来对数据进行分区。第二是看分区确定后是否还指定了对分区数据的进一步的限定。包括rows...原创 2019-06-09 08:54:17 · 5079 阅读 · 4 评论 -
Spark SQL操作之-函数汇总篇-上
函数汇总篇部分是整理Spark SQL的内置函数,窗口函数、自定义函数以及自定义聚合函数的用法。本篇主要是分享了内置函数部分,挑了一部分函数的示例说明其用法。包括数学函数,聚合函数,集合函数,字符串处理函数,日期函数等。原创 2019-05-28 08:57:03 · 2813 阅读 · 0 评论 -
Spark在Windows/Linux下的最简安装
Spark在Windows/Linux下的最简安装废话部分Windows下的安装安装JDK 1.8安装Spark 2.1.0运行spark-shellLinux下的安装安装JDK 1.8安装Spark 2.1.0运行spark-shell废话部分因为在外地出差临时需要个Spark环境,就搭了一个,其实蛮简单的。想到总是会有萌新刚开始起步,也许就有无从下手的困扰,于是顺便就发个blog丰富下内容...原创 2019-04-06 20:04:21 · 1772 阅读 · 0 评论 -
Spark的Dataset操作(一)-列的选择select
环境说明:用的版本是Spark 2.1,Dataset操作很丰富,join的支持也蛮好的,比原来用的spark 1.4好用多了。嗯,Dataset操作,我觉得最重要的是把Column类的用法弄清楚。毕竟,后面的Dataset操作都是在操作列。最好的资料自然是官方文档,Spark的API文档还是挺详细的,而且还细分了Java/Scala/Python。来个例子边看边说:...原创 2017-07-08 23:47:44 · 29867 阅读 · 3 评论 -
Spark的Dataset操作(五)-多表操作 join
spark-sql的多表join操作示例,包括内连接inner join, 外连接outer join,左外连接left_join, 右外连接right_join, 左半连接leftsemi, 以及笛卡尔连接crossjoin. 并介绍了对条件连接的支持。原创 2017-07-21 06:49:29 · 27674 阅读 · 5 评论 -
《Apache Spark Graph Processing》中文版前4章下载
翻译的时候,我尽量保持内容和原作所在的页码一致,方便各位对照原文纠错。 没翻译的章节是第 5 章 创建自定义的图聚合操作, 第 6 章 用 Pregel 进行图的并行迭代处理, 以及第 7 章 学习图的结构。 有兴趣的可以看看原书吧。 或者我以后也会更新, 不着急的可以关注下我的 blog。 但是不保证哈~~~翻译 2016-08-01 08:58:10 · 975 阅读 · 3 评论 -
Learning Spark 中文版,第三章到第八章整理完毕,PDF可下载
下载地址:Learning Spark中文版3-8章带目录文字版 http://download.youkuaiyun.com/detail/coding_hello/9161615鉴于优快云把资源分升高到30了,我也控制不了,所以开个网盘下载地址吧:链接: https://pan.baidu.com/s/17dJ3DtRqfvswM6frSnp5ew 密码: ...翻译 2015-10-07 23:00:24 · 8221 阅读 · 17 评论 -
Learning Spark 第四章 处理键值对 已翻译整理完毕,PDF可下载
下载地址:Learning Spark中文版 第四章 处理键值对第四章整理完成了,排版也还Ok,下面是截图,PDF的,加了书签。翻译的内容基本和原作的页码一致,方便对照。翻译 2015-10-03 08:11:44 · 850 阅读 · 0 评论 -
Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (4)
接着续,每天5分钟:Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (3)停电了2个多小时,还好又来了~ 第四章结束啦~~ 待会再出个完整版~受益于分区的操作Spark的许多操作都牵扯到根据主键跨网络shuffle数据的问题。所有这些都能从分区受益。Spark 1.0中,受益于分区的操作包括cogroup(翻译 2015-10-01 22:20:54 · 864 阅读 · 0 评论 -
Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (3)
接着续,每天5分钟:Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (2)数据分区(高级)本章讨论的最后一个Spark的特性是如何控制数据跨节点分区。分布式程序中,通信十分昂贵,所以对数据布局来最小化网络传输可以大幅提高性能。跟单机程序为数据集合选择一个正确的数据结构很类似,Spark程序可以选择控制分区来减少网络通信翻译 2015-09-30 20:32:12 · 732 阅读 · 0 评论 -
Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (2)
接着续,每天5分钟:Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (1)聚合当数据集被表述成键值对,通常是想要对所有元素按相同的键进行聚合统计。我们已经看到了fold(),combin()和reduce()这些动作作用于基本RDD。类似的也存在对pair RDD的每个键的变换。Spark提供了按相同的键合并的一组类似翻译 2015-09-29 19:53:40 · 1159 阅读 · 0 评论 -
Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第三章 - (3)
续啊续,再续上一篇:Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第三章 - (2)常见的变换和动作在本章中,我们巡视一遍Spark中最常见的变换和动作。对包含某种类型数据的RDD还有些另外的操作可用,比如RDD的数量的统计函数,对RDD的key/value对按照key进行聚合的key/value操作。在后面的章节中我们会讲到R翻译 2015-09-26 21:04:15 · 988 阅读 · 0 评论 -
Learning Spark 第三章 RDD编程 已翻译整理完毕,PDF可下载
下载地址:Learning Spark - 第三章 RDD编程第三章整理完成了,排版也还Ok,下面是截图,PDF的,加了书签。翻译的内容基本和原作的页码一致,方便对照。翻译 2015-09-27 22:11:51 · 1259 阅读 · 0 评论 -
Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第三章 - (4)
续啊续,我还续:上一篇:Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第三章 - (3)动作对于基本RDD,你最常用到的动作是reduce()。它传入一个函数,该函数对RDD中两个元素进行处理,并返回一个同类型的元素。这类函数的一个简单例子是+,用于计算RDD中元素的和。有了reduce(),我们可以轻松的计算RDD中元素的翻译 2015-09-27 20:11:44 · 825 阅读 · 0 评论 -
Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第三章 - (2)
接着慢慢写吧,续上一篇:Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第三章 - (1)动作我们已经知道如何从各种变化创建RDD,但有时候我们想实际对数据做点什么。动作是第二种操作。它们是返回一个最终值给驱动程序或者写入外部存储系统的操作。动作迫使对调用的RDD的变换请求进行求值,因为需要实际产生输出。 继续前一章的日志的例翻译 2015-09-25 20:37:36 · 852 阅读 · 0 评论 -
Spark SQL操作之-函数汇总篇-下
Spark SQL操作之-自定义函数篇-下环境说明自定义函数分类用户自定义函数(UDF)用户自定义聚合函数(UDAF)环境说明1. JDK 1.82. Spark 2.1自定义函数分类不同的业务需要不同的处理函数,所以spark也支持用户自定义函数来做专用的处理。这里的自定义函数分两大类:用户已定义函数(UDF)和用户自定义聚合函数(UDAF)。用户自定义函数(UDF)用户自定义函...原创 2019-09-12 22:15:05 · 2007 阅读 · 0 评论