大数据_野男孩的博客-优快云博客

大数据

关注

文章平均质量分 77

关注数：文章数：17 文章阅读量：87026 文章收藏量：95

作者: 野男孩

坚持做技术的土人

展开

专栏收录文章

Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (1)

续第三章：Learning Spark 第三章 RDD编程已翻译整理完毕，PDF可下载PS:今天去换药，一上午就没了，坑爹啊~~ 加油加油，第四章！！第四章处理键值对(Key/Value Pairs) 本章介绍如何处理键值对，这是Spark中常见的一种数据类型。键值对RDD通常用于聚合操作，也经常会将一些初始ETL(提取，转换，加载)获

翻译 2015-09-28 20:54:36 · 863 阅读 · 0 评论
Spark SQL操作之-函数汇总篇-中

Welcome to StackEdit!环境说明1. JDK 1.82. Spark 2.1继续函数部分内容，这一篇补上窗口函数部分。窗口函数是什么窗口函数，顾名思义，这里存在一个窗口的概念。也就是指表内数据参与到函数计算的一个区间。这里说的计算区间，我理解是有两个意思。第一是看是否需要按指定的列来对数据进行分区。第二是看分区确定后是否还指定了对分区数据的进一步的限定。包括rows...

原创 2019-06-09 08:54:17 · 5101 阅读 · 4 评论
Spark SQL操作之-函数汇总篇-上

函数汇总篇部分是整理Spark SQL的内置函数，窗口函数、自定义函数以及自定义聚合函数的用法。本篇主要是分享了内置函数部分，挑了一部分函数的示例说明其用法。包括数学函数，聚合函数，集合函数，字符串处理函数，日期函数等。

原创 2019-05-28 08:57:03 · 2842 阅读 · 0 评论
Spark在Windows/Linux下的最简安装

Spark在Windows/Linux下的最简安装废话部分Windows下的安装安装JDK 1.8安装Spark 2.1.0运行spark-shellLinux下的安装安装JDK 1.8安装Spark 2.1.0运行spark-shell废话部分因为在外地出差临时需要个Spark环境，就搭了一个，其实蛮简单的。想到总是会有萌新刚开始起步，也许就有无从下手的困扰，于是顺便就发个blog丰富下内容...

原创 2019-04-06 20:04:21 · 1811 阅读 · 0 评论
Spark的Dataset操作(一)-列的选择select

环境说明：用的版本是Spark 2.1，Dataset操作很丰富，join的支持也蛮好的，比原来用的spark 1.4好用多了。嗯，Dataset操作，我觉得最重要的是把Column类的用法弄清楚。毕竟，后面的Dataset操作都是在操作列。最好的资料自然是官方文档，Spark的API文档还是挺详细的，而且还细分了Java/Scala/Python。来个例子边看边说：...

原创 2017-07-08 23:47:44 · 29880 阅读 · 3 评论
Spark的Dataset操作(五)-多表操作 join

spark-sql的多表join操作示例，包括内连接inner join, 外连接outer join，左外连接left_join, 右外连接right_join, 左半连接leftsemi, 以及笛卡尔连接crossjoin. 并介绍了对条件连接的支持。

原创 2017-07-21 06:49:29 · 27702 阅读 · 5 评论
《Apache Spark Graph Processing》中文版前4章下载

翻译的时候，我尽量保持内容和原作所在的页码一致，方便各位对照原文纠错。没翻译的章节是第 5 章创建自定义的图聚合操作，第 6 章用 Pregel 进行图的并行迭代处理，以及第 7 章学习图的结构。有兴趣的可以看看原书吧。或者我以后也会更新，不着急的可以关注下我的 blog。但是不保证哈~~~

翻译 2016-08-01 08:58:10 · 981 阅读 · 3 评论
Learning Spark 中文版，第三章到第八章整理完毕，PDF可下载

下载地址：Learning Spark中文版3-8章带目录文字版 http://download.youkuaiyun.com/detail/coding_hello/9161615鉴于优快云把资源分升高到30了，我也控制不了，所以开个网盘下载地址吧：链接: https://pan.baidu.com/s/17dJ3DtRqfvswM6frSnp5ew 密码: ...

翻译 2015-10-07 23:00:24 · 8236 阅读 · 17 评论
Learning Spark 第四章处理键值对已翻译整理完毕，PDF可下载

下载地址：Learning Spark中文版第四章处理键值对第四章整理完成了，排版也还Ok，下面是截图，PDF的，加了书签。翻译的内容基本和原作的页码一致，方便对照。

翻译 2015-10-03 08:11:44 · 855 阅读 · 0 评论
Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (4)

接着续，每天5分钟：Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (3)停电了2个多小时，还好又来了~ 第四章结束啦~~ 待会再出个完整版~受益于分区的操作Spark的许多操作都牵扯到根据主键跨网络shuffle数据的问题。所有这些都能从分区受益。Spark 1.0中，受益于分区的操作包括cogroup(

翻译 2015-10-01 22:20:54 · 874 阅读 · 0 评论
Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (3)

接着续，每天5分钟：Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (2)数据分区（高级）本章讨论的最后一个Spark的特性是如何控制数据跨节点分区。分布式程序中，通信十分昂贵，所以对数据布局来最小化网络传输可以大幅提高性能。跟单机程序为数据集合选择一个正确的数据结构很类似，Spark程序可以选择控制分区来减少网络通信

翻译 2015-09-30 20:32:12 · 740 阅读 · 0 评论
Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (2)

接着续，每天5分钟：Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (1)聚合当数据集被表述成键值对，通常是想要对所有元素按相同的键进行聚合统计。我们已经看到了fold()，combin()和reduce()这些动作作用于基本RDD。类似的也存在对pair RDD的每个键的变换。Spark提供了按相同的键合并的一组类似

翻译 2015-09-29 19:53:40 · 1167 阅读 · 0 评论
Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第三章 - (3)

续啊续，再续上一篇：Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第三章 - (2)常见的变换和动作在本章中，我们巡视一遍Spark中最常见的变换和动作。对包含某种类型数据的RDD还有些另外的操作可用，比如RDD的数量的统计函数，对RDD的key/value对按照key进行聚合的key/value操作。在后面的章节中我们会讲到R

翻译 2015-09-26 21:04:15 · 997 阅读 · 0 评论
Learning Spark 第三章 RDD编程已翻译整理完毕，PDF可下载

下载地址：Learning Spark - 第三章 RDD编程第三章整理完成了，排版也还Ok，下面是截图，PDF的，加了书签。翻译的内容基本和原作的页码一致，方便对照。

翻译 2015-09-27 22:11:51 · 1263 阅读 · 0 评论
Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第三章 - (4)

续啊续，我还续：上一篇：Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第三章 - (3)动作对于基本RDD，你最常用到的动作是reduce()。它传入一个函数，该函数对RDD中两个元素进行处理，并返回一个同类型的元素。这类函数的一个简单例子是+，用于计算RDD中元素的和。有了reduce()，我们可以轻松的计算RDD中元素的

翻译 2015-09-27 20:11:44 · 834 阅读 · 0 评论
Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第三章 - (2)

接着慢慢写吧，续上一篇：Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第三章 - (1)动作我们已经知道如何从各种变化创建RDD，但有时候我们想实际对数据做点什么。动作是第二种操作。它们是返回一个最终值给驱动程序或者写入外部存储系统的操作。动作迫使对调用的RDD的变换请求进行求值，因为需要实际产生输出。继续前一章的日志的例

翻译 2015-09-25 20:37:36 · 863 阅读 · 0 评论
Spark SQL操作之-函数汇总篇-下

Spark SQL操作之-自定义函数篇-下环境说明自定义函数分类用户自定义函数(UDF)用户自定义聚合函数(UDAF)环境说明1. JDK 1.82. Spark 2.1自定义函数分类不同的业务需要不同的处理函数，所以spark也支持用户自定义函数来做专用的处理。这里的自定义函数分两大类：用户已定义函数(UDF)和用户自定义聚合函数(UDAF)。用户自定义函数(UDF)用户自定义函...

原创 2019-09-12 22:15:05 · 2018 阅读 · 0 评论

大数据

作者: 野男孩

Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (1)

Spark SQL操作之-函数汇总篇-中

Spark SQL操作之-函数汇总篇-上

Spark在Windows/Linux下的最简安装

Spark的Dataset操作(一)-列的选择select

Spark的Dataset操作(五)-多表操作 join

《Apache Spark Graph Processing》中文版前4章下载

Learning Spark 中文版，第三章到第八章整理完毕，PDF可下载

Learning Spark 第四章 处理键值对 已翻译整理完毕，PDF可下载

Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (4)

Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (3)

Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第四章 - (2)

Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第三章 - (3)

Learning Spark 第三章 RDD编程 已翻译整理完毕，PDF可下载

Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第三章 - (4)

Learning Spark - LIGHTNING-FAST DATA ANALYSIS 第三章 - (2)

Spark SQL操作之-函数汇总篇-下

Learning Spark 第四章处理键值对已翻译整理完毕，PDF可下载

Learning Spark 第三章 RDD编程已翻译整理完毕，PDF可下载