
Spark
李天泉
本科(计算机科学与技术、化学)双学士、北师大软件工程硕士,拥有复合专业背景,曾就职于中国一汽、用友软件、联想集团、达内IT培训集团,从事过企业管理软件、互联网平台等若干项目的研发、实施、管理、咨询等工作,有深厚的技术、业务、管理经验
项目管理经验12年,部门管理经验10年,团队人数最多达到百余人
开发经验15年,架构设计经验12年,IT软件方向从业16年
展开
-
spark 集群搭建 详细步骤
最近好不容易搞到了三台测试机,可以用来搭建spark集群搞模型。本宝宝开心得不行,赶紧行动,把spark集群搭起来,模型跑起来。1.搭建hadoop集群hadoop的hdfs文件系统是整个生态圈的基础,因为数据量大了以后,数据一般就都放hdfs上头了。因为四台测试机之前已经搭建好了hadoop集群环境,而且经过本宝宝测试,hadoop集群也是可用的,所以就省了搭hadoop集群的功转载 2017-11-06 20:32:23 · 624 阅读 · 0 评论 -
spark筑基篇-01-Eclipse开发Spark HelloWorld
前言环境搭建1 scala版2 java版代码1 scala-低调版2 scala-高调版3 java-传统版4 java-lambda版运行效果1 前言Spark这么火,越来越多的小伙伴开始搞大数据。 通过多方查阅资料,这个单机版的Spark的HelloWorld终于跑出来了。 此HelloWorld非彼转载 2017-10-30 07:49:08 · 235 阅读 · 0 评论 -
Spark之java操作WordCount
可以看到自动为WordCount类创建了main方法。Maven管理项目的核心就是pom.xml,在这个文件中有工程编写运行时的依赖的支持。编写程序前需要先修改pom.xml。[html] view plain copyproject xmlns="http://maven.apache.org/POM/4.0转载 2017-10-30 08:21:54 · 290 阅读 · 0 评论 -
Spark编程指南入门之Java篇一-基本知识
1. Spark的Java开发包Spark提供Java的开发包,当前最新版本是2.0.2版本:spark-core_2.11-2.0.2.jar,可以从下面链接下载:http://central.maven.org/maven2/org/apache/spark/spark-core_2.11/2.0.2/spark-core_2.11-2.0.2.jar或者通过Maven转载 2017-10-30 08:23:59 · 419 阅读 · 0 评论 -
Spark编程指南入门之Java篇二-基本操作
4. RDD的操作4.1 基本操作RDD有2种类型的操作,一种是转换transformations,它基于一个存在的数据集创建出一个新的数据集;另一种是行动actions,它通过对一个存在的数据集进行运算得出结果。例如,map方法是转换操作,它将数据集的每一个元素按指定的函数转换为一个新的RDD;reduce方法是行动操作,它将数据集的所有元素按指定的函数进行聚合运算得出结果给驱动转载 2017-10-30 08:24:54 · 324 阅读 · 0 评论 -
Java接入Spark之创建RDD的两种方式和操作RDD
首先看看思维导图,我的spark是1.6.1版本,jdk是1.7版本 spark是什么? Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark 部署在大量廉价硬件之上,形成集群。下载和安装 可以看我之前发表的博客 Spark安装安装成功后运行示例程转载 2017-10-30 08:26:37 · 732 阅读 · 0 评论 -
SparkSQL编程指南之Java篇一-入门
1. Spark SQL的Java开发包Spark SQL提供Java的开发包,当前最新版本是2.1.0版本:spark-sql_2.11-2.1.0.jar,可以从下面链接下载:http://central.maven.org/maven2/org/apache/spark/spark-sql_2.11/2.1.0/spark-sql_2.11-2.1.0.jar或者通过转载 2017-10-30 08:28:59 · 643 阅读 · 0 评论 -
Spark On Yarn 详细配置流程
1、系统与软件准备系统:centos7软件: hadoop-2.7.2.tar.gz,请勿选择src版本,否则需要自行编译 jdk-7u79-linux-x64.tar.gz scala-2.10.3.tgz spark-1.6.1-bin-hadoop2.6.tgz,选择hadooppre-built版本,否则需要安装后编译 zookeeper-3.3.转载 2017-11-19 17:38:10 · 486 阅读 · 0 评论 -
MongoDB + Spark: 完整的大数据解决方案
Spark介绍按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及用Mlib来执行机器学习等。Java,python,scala及R语言的支持也是其通用性的表现之一。快速: 这个可能是Spark成功的最初原因之一,主要归功于其基于内存的运算方式。当需要处转载 2017-12-10 20:02:52 · 244 阅读 · 0 评论