
spark
2Tree
专注后端开发
展开
-
Spark独立模式
Spark独立模式将Spark Standalone安装到群集 手动启动群集 群集启动脚本 将应用程序连接到群集 启动Spark应用程序 资源调度 执行者调度 监控和记录 与Hadoop一起运行 配置网络安全端口 高可用性 与ZooKeeper的待机大师 使用本地文件系统进行单节点恢复 除了在Mesos或YARN集群管理器上运行外,Spark还提供了一种简单的独立...翻译 2018-08-15 13:02:38 · 655 阅读 · 0 评论 -
Spark的应用场景有哪些?
Spark 是一种与 Hadoop 相似的开源集群计算环境,是专为大规模数据处理而设计的快速通用的计算引擎,现已形成一个高速发展应用广泛的生态系统,主要应用场景如下: 1. Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小; 2. 由于RDD的特性,Spa...原创 2018-08-20 12:02:50 · 18672 阅读 · 0 评论 -
spark 与storm的对比及适用场景
学习大数据有一段时间了,学完spark 和storm 后,就希望这两个实时处理系统做个对比,以便于在以后的技术选型方面有很好的把握。转载如下:http://www.cnblogs.com/yaohaitao/p/5703288.html 对比点 Storm Spark Streaming 实时计算模型 ...转载 2018-08-20 11:59:44 · 891 阅读 · 0 评论 -
Spark记录-spark报错Unable to load native-hadoop library for your platform
Spark记录-spark报错Unable to load native-hadoop library for your platform解决方案一:#cp $HADOOP_HOME/lib/native/libhadoop.so $JAVA_HOME/jre/lib/amd64#源码编译snappy---./configure make & make install#...原创 2018-08-20 11:26:41 · 1740 阅读 · 0 评论 -
Spark机器学习库(MLlib)指南
机器学习库(MLlib)指南MLlib是Spark的机器学习(ML)库。其目标是使实用的机器学习可扩展且简单。从较高的层面来说,它提供了以下工具:ML算法:常见的学习算法,如分类,回归,聚类和协同过滤 特征化:特征提取,转换,降维和选择 管道:用于构建,评估和调整ML管道的工具 持久性:保存和加载算法,模型和管道 实用程序:线性代数,统计,数据处理等。声明:基于DataFrame...翻译 2018-08-16 16:58:53 · 5307 阅读 · 0 评论 -
Spark 实战,第 6 部分: 基于 Spark ML 的文本分类
转自:https://blog.youkuaiyun.com/qq_28743951/article/details/53872829引言文本分类是一个典型的机器学习问题,其主要目标是通过对已有语料库文本数据训练得到分类模型,进而对新文本进行类别标签的预测。这在很多领域都有现实的应用场景,如新闻网站的新闻自动分类,垃圾邮件检测,非法信息过滤等。本文将通过训练一个手机短信样本数据集来实现新数据样本的分类...转载 2018-08-16 16:54:51 · 1018 阅读 · 0 评论 -
Spark 实战,第 5 部分: 使用 ML Pipeline 构建机器学习工作流
转自:https://blog.youkuaiyun.com/qq_28743951/article/details/53872794引言使用机器学习 (Machine Learning) 技术和方法来解决实际问题,已经被成功应用到多个领域,我们经常能够看到的实例有个性推荐系统,金融反欺诈,自然语言处理和机器翻译,模式识别,智能控制等。一个典型的机器学习机器学习过程通常会包含:源数据 ETL,数据预处...转载 2018-08-16 16:52:54 · 952 阅读 · 0 评论 -
Spark 实战,第 4 部分: 使用 Spark MLlib 做 K-means 聚类分析
转自:https://blog.youkuaiyun.com/qq_28743951/article/details/53872757引言提起机器学习 (Machine Learning),相信很多计算机从业者都会对这个技术方向感到兴奋。然而学习并使用机器学习算法来处理数据却是一项复杂的工作,需要充足的知识储备,如概率论,数理统计,数值逼近,最优化理论等。机器学习旨在使计算机具有人类一样的学习能力和模...转载 2018-08-16 16:51:33 · 4951 阅读 · 0 评论 -
Spark 实战,第 3 部分: 使用 Spark SQL 对结构化数据进行统计分析
转自:https://blog.youkuaiyun.com/qq_28743951/article/details/53872706引言在很多领域,如电信,金融等,每天都会产生大量的结构化数据,当数据量不断变大,传统的数据存储 (DBMS) 和计算方式 (单机程序) 已经不能满足企业对数据存储,统计分析以及知识挖掘的需要。在过去的数年里,传统的软件开发和维护人员已经积累了大量的基于 DBMS 的操作...转载 2018-08-16 16:49:15 · 3309 阅读 · 0 评论 -
Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统
转自:https://blog.youkuaiyun.com/qq_28743951/article/details/53872634引言在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要。流计算的出现,就是为了更好地解决这类数据在处理过程中遇到的问题。与传统架构不同,流计算模...转载 2018-08-16 16:46:19 · 750 阅读 · 0 评论 -
Spark 入门实战之最好的实例
转载:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/搭建开发环境安装 Scala IDE 搭建 Scala 语言开发环境很容易,Scala IDE 官网 下载合适的版本并解压就可以完成安装,本文使用的版本是 4.1.0。 安装 Scala 语言包 如果下载的 Scala IDE 自带的...转载 2018-08-16 16:34:28 · 45852 阅读 · 7 评论 -
Spark从本地文件中统计包含某个字母的行数
Spark从本地文件中统计包含某个字母的行数:import org.apache.spark.SparkConf;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.SparkSession;/** * spark从文件中统计包含某个字段的记录数 * @author admin * */public ...原创 2018-08-15 15:00:20 · 2640 阅读 · 0 评论 -
初始化Spark,并进行简单的RDD数据的map,filter,reduce操作
初始化Spark,并进行简单的RDD数据的map,filter,reduce操作 import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.j...原创 2018-08-15 14:50:49 · 2918 阅读 · 0 评论 -
Spark的RDD编程指南
RDD编程指南概观 与Spark链接 初始化Spark 使用Shell 弹性分布式数据集(RDD) 并行化集合 外部数据集 RDD操作 基本 将函数传递给Spark 了解闭包 例 本地与群集模式 打印RDD的元素 使用键值对 转换 操作 随机操作 背景 绩效影响 RDD持...翻译 2018-08-15 13:19:53 · 339 阅读 · 0 评论 -
spark自包含的应用程序
自包含的应用程序假设我们希望使用Spark API编写一个自包含的应用程序。我们将在Scala(使用sbt),Java(使用Maven)和Python(pip)中使用简单的应用程序。此示例将使用Maven编译应用程序JAR,但任何类似的构建系统都可以使用。我们将创建一个非常简单的Spark应用程序,SimpleApp.java:/* SimpleApp.java */impor...翻译 2018-08-15 13:12:37 · 408 阅读 · 0 评论 -
Spark概述
Spark概述Apache Spark是一种快速通用的集群计算系统。它提供Java,Scala,Python和R中的高级API,以及支持通用执行图的优化引擎。它还支持一组丰富的更高级别的工具,包括Spark SQL用于SQL和结构化数据的处理,MLlib机器学习,GraphX用于图形处理和Spark Stream。下载从项目网站的下载页面获取Spark 。本文档适用于Spark版本2....翻译 2018-08-15 13:04:06 · 373 阅读 · 0 评论