
SPARK
文章平均质量分 79
mishidemudong
菜鸟上路,一颗红心,两手准备。
展开
-
python中,用pyspark读取Hbase数据,并转换为dataframe格式
需要完成的关键三个点分别是,设置好连接spark的配置,通过spark从hbase中将数据读进来为rdd格式,然后将rdd格式的数据转换成dataframe的格式。1、首先需要设置pyspark连接spark的配置,spark连接有sparkcontext和sparksession这两种方式,同时这两种方式之间可以互相转换,连接代码如下:(1)通过SparkConf和SparkContex...转载 2020-03-26 17:32:48 · 2027 阅读 · 1 评论 -
#####好好好好######Hadoop大数据平台实战(05):深入Spark Cluster集群模式YARN vs Mesos vs Standalone vs K8s
Spark可以以分布式集群架构模式运行,如果我们不熟Spark Cluster,这个时候需要集群管理器帮助我们管理Spark 集群。 集群管理器根据需要为所有工作节点提供资源,操作所有节点。负责管理和协调集群节点的程序一般叫做:Cluster Manager,集群管理器。目前搭建Spark 集群,可以的选择包括Standalone,YARN,Mesos,K8s,这么多工具,在部署Spark集群时...转载 2019-10-09 00:40:42 · 276 阅读 · 0 评论 -
######kubernetes中部署spark集群
在写这个的时候,spark版本为2.2.1。基于kubernetes部署的两种方式直接使用kubernetes作为集群管理器(Cluster Manager),类似与mesos和yarn,使用方式可以看running-on-kubernetes。但是这个部署方式,一是还不成熟,不推荐在生产环境使用。第二是要求k8s版本大于1.6,但我这边版本1.5.1,线上在用,不太想升级,而spark只...转载 2019-10-09 00:30:34 · 408 阅读 · 0 评论 -
###好好好#####使用GraphFrames进行飞一般的图计算
GraphFrame是将Spark中的Graph算法统一到DataFrame接口的Graph操作接口。支持多种语言,可以通过Python使用。本博客包括 On-Time Flight Performance with GraphFrames notebook 的完整内容,其中包括一些扩展功能,您可以通过 Databricks Community Edition免费试用(加入 beta wait...转载 2018-09-06 10:50:13 · 3061 阅读 · 0 评论 -
Spark : 基本架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)...转载 2018-08-13 16:56:27 · 271 阅读 · 0 评论 -
Spark性能调优-总结分享
1、Spark调优背景目前Zeppelin已经上线一段时间,Spark作为底层SQL执行引擎,需要进行整体性能调优,来提高SQL查询效率。本文主要给出调优的结论,因为涉及参数很多,故没有很细粒度调优,但整体调优方向是可以得出的。环境:服务器600+,spark 2.0.2,Hadoop 2.6.02、调优结果调优随机选取线上9条SQL,表横轴是调优测试项目,测试在集群空闲情况下进行...转载 2018-08-10 11:54:42 · 509 阅读 · 0 评论 -
微服务架构的六种模式
1.微服务架构模式方案用Scale Cube方法设计应用架构,将应用服务按功能拆分成一组相互协作的服务。每个服务负责一组特定、相关的功能。每个服务可以有自己独立的数据库,从而保证与其他服务解耦。 1.1 聚合器微服务设计模式 聚合器调用多个服务实现应用程序所需的功能。它可以是一个简单的Web页面,将检索到的数据进行处理展示。它也可以是一个更高层次的组合微服务...转载 2018-07-30 19:25:06 · 1811 阅读 · 0 评论 -
使用Spark进行微服务的实时性能分析
作为一种灵活性极强的构架风格,时下微服务在各种开发项目中日益普及。在这种架构中,应用程序被按照功能分解成一组松耦合的服务,它们通过REST APIs相互协作。通过这个设计原则,开发团队可以快速地不断迭代各个独立的微服务。同时,基于这些特性,很多机构可以数倍地提升自己的部署能力。然而凡事都有两面性,当开发者从微服务架构获得敏捷时,观测整个系统的运行情况成为最大的痛点。如图1所示,多个服务工作联合...转载 2018-07-30 19:23:57 · 1379 阅读 · 0 评论 -
使用Azkaban调度Spark任务
概述为什么需要工作流调度系统l 一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等l 各任务单元之间存在时间先后及前后依赖关系l 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:1、 通过Ha...转载 2018-07-13 13:20:29 · 9860 阅读 · 3 评论 -
azkaban学习笔记总结
1. 任务调度概述一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系现成的开源调度系统,比如ooize、azkaban。2. azkaban介绍Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种...转载 2018-07-11 16:54:25 · 381 阅读 · 0 评论 -
在pyspark中调用scala代码
在pyspark中调用scala代码情境说明问题我们这边是要使用Spark去并行一个自然语言处理的算法,其中使用到了LDA主题模型。由于使用的是天河二号,Spark版本是1.5.1,pyspark同样,所以获取主题时还不能使用describeTopics(在spark1.6中才开放对python的接口),只能使用topicsMatrix的方法。本来凑合用topicsMatrix也行,但我们发现,这...转载 2018-07-11 11:47:43 · 1237 阅读 · 0 评论 -
Spark 2.1.0 入门:特征抽取–Word2Vec(Python版)
Word2Vec 是一种著名的 词嵌入(Word Embedding) 方法,它可以计算每个单词在其给定语料库环境下的 分布式词向量(Distributed Representation,亦直接被称为词向量)。词向量表示可以在一定程度上刻画每个单词的语义。如果词的语义相近,它们的词向量在向量空间中也相互接近,这使得词语的向量化建模更加精确,可以改善现有方法并提高鲁棒性。词向量已被证明在许多自然语言...转载 2018-06-05 16:15:59 · 1086 阅读 · 0 评论 -
基于 Spark 的文本情感分析
IBM 公司在 2015 年对外宣告了一个新的科技和商务时代的来临—认知时代。这个巨大的转变,来自 IBM 对技术和商业领域的三个重要的洞察力[1]。第一,这个世界被数据所充斥。第二,这个世界通过代码被改造。第三,认知计算的出现。其中,认知计算可以:通过感知与互动,理解非结构化数据通过生成假设、评估、辩证、和建议来推理从专家培训、每一次互动、及持续取得数据中学习。本文描述了一个基于 Spark 构...转载 2018-05-24 17:53:24 · 5109 阅读 · 2 评论 -
社区发现算法FastUnfolding的GraphX实现
现实生活中存在各种各样的网络,诸如人际关系网、交易网、运输网等等。对这些网络进行社区发现具有极大的意义,如在人际关系网中,可以发现出具有不同兴趣、背景的社会团体,方便进行不同的宣传策略;在交易网中,不同的社区代表不同购买力的客户群体,方便运营为他们推荐合适的商品;在资金网络中,社区有可能是潜在的洗钱团伙、刷钻联盟,方便安全部门进行相应处理;在相似店铺网络中,社区发现可以检测出商帮、价格联盟等,对商...转载 2018-05-16 13:51:58 · 8349 阅读 · 3 评论 -
Elephas: Distributed Deep Learning with Keras & Spark
Elephas: Distributed Deep Learning with Keras & Spark Elephas is an extension of Keras, which allows you to run distributed deep learning models at scale with Spark. Elephas currently supports a n...转载 2018-05-09 17:23:09 · 898 阅读 · 0 评论 -
大数据处理引擎Spark与Flink对比分析!
大数据技术正飞速地发展着,催生出一代又一代快速便捷的大数据处理引擎,无论是Hadoop、Storm,还是后来的Spark、Flink。然而,毕竟没有哪一个框架可以完全支持所有的应用场景,也就说明不可能有任何一个框架可以完全取代另一个。今天,大圣众包威客平台(www.dashengzb.cn)将从几个项出发着重对比Spark与Flink这两个大数据处理引擎,探讨其两者的区别。 一、Spark与Fl...转载 2018-05-04 18:06:39 · 40979 阅读 · 0 评论 -
xgboost之spark上运行-scala接口
概述xgboost可以在spark上运行,我用的xgboost的版本是0.7的版本,目前只支持spark2.0以上版本上运行,编译好jar包,加载到maven仓库里面去:mvn install:install-file -Dfile=xgboost4j-spark-0.7-jar-with-dependencies.jar -DgroupId=ml.dmlc -DartifactId=xgboos...转载 2018-05-04 17:34:05 · 1583 阅读 · 0 评论 -
####好好好好好#####如何基于Spark做深度学习:从Mllib到keras,elephas
Spark ML model pipelines on Distributed Deep Neural NetsThis notebook describes how to build machine learning pipelines with Spark ML for distributed versions of Keras deep learning models. As data se...转载 2018-05-04 16:34:07 · 1023 阅读 · 0 评论 -
pyspark系列--pyspark读写dataframe
pyspark读写dataframe 1. 连接spark2. 创建dataframe 2.1. 从变量创建2.2. 从变量创建2.3. 读取json2.4. 读取csv2.5. 读取MySQL2.6. 从pandas.dataframe创建2.7. 从列式存储的parquet读取2.8. 从hive读取3. 保存数据 3.1. 写到csv3.2. 保存到parquet3.3. 写到hive3...转载 2018-04-16 17:25:49 · 4565 阅读 · 1 评论 -
###好好好######Spark GraphX处理图数据
大数据呈现出不同的形态和大小。它可以是批处理数据,也可以是实时数据流;对前者需要离线处理,需要较多的时间来处理大量的数据行,产生结果和有洞察力的见解,而对后者需要实时处理并几乎同时生成对数据的见解。我们已经了解了如何将 Apache Spark 应用于处理批数据(Spark Core)以及处理实时数据(Spark Streaming)。有时候,所需处理的数据是很自然地联系在一起的。譬如,在转载 2018-02-07 17:09:05 · 2807 阅读 · 0 评论 -
基于LR的新闻多分类(基于spark2.1.0, 附完整代码)
原创文章!转载请保留原始文章链接,谢谢!环境:Scala2.11.8 + Java1.8.0_112Spark2.1.0 + HanLP1.3.2 完整项目代码见我的GitHub:https://github.com/yhao2014/ckoocML(因为HanLP分词模型太大,未上传至项目中,需要的请从HanLP发布页下载,然后解压后将转载 2017-12-13 10:38:14 · 1161 阅读 · 0 评论 -
####好好好¥#####spark Streaming 技术内幕 : 从DSteam到RDD全过程解析
一、DStream和RDD的关系 DSream 代表了一系列连续的RDD,DStream中每个RDD包含特定时间间隔的数据,如下图所示: 从上图可以看出,一个DStream 对应了时间维度上的多个RDD。 DStream 作为Spark Stream的一个基本抽象,提供了高层的API来进行Spark Streaming 程序开发转载 2017-12-11 16:21:06 · 393 阅读 · 0 评论 -
#####带时间衰减因子#####应用实战: 如何利用Spark集群计算物品相似度
本文是Spark调研笔记的最后一篇,以代码实例说明如何借助Spark平台高效地实现推荐系统CF算法中的物品相似度计算。在推荐系统中,最经典的推荐算法无疑是协同过滤(Collaborative Filtering, CF),而item-cf又是CF算法中一个实现简单且效果不错的算法。在item-cf算法中,最关键的步骤是计算物品之间的相似度。本文以代码实例来说明如何利用Spark平台转载 2017-12-11 11:15:27 · 2598 阅读 · 0 评论 -
基于spark机器学习--物品推荐 物品推荐
基于spark机器学习---------物品推荐物品推荐[html] view plain copyimport org.apache.spark.SparkContext import org.apache.spark.mllib.recommendation.{ALS, Rating} import org.jblas.D转载 2017-12-11 10:06:47 · 932 阅读 · 0 评论 -
SparkStreaming计算WordCount简单示例
在之前的Spark程序中,我们是对RDD进行各种操作,SparkStreaming我们对DStream操作,其中DStream是discretized stream(离散流)的简写,官网对他的解释是:DStreams can be created either from input data streams from sources such as Kafka, Flume, and Ki转载 2017-12-11 09:41:31 · 332 阅读 · 0 评论 -
Mahout推荐算法API详解
Mahout推荐算法API详解Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Cr转载 2017-12-08 18:02:55 · 372 阅读 · 0 评论 -
#########好####### pyspark-Spark Streaming编程指南
参考:1、http://spark.apache.org/docs/latest/streaming-programming-guide.html2、https://github.com/apache/spark/tree/v2.2.0Spark Streaming编程指南OverviewA Quick ExampleBasic Concepts转载 2017-11-29 14:12:34 · 1337 阅读 · 0 评论 -
spark streaming + kafka +python(编程)初探
一、环境部署hadoop集群2.7.1zookeerper集群kafka集群:kafka_2.11-0.10.0.0spark集群:spark-2.0.1-bin-hadoop2.7.tgz环境搭建可参考我前面几篇文章。不再赘述三台机器:master,slave1,slave2二、启动集群环境1.启动hadoop集群start-all.sh2.启动spark集群start-mas转载 2017-11-29 14:11:00 · 6013 阅读 · 0 评论 -
flume-kafka- spark streaming(pyspark) - redis 实时日志收集实时计算 + Spark 基于pyspark下的实时日志分析
鉴于实在是比较少python相关是spark streaming的例子,对于自己实现的测试例子分享上来一起讨论。另外如果做spark streaming应用程序,强烈建议使用scala,python写日常的spark批处理程序还好这个例子为一个简单的收集hive的元数据日志,监控各个hive客户端访问表的统计。例子简单,但是涉及到不同的组件的应用,结构图(不含红色方框)如下 这也是L转载 2017-11-29 14:03:21 · 2239 阅读 · 0 评论 -
使用 Kafka 和 Spark Streaming 构建实时数据处理系统
引言在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要。流计算的出现,就是为了更好地解决这类数据在处理过程中遇到的问题。与传统架构不同,流计算模型在数据流动的过程中实时地进行捕捉和处理,并根据业务需求对数据进行计算分析,最终把结果保存或者分发给需要的组件。本文将从实时数转载 2017-11-29 13:29:24 · 822 阅读 · 0 评论 -
Spark Streaming从Kafka自定义时间间隔内实时统计行数、TopN并将结果存到hbase中
一、统计kafka的topic在10秒间隔内生产数据的行数并将统计结果存入到hbase中先在hbase中建立相应的表:create 'linecount','count'开启kafka集群并建立相应的topic:[hadoop@h71 kafka_2.10-0.8.2.0]$ bin/kafka-topics.sh --create --zookeeper h71:2181,h转载 2017-11-29 13:21:52 · 1715 阅读 · 0 评论 -
整合Kafka到Spark Streaming——代码示例和挑战
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.2版转载 2017-11-28 10:14:38 · 322 阅读 · 0 评论 -
Kafka+Spark Streaming+Redis实时计算整合实践
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算。我转载 2017-11-28 10:03:47 · 596 阅读 · 0 评论 -
结合源码分析Spark中的Accuracy(准确率), Precision(精确率), 和F1-Measure
例子某大学一个系,总共100人,其中男90人,女10人,现在根据每个人的特征,预测性别Accuracy(准确率)Accuracy=预测正确的数量需要预测的总数计算由于我知道男生远多于女生,所以我完全无视特征,直接预测所有人都是男生 我预测所的人都是男生,而实际有90个男生,所以 预测正确的数量 = 90 需要预测的总数 = 100转载 2017-11-09 19:06:06 · 1465 阅读 · 1 评论 -
梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python)
梯度迭代树算法简介: 梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似,梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有decision tree工具来实现。 梯度提升树依次迭代训练一系列的决策树。在一次迭代中,算法使用现有的集成来对每个训练实例的类别进行预测,然后将预测结转载 2017-10-26 20:24:14 · 925 阅读 · 0 评论 -
倾情大奉送--Spark入门实战系列
这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理,随后是实战例子,由于面向的是入门读者转载 2017-10-13 16:54:58 · 270 阅读 · 0 评论 -
Spark入门实战系列--9.Spark GraphX介绍及实例
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取1、GraphX介绍1.1 GraphX应用背景Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。 众所周知•,社交网络中人与人之间有很多关系链,例如Twitter、Facebook转载 2017-10-13 16:49:06 · 487 阅读 · 0 评论 -
XGBoost4J: Portable Distributed XGBoost in Spark, Flink and Dataflow
IntroductionOn March 2016, we released the first version of XGBoost4J, which is a set of packages providing Java/Scala interfaces of XGBoost and the integration with prevalent JVM-based distribute转载 2017-09-15 06:47:07 · 1725 阅读 · 0 评论 -
Apache Spark 2.0: 机器学习模型持久化
在即将发布的Apache Spark 2.0中将会提供机器学习模型持久化能力。机器学习模型持久化(机器学习模型的保存和加载)使得以下三类机器学习场景变得容易:数据科学家开发ML模型并移交给工程师团队在生产环境中发布;数据工程师把一个Python语言开发的机器学习模型训练工作流集成到一个Java语言开发的机器学习服务工作流;数据科学家创建多个训练ML模型的作业转载 2017-08-21 16:07:26 · 585 阅读 · 0 评论 -
Spark RDD、DataFrame和DataSet的区别
RDD优点:编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销 频繁的创建和销毁对象, 势必会增加GCimport org.apache.spark.sql.SQLCo转载 2017-08-10 11:16:39 · 291 阅读 · 0 评论