
Spark
张博208
知识搬运工
展开
-
spark能传递外部命名参数给main函数吗?
查了资料好像都没有办法。只能通过: def main(args: Array[String]): Unit = { // 读取参数 var city = args(0) var input = args(1) var date = args(2)下标来获取。不过不确定,去stackoverflow发帖问下。https://stackoverflow.com/que...原创 2022-11-02 09:36:55 · 188 阅读 · 0 评论 -
spark driver节点的搭建,在集群之外搭建一个节点用于提交spark程序到spark集群
好多人不知道怎么做,转载来的在集群之外搭建一个节点用于提交spark程序到spark集群说明:用于提交程序的节点ip: 192.168.1.188 spark集群Master节点ip:192.168.1.73(spark集群和hadoop集群是在一起的)1.保证该节点和集群的master节点是互通的,在该节点安装和集群同样版本的spark和hadoop程序,不需要启动,只用于提交作业时在driver端用于获取集群信息2.配置文件 core-site.xml 修改ip都改成spark集群Maste转载 2020-12-16 10:29:47 · 352 阅读 · 0 评论 -
用户画像-ID_MAPPING pyspark实战
https://blog.youkuaiyun.com/weixin_41734687/article/details/99174064转载 2019-12-18 16:04:16 · 350 阅读 · 0 评论 -
Spark2.0机器学习系列之11: 聚类(幂迭代聚类, power iteration clustering, PIC)
在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法: (1)K-means (2)Latent Dirichlet allocation (LDA) (3)Bisecting k-means(二分k均值算法) (4)Gaussian Mixture Model (GMM)。...转载 2018-05-30 17:47:17 · 947 阅读 · 0 评论 -
[Spark基础]--repartition vs coalesce
https://blog.youkuaiyun.com/high2011/article/details/78842739转载 2018-09-11 15:25:05 · 137 阅读 · 0 评论 -
社区发现算法之标签传播(LPA)
标签传播算法(LPA)的做法比较简单:第一步: 为所有节点指定一个唯一的标签;第二步: 逐轮刷新所有节点的标签,直到达到收敛要求为止。对于每一轮刷新,节点标签刷新的规则如下: 对于某一个节点,考察其所有邻居节点的标签,并进行统计,将出现个数最多的那个标签赋给当前节点。当个数最多的标签不唯一时,随机选一个。1注:算法中的记号 N_n^k 表示节点 n 的邻居中标签为 k ...转载 2018-09-12 19:10:42 · 8725 阅读 · 3 评论 -
聚类(幂迭代聚类, power iteration clustering, PIC)
https://blog.youkuaiyun.com/qq_34531825/article/details/52675182转载 2018-09-12 19:12:30 · 1432 阅读 · 0 评论 -
SparkGraphX快速入门
1 图图是由顶点和边组成的,并非代数中的图。图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络互联网web页面常用的应用有:在地图应用中找到最短路径基于与他人的相似度图,推荐产品、服务、人际关系或媒体2 术语2.1 顶点和边一般关系图中,事物为顶点,关系为边2.2 有向图和无向图在有向图中...转载 2018-09-10 17:53:09 · 298 阅读 · 0 评论 -
pregel 与 spark graphX 的 pregel api
https://blog.youkuaiyun.com/u013468917/article/details/51199808转载 2018-09-10 18:38:42 · 312 阅读 · 0 评论 -
算子调优之MapPartitions提升Map类操作性能
spark中,最基本的原则,就是每个task处理一个RDD的partition。1、MapPartitions操作的优点:如果是普通的map,比如一个partition中有1万条数据;ok,那么你的function要执行和计算1万次。但是,使用MapPartitions操作之后,一个task仅仅会执行一次function,function一次接收所有的partition数据。只要执...转载 2018-09-13 10:20:09 · 998 阅读 · 0 评论 -
Spark Pregel参数说明
Pregel是个强大的基于图的迭代算法,也是Spark中的一个迭代应用aggregateMessage的典型案例,用它可以在图中方便的迭代计算,如最短路径、关键路径、n度关系等。然而对于之前对图计算接触不多的童鞋来说,这个api还算是一个比较重量组的接口,不太容易理解。Spark中的Pregel定义如下:def pregel[A: ClassTag]( initialMs...转载 2018-09-11 10:52:08 · 204 阅读 · 0 评论 -
Spark GraphX aggregateMessage函数介绍
aggregateMessage函数有两个大操作,一个是sendMsg,一个是mergeMsg。aggregateMessages函数其对象是三元组。sendMsg是将三元组的属性信息进行转发,mergeMsg是将sendMsg转发的内容进行聚合。sendMsg函数以EdgeContex作为输入参数,没返回值,提供两个消息的函数sendToSrc:将Msg类型的消息发送给源节点send...转载 2018-09-11 10:56:48 · 523 阅读 · 0 评论 -
Custom UDF in Apache Spark
Apache Spark has become very widely used framework to build Big data application. Spark SQL has made adhoc analysis on structured data very easy, So it is very popular among users who deal with huge a...转载 2019-02-01 18:07:40 · 259 阅读 · 0 评论 -
SparkML之回归(三)保序回归
在写這篇博客的时候,翻阅了一些互联网上的资料,发现文献[1]写的比较系统。所以推荐大家读读文献[1].但是出现了一些错误,所以我在此简述一些。如果推理不过去了。可以看看我的简述。------------------------------------前言背景:(1)在医学领域药物剂量反应中,随着药物剂量的增加,疗效和副作用会呈现一定趋势。比如剂量越高,疗效越转载 2017-11-20 15:22:30 · 833 阅读 · 0 评论 -
spark性能优化:数据倾斜调优
调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象 1、绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三转载 2017-10-26 11:50:04 · 228 阅读 · 0 评论 -
那些年我们对Spark RDD的理解
http://blog.youkuaiyun.com/stark_summer/article/details/50218641。目录(?)[+]这篇文章想从Spark当初设计时为何提出RDD概念,相对于Hadoop,RDD真的能给spark带来何等优势。之前本想开篇是想总体介绍spark,以及环境搭建过程,但个人感觉RDD更为重要铺垫在hadoop转载 2017-04-08 19:18:46 · 647 阅读 · 0 评论 -
Spark函数详解系列之RDD基本转换
摘要:RDD:弹性分布式数据集,是一种特殊集合‚ 支持多种来源‚ 有容错机制‚ 可以被缓存‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子:Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作Ation(执行):触发Spark作业的运转载 2017-04-08 20:31:44 · 339 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介
1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,转载 2017-04-15 18:49:06 · 426 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(中)--深入了解运行计划及调优
1 使用Hive-Console 了解运行计划前面介绍了SparkSQL的运行过程,罗列了很多概念很抽象,比如Unresolved LogicPlan、LogicPlan、PhysicalPlan,下面介绍一个工具hive/console,来加深对SparkSQL的运行计划的理解。 【注】以下实验环境为第二课《Spark编译与部署》搭建hadoop1一台机器1.1 运行环境说明转载 2017-04-15 18:59:21 · 547 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(下)--Spark实战应用
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取1 运行环境说明1.1 硬软件环境主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存虚拟软件:VMware® Workstation 9.0.0 build-812388虚拟机操作系统:CentOS 64位,单核虚拟机运行环境: JDK:1.7.0_55转载 2017-04-15 19:04:21 · 826 阅读 · 1 评论 -
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍
1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算转载 2017-04-15 22:54:32 · 475 阅读 · 0 评论 -
Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介
1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通过经验自动改进的计算机算法的研究”。l“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is转载 2017-04-15 23:02:16 · 526 阅读 · 0 评论 -
Spark入门实战系列--8.Spark MLlib(下)--机器学习库SparkMLlib实战
1、MLlib实例1.1 聚类实例1.1.1 算法说明聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,比较常见的还有层次法(CURE、CHAMELEON转载 2017-04-15 23:05:52 · 740 阅读 · 0 评论 -
用 LDA 做主题模型:当 MLlib 邂逅 GraphX
主题模型可以从一系列文章中自动推测讨论的主题。这些主题可以被用作总结和整理文章,也可以在机器学习流程的后期阶段用于特征化和降维。在Spark 1.3中,MLlib现在支持最成功的主题模型之一,隐含狄利克雷分布(LDA)。LDA也是基于GraphX上构建的第一个MLlib算法。在这篇博文中,我们概述LDA和及其用例,并且解释GraphX是实现它最自然的方式。主题模型抽象地说,转载 2017-05-10 10:44:11 · 341 阅读 · 0 评论 -
Spark入门实战系列--3.Spark编程模型(上)--编程模型及SparkShell实战
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、Spark编程模型1.1 术语定义l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor;l驱动程序(Driver Program):运行Application的main()函数并且创建SparkCont转载 2017-11-10 10:11:30 · 252 阅读 · 0 评论 -
Spark SQL利器:cacheTable/uncacheTable
Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”(作为一个MapReduce的忠实粉丝,能这样说,大家都懂了吧),这在我们的业务场景里真的是非常有用。 假设我们有一个文本文件“datas”,每一行有三列数据,以“\t”分隔,模拟生成文件的代码如下: 执行该代码之后,文本文件会存储于本地路径:/tmp/datas,它包含1000行测试数据,转载 2017-11-10 10:13:50 · 666 阅读 · 0 评论 -
【Spark2.0源码学习】-9.Job提交与Task的拆分
在前面的章节Client的加载中,Spark的DriverRunner已开始执行用户任务类(比如:org.apache.spark.examples.SparkPi),下面我们开始针对于用户任务类(或者任务代码)进行分析 一、整体预览 基于上篇图做了扩展,增加任务执行的相关交互 Code:指的用户编写的代码RDD:弹性分布式数据集,用户编码根据转载 2017-11-11 15:59:40 · 511 阅读 · 0 评论 -
Spark RDD概念学习系列之RDD的5大特点
http://www.cnblogs.com/zlslch/category/924363.html RDD的5大特点 1)有一个分片列表,就是能被切分,和Hadoop一样,能够切分的数据才能并行计算。 一组分片(partition),即数据集的基本组成单位,对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时转载 2017-04-08 19:06:37 · 4891 阅读 · 1 评论