
spark
文章平均质量分 79
woloqun
这个作者很懒,什么都没留下…
展开
-
文章相似度计算
先扯闲扯下pyspark环境的问题前端时间在帮助算法组的同学使用spark跑一些模型,因为那边的同学没有使用过spark,且不会scala和java,而他们的诉求是使用python跑一些spark的任务;所以我这边就协助配置了一下python on spark的环境,这个环境配置起来还是挺费劲的;python的环境没有使用conda[为啥没用?个人习惯;但需要注意的是,如果使用conda的话python的版本必须低于3.8],我使用的是自己编译的python-3.6,而且每台hadoop每台机器都需.原创 2020-10-19 14:30:11 · 1722 阅读 · 1 评论 -
使用spark tf-idf 提取文章的关键字
HashingTF无法获得词索引关系,所以tf需要替换成CountVectorizer,具体看代码from pyspark.ml.feature import HashingTF, IDF, Tokenizerfrom pyspark.ml.feature import CountVectorizersentenceData = spark.createDataFrame([ (1, "Hi I heard about Spark Spark".split(" ")), (2,.原创 2020-09-21 11:14:04 · 1233 阅读 · 0 评论 -
am-memory,driver-memory,executor-memory
先搞清几个概念:spark 提交任务方式spark 提交任务有两种方式,一种是yarn-client,一种是yarn-cluster,这两种方式的区别就是:yarn-cluster的ApplicationMaster在任一一台NodeManager上启动,此方式ApplicationMaster包含driver,am的内存:driver.memory+driver.memoryOverhea...原创 2019-10-17 14:34:45 · 5323 阅读 · 1 评论 -
spark之用hadoopAPI读写文件
saveAsNewAPIHadoopFIle和saveAsHadoopFile的的区别引用的outputFormat的类路径不同,saveAsNewAPIHadoopFIle用的OutputFormat是import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat,saveAsHadoopFile用的是org.apache.had...原创 2018-06-09 18:52:24 · 10493 阅读 · 0 评论 -
spark消费kafka的两种方式
转载:http://blog.youkuaiyun.com/wisgood/article/details/51815845Spark-Streaming获取kafka数据的两种方式Receiver与Direct一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据...转载 2018-06-09 18:58:40 · 12221 阅读 · 0 评论 -
spark2.1 新特性
Apache Spark 2.0是基于spark branch-2.x 开发的,相比于branch-1.0,它在功能和性能等方面均有巨大改进。在性能方面,Spark 2.x 有2~10倍的提升;在功能方面,Spark SQL中的Dataset变得成熟,Spark 2.x通过Dataset重构了Spark Streaming和MLlib的API,进而使得这两个系统在易用性和性能方面有重大提升,在不久...原创 2018-06-09 19:01:36 · 1024 阅读 · 0 评论 -
yarn架构设计
注释:1.客户端提交请求 2.与资源调度器协调启动AM 3.在container上启动AM 4.AM向ASM注册,这样ResourceManager就可以查看程序的运行状态,AM就可以为任务申请资源 5.AM采用轮询的方式通过RPC协议向ResouceManager申请和领取资源 6.AM申请到计算资源NM 7.NM启动分配container启动task名词解释...原创 2018-06-10 11:01:10 · 429 阅读 · 0 评论 -
spark rpc
前段时间研究了一下spark rpc这部分源码,现在来总结下,以免以后忘记,spark rpc代码比较复杂抽象,这里我就想到什么就写什么,可能逻辑顺序上不是很严谨,大家多见谅;说明下,这里源码的为2.x版本;底层通信框架spark在1.6版本之后底层通信框架用netty替代了actor;具体原因,查看了网上的文档,大多说开发中经常使用到actor框架,容易和spark中的actor版本冲突...原创 2018-07-22 17:19:27 · 670 阅读 · 0 评论 -
Hive on Spark: Getting Started
Hive on Spark provides Hive with the ability to utilize Apache Spark as its execution engine.set hive.execution.engine=spark;Hive on Spark was added in HIVE-7292.Version CompatibilityHive on ...转载 2018-09-03 13:25:13 · 891 阅读 · 0 评论 -
spark窄依赖和宽依赖
spark窄依赖和宽依赖原创 2018-06-09 18:46:02 · 360 阅读 · 0 评论 -
spark任务提交流程(standalone)
spark程序使用spark-submit方式提交,如果是standalone集群的话,会在提交任务的节点启动一个driver进程; dirver进程启动以后,首先是构建sparkcontext,sparkcontext主要包含两部分:DAGScheduler和TaskScheduler TaskScheduler会寻找Master节点,Master节点接收到Application的注册请求后...原创 2018-06-09 18:43:09 · 1632 阅读 · 0 评论 -
spark之pageRank
PageRank算法是以Google 的拉里· 佩吉(Larry Page)的名字命名的,用来根据外部文档指向一个文档的链接,对集合中每个文档的重要程度赋一个度量值。该算法可以用于对网页进行排序,当然,也可以用于排序科技文章或社交网络中有影响的用户。PageRank 是执行多次连接的一个迭代算法,因此它是RDD 分区操作的一个很好的用例。算法会维护两个数据集:一个由(pageID, li...原创 2017-07-25 14:45:05 · 854 阅读 · 0 评论 -
spark Launch Executor
ClientEndpoint发送RegisterApplication请求,Master返回RegisteredApplication注册成功消息,到这里application注册就完成了;接下来就是启动Executors,schedule()是启动Exexutors的入口private def schedule(): Unit = { if (state != RecoveryS...原创 2018-06-09 18:09:10 · 516 阅读 · 0 评论 -
spark application 注册
之前介绍了Driver进程的启动流程,今天介绍下Applicaiton是怎么启动向Master注册的,Application启动可以认为就是执行main方法里的代码,通常都会先定义SparkContext对象,例如val sc = new SparkContext(conf),所以可以以SparkContext为切入口分析applicaiton的启动注册流程.SparkContext ...原创 2018-06-09 18:14:50 · 683 阅读 · 0 评论 -
spark driver 提交启动流程
向spark集群(standalone)提交作业,我们通常用如下命令./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://207.184.161.138:7077 \ --executor-memory 20G \ --total-executor-cores 10...原创 2018-06-09 18:20:42 · 1904 阅读 · 1 评论 -
Spark Shuffle原理及相关调优
转自:http://sharkdtu.com/posts/spark-shuffle.html 通过文章“Spark Scheduler内部原理剖析”我们知道,Spark在DAG调度阶段会将一个Job划分为多个Stage,上游Stage做map工作,下游Stage做reduce工作,其本质上还是MapReduce计算框架。Shuffle是连接map和reduce之间的桥梁,它将map的输出对应到...转载 2018-06-09 18:27:56 · 494 阅读 · 0 评论 -
spark 提交任务方式(spark-yarn和spark-client)
yarn-cluster和yarn-client方式的区别:yarn-cluster的ApplicationMaster在任一一台NodeManager上启动,申请启动的Executor反向注册到AM所在的NodeManager,而yarn-client方式的用ExecutorLancher替代AM,ExecutorLancher的作用很有限,它向RM申请一批container启动Exec...原创 2018-06-09 18:40:14 · 1917 阅读 · 0 评论 -
读写parquet格式文件的几种方式
摘要本文将介绍常用parquet文件读写的几种方式1.用spark的hadoopFile api读取hive中的parquet格式文件2.用sparkSql读写hive中的parquet格式3.用新旧MapReduce读写parquet格式文件读parquet文件首先创建hive表,数据用tab分隔create table test(name string,ag...原创 2017-07-25 14:28:03 · 62031 阅读 · 4 评论