
spark
贾公子
talk is cheap,show me the code
展开
-
分布式和集群的区别和联系
集群是一个物理形态,分布式是一种分布方式,一个集群中可能运行着一个或者多个分布式系统,或者没有分布式系统原创 2017-10-18 08:55:27 · 273 阅读 · 0 评论 -
解决关闭Hadoop时no namenode to stop异常
http://blog.youkuaiyun.com/gyqjn/article/details/50805472转载 2017-12-12 10:07:24 · 2052 阅读 · 0 评论 -
关于spark UI界面的解释,非常清晰
spark UI 界面:http://blog.youkuaiyun.com/u013013024/article/details/73498508转载 2017-12-20 16:32:19 · 19371 阅读 · 0 评论 -
ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, maste
在spark上用pyspark进行spark的初始化时候,报错: ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*]) created by at /usr/spark/spark-2.2.0-bin-hadoop2.7/pyt原创 2017-12-20 17:38:46 · 2537 阅读 · 0 评论 -
spark中的map和flattop,persist和cache分别有什么区别?
首先,说一下map和flatmap: map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象,对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。 如图,flatmap是把map的结果扁平化处理,得到一个集合。在spark中,数据如果需要重复使用或者进行最终的存储,通常需要进行持久化,可以使用cache()和pe原创 2017-12-21 18:04:12 · 478 阅读 · 0 评论 -
关于RDD的打印输出(来自官网)
Printing elements of an RDDAnother common idiom is attempting to print out the elements of an RDD using rdd.foreach(println) or rdd.map(println). On a single machine, this will generate the expected ou原创 2017-12-21 19:10:12 · 7606 阅读 · 0 评论 -
spark运行spark-shell出现Connection refused问题
在搭建好的spark环境上运行spark-shell,出现如下connection refused错误 java.net.ConnectException: Call From coocaabi/172.20.5.199 to coocaabi:9000 failed on connection exception: java .net.ConnectException:Connection re原创 2017-12-14 09:30:21 · 8322 阅读 · 0 评论 -
spark运行时候datanode无故消失
这应该是多次格式化节点,或者集群不按照正常程序关机开启导致的错误,导致namenode clusterID和datanode clusterID前后不一致 解决方案: (1)在hadoop文件加下sbin/stop-all.sh (2)检查jps没有集群线程在运行了 (3)找到 Hadoop文件加下/dfs/data (4)删除data文件夹下的临时文件current等 (5)重新格式化原创 2017-12-14 09:56:03 · 834 阅读 · 0 评论 -
hadoop+spark:error :file not found问题
这个问题,大多数是因为这个file是真的不存在,你需要创建让它存在; 或者是因为你的配置文件中写的文件名字或者路径有错误。。。。原创 2017-12-14 10:00:06 · 693 阅读 · 0 评论 -
spark中常见的RDD的转化操作和行动操作算子都有哪些?实用~
RDD的常见的转化操作和行动操作算子,其实需要记一记,记住之后,编程的时候就不用在纠结得到的结果是一个RDD,还是一个运算结果。转化操作:对一个{1,2,3,4,4}的RDD转化操作map():将函数应用到RDD中的每一个元素,返回值构成新的RDD;flatmap():将函数应用于RDD中的每一个元素,并将返回的迭代器中的所有内容构成新的RDD,常用于切分单词;filter():根据条件过滤,返回新原创 2018-04-25 12:41:14 · 1753 阅读 · 0 评论 -
hadoop -fs -copyfromlocal 和-put 的区别
简单的说,-put更宽松,可以把本地或者HDFS上的文件拷贝到HDFS中;而-copyFromLocal则更严格限制只能拷贝本地文件到HDFS中。如果本地和HDFS上都存在相同路径,则-put跟趋于优先取HDFS的源。原创 2018-04-26 09:05:17 · 5786 阅读 · 0 评论 -
RDD中的依赖关系,宽依赖和窄依赖,容易理解~
如上图所示,左边为窄依赖,每个父RDD的分区都被至多一个子RDD分区所用,而宽依赖的多个子分区依赖一个父RDD分区。例如:map操作是一种窄依赖,join操作是一种宽依赖,groupbykey是一种寛依赖。用处第一:窄依赖允许在单个节点上进行流水线式处理,这个节点可以计算所有父级分区,例如可以逐个元素的执行filter()和map()操作,相反,宽依赖需要所有的父RDD分区的数据可用,并且数据已经通原创 2018-04-26 09:30:20 · 1782 阅读 · 1 评论 -
Spark Job执行流程源码解析,写的很清楚!
Spark Job执行流程源码解析转载 2018-04-26 17:43:19 · 204 阅读 · 0 评论 -
spark 中的Cache和Checkpoint,超级受用~
以下github上别人写的,通过问答的方式解决了很多疑问,讲的特别透彻。spark 中的Cache和Checkpoint设置检查点的意义:将计算代价较大的 RDD checkpoint 一下,这样,当下游 RDD 计算出错时,可以直接从 checkpoint 过的 RDD 那里读取数据继续算。 Cache和checkpoint的区别主要有以下两点: (2)检查点是一个job来完成的,是执行的完一转载 2018-04-27 10:37:42 · 1323 阅读 · 0 评论 -
spark streaming ,预写日志(write-ahead logging)和checkpoint。
(1)什么是Spark-Streaming?spark steaming 是spark Core API的一种扩展,它可用于大规模、高吞吐量、容错的实时数据流处理。它支持从多种数据源中读取数据,如 kafka,flume,twitter,zeromq,kinesis 或者是tcp socket。并且能够使用类似高阶函数的复杂算法来进行数据处理,如 map(),reduce(),join(),wind原创 2018-04-27 20:12:29 · 2282 阅读 · 1 评论 -
在windows上pycharm配置spark环境
(1)分别从Hadoop官网和spark官网下载Hadoop和spark的安装包 Hadoop下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/common spark下载地址: http://spark.apache.org/downloads.html 注意版本要兼容; (2)把Hadoop和spark的安装包解压,由于他们都是非安装软件原创 2017-12-11 16:12:37 · 3037 阅读 · 2 评论 -
spark分布式框架搭建详细步骤亲测有效
(1)系统搭建: 主要参考:http://blog.youkuaiyun.com/hit0803107/article/details/52795241 辅助参考: http://blog.youkuaiyun.com/thinkpadshi/article/details/45720405 http://blog.youkuaiyun.com/renzegis/article/details/40976757 http:/原创 2017-11-13 15:13:42 · 529 阅读 · 0 评论 -
SSH无密码登录——简洁明白的操作
引自:http://www.dataguru.cn/thread-324474-1-1.html 在有一些文章写SSH无密码登录都写的很复杂,所以在这我重新把自己配置的步骤写下来。在安装Hadoop集群和部署SPARK时不是必须要安装SSH免密码登录的,只是为了方便操作而配置,很多人都误以为这一步是必须的,其实不是。 一、目标 在组建hadoop集群时,需要多台实体机进行通信(如转载 2017-11-13 15:05:26 · 297 阅读 · 0 评论 -
spark集群部署-硬件配置官方建议
1、存储系统 因为spark job需要从外部的存储系统(或文件系统)读取数据(例如:hbase、hdfs等),所有让spark任务尽可能的接近数据本地,让spark和hadoop部署到相同的节点上;数据本地性:将计算任务推送到数据所在地,如果不能保证,也要尽可能的让计算任务接近数据所在地;2、磁盘spark虽然是内存计算,但当数据在内存中无法容下或数据需要持久化时,还是需要数据写入本地磁盘,所以原创 2017-10-18 09:52:08 · 841 阅读 · 0 评论 -
spark单机版本的搭建
首先配置ssh localhost确保安装好ssh:sudoapt−getupdate sudo apt-get update sudo apt-get install openssh-server $ sudo /etc/init.d/ssh start生成并添加密钥:ssh−keygen−trsa ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >>原创 2017-10-19 08:54:05 · 322 阅读 · 0 评论 -
spark的使用
一、基础概念: RDD对象: spark的核心对象, 文件等加载均转化为RDD对象(SparkContext.textFile(input_file) ) RDD对象属性、方法: map、reduce、flatmap、reducebykey 二、使用 1.声明: from pyspark import SparkContext, SparkConf原创 2017-11-02 15:43:09 · 479 阅读 · 0 评论 -
稀疏矩阵存储格式总结+存储效率对比:COO,CSR,DIA,ELL,HYB
转自:https://www.tuicool.com/articles/A3emmqi 稀疏矩阵是指矩阵中的元素大部分是0的矩阵,事实上,实际问题中大规模矩阵基本上都是稀疏矩阵,很多稀疏度在90%甚至99%以上。因此我们需要有高效的稀疏矩阵存储格式。本文总结几种典型的格式:COO,CSR,DIA,ELL,HYB。(1)Coordinate(COO) 这是最简单的一种格式,每一个元素需要用一个三元转载 2017-11-02 16:27:46 · 1414 阅读 · 0 评论 -
斯皮尔曼等级相关(Spearman Rank Correlation)
什么是斯皮尔曼等级相关 斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”。 斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。斯皮尔曼原创 2017-11-02 17:33:27 · 46392 阅读 · 1 评论 -
关于在idea中建立scala工程无法new scala文件的问题
(1)首先,谈一下建立scala工程的问题,有两种方法 一,file–new project–maven-apache scala 二,file–new project–scala–maven/stb (2)无法建立scala文件通常有以下几个原因 一,建立的工程不是scala工程 二,没有下载scala插件,scala的下载方法为file–setting–plugins搜索scala,然原创 2017-11-03 10:47:21 · 6443 阅读 · 0 评论 -
jps 命令使用详解
jps是jdk提供的一个查看当前java进程的小工具, 可以看做是JavaVirtual Machine Process Status Tool的缩写。非常简单实用。 命令格式:jps [options ] [ hostid ] [options]选项 :-q:仅输出VM标识符,不包括classname,jar name,arguments in main method -m:输出m原创 2017-11-13 14:37:33 · 2259 阅读 · 0 评论 -
CentOS hadoop配置错误Incorrect configuration: namenode address dfs.namenode.servicerpc-address ...
./sbin/start-all.shThis script is Deprecated. Instead use start-dfs.sh and start-yarn.sh 13/09/09 16:50:21 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using bui原创 2017-11-13 14:47:56 · 1567 阅读 · 0 评论 -
hadoop集群启动jps查看后没有DATANODE
删除data/hadoop/cluster/data/current/VERSION文件后重启即可转载 2017-11-13 14:50:12 · 5190 阅读 · 2 评论 -
格式化namenode时:SHUTDOWN_MSG: Shutting down NameNode at java.net.UnknownHostException: xxx
http://www.cnblogs.com/nattyq/p/3458565.html 原因是hadoop在格式化HDFS的时候,通过hostname命令获取到的主机名在/etc/hosts文件中进行映射的时候,没有找到,也就是名字不一样。这里需要修改一下用户的主机名。查看自己用户的主机名:hostname查看/etc/hosts内容:cat /etc/hosts修改主机名的方法:1.编辑/et转载 2017-11-13 14:57:25 · 13970 阅读 · 1 评论 -
hadoop-2.7.1:Error: Cannot find configuration directory: /etc/hadoop
由于配置是hadoop-2.7.1所以后来在启动过程会发现终端执行 ./start-yarn.sh starting yarn daemons Error: Cannot find configuration directory: /etc/hadoop Error: Cannot find configuration directory: /etc/hadoop是找不到目录的原因,通过阅读相转载 2017-11-13 14:59:27 · 1942 阅读 · 1 评论 -
为什么spark中只有ALS
为什么spark中只有ALS转载 2018-07-02 21:58:31 · 398 阅读 · 0 评论