
spark
醉糊涂仙
这个作者很懒,什么都没留下…
展开
-
spark单词计数
一、spark-shell模式注:单词文件上传至hdfs,参考博文:https://blog.youkuaiyun.com/u010916338/article/details/81102346?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158946937419724835823007%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&req原创 2020-05-15 00:28:15 · 924 阅读 · 0 评论 -
sparkcore, sparksql, sparkstreaming,sparkmlib
一,MapReduce–>Hive–>spark(sparkcore, sparksql, sparkstreaming)MapReduce(1)分布式计算框架,只能用Java进行开发。Hive(1)由于MR只有Java程序员才能开发,但是程序员大部分都会sql, 所以衍生出类sql语法HQL(Hive Query Language).Hive其实是基于MR的一种分布式计算...原创 2018-09-20 16:18:46 · 547 阅读 · 0 评论 -
block,inputsplit,partion,task,excutor,stage,job,driver关系
一,block block是hdfs文件的切块,Hadoop2以后块大小默认为128M 二,inputsplit inputsplit指的是MapReduce中的map阶段的输入数据块,默认情况下,例如文件在hdfs上有3个切块,就会有3个inputsplit,就会起3个map任务. 但是inputsplit的数量是可以配置的--minsize 默认大小为1...原创 2018-07-07 10:50:33 · 519 阅读 · 0 评论 -
RDD会全部放到内存里吗?
不会 spark是基于内存计算的,但是不会将数据全都加载进内存 RDD包含内存数据和磁盘数据原创 2018-07-05 17:04:32 · 1764 阅读 · 0 评论 -
RDD为什么会分区??
这样做的目的就是为了分布式,例如不分区RDD就可能是RDD(1,2,3,4),假如有3个计算节点(3个worker),那么计算节点之间怎么分配数据就没有一个统一规则;分区之后可能就是RDD(1,2) (3,4)。这样如需计算时,就把1和2发送给一个worker,把3和4发送给另一个worker,按分区完成数据的分发。...原创 2018-07-05 16:33:00 · 736 阅读 · 0 评论 -
had a not serializable result: org.apache.hadoop.hbase.io.ImmutableBytesWritable
代码第一行补充: System.setProperty(“spark.serializer”, “org.apache.spark.serializer.KryoSerializer”)原创 2018-07-04 17:58:03 · 1484 阅读 · 0 评论 -
交互式处理
交互式处理 (interactive processing ) 操作人员和系统之间存在交互作用的信息处理方式。操作人员通过终端设备(见输入输出系统)输入信息和操作命令,系统接到后立即处理,并通过终端设备显示处理结果。操作人员可以根据处理结果进一步输入信息和操作命令。系统与操作人员以人机对话的方式一问一答,直至获得最后处理结果。采用这种方式,程序设计人员可以边设计,边调整,边修改,使错误和不足之处...转载 2018-07-17 08:37:02 · 879 阅读 · 0 评论 -
如何查看spark版本和Scala版本
使用spark-shell命令进入shell模式,得到信息如下: 注意:spark的版本号与Scala版本号是不一致的,spark依赖Scala原创 2018-07-04 09:42:15 · 58453 阅读 · 1 评论 -
spark模块
spark sql交互式查询 spark streaming流式计算 Graphx图计算 Mlib机器学习算法原创 2018-06-29 10:57:51 · 506 阅读 · 0 评论 -
spark集群安装
1,配置3个节点,ip分别设置为192.168.1.17;192.168.1.18;192.168.1.19 2,在每个节点上都解压spark安装包(spark-2.0.1-bin-hadoop2.7) 3,在每个节点conf/spark-env.sh中配置SPARK_LOCAL_IP=当前主机地址 注:以下xxxmasteripxxx统统都是192.168.1.17 3,在master节点原创 2017-11-09 15:03:23 · 351 阅读 · 0 评论