
spark
_bukesiyi
专注教育行业的技术从业者,致力于推动大数据和人工智能技术在教学与研究中的应用和创新。拥有丰富的实践经验和技术积累,擅长将复杂技术内容转化为易于理解的教程和项目实例,帮助更多人掌握前沿科技。深耕 Hadoop、机器学习、3D 计算机视觉等方向,期待在 优快云 与技术同仁共同成长、分享实践心得和行业见解。
展开
-
spark core 入门实战之二(RDD的练习)
有以下几种方式创建RDD#常用Transformation(即转换,延迟加载)#通过并行化scala集合创建RDDval rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8))#查看该rdd的分区数量rdd1.partitions.lengthval rdd1 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))val rdd...原创 2018-04-22 12:32:42 · 961 阅读 · 0 评论 -
spark streaming 实战入门 (结合github.com/apache/spark的NetworkWordCount.scala案例)
spark解决报错WARN util.Utils: Service 'sparkWorker' could not bind on port 0. Attempting port 1. Service 'sparkDriver' could not bind on a random free port. 这个报错提示是在spark启动从节点时出现的。 解决的方法是,在spark-env.sh中加入...原创 2018-04-22 12:33:14 · 583 阅读 · 0 评论 -
spark core 入门实战之一
sc.textFile("/home/hadoop/test/data/test1.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collectsc是sparkcontext 即是spark的上下文reduceByKey是rdd特有的方法,单纯的scala中没有蒙特卡罗求PI算法启动时候报错Hadoop中com.google.pro...原创 2018-04-21 17:21:04 · 822 阅读 · 0 评论 -
再探spark之一(复习之前)加spark如何实现远程调试代码
没启动spark的话。可以通过 sbin/start-all.sh 来启动spark按crtl+c来终止任务,而不是ctrl+zspark-shell --master spark://192.168.235.128:7077 连接到spark上 spark-shell --master spark://192.168.235.128:7077 --total-executor-cores 3 ...原创 2018-05-15 18:30:26 · 614 阅读 · 0 评论 -
spark streaming 学习(和flume结合+和kafka 的结合)
spark streaming 是实时计算spark core 之类的涉及到rdd的是离线计算所以说spark即是实时计算,又有离线计算spark streaming 的第一个例子利用 nc -lk 8888 在192.168.235.128的8888端口开启一个输入消息的应用在IDEA上建立一个spark streaming的程序package com.wxa.spark.fourimpor...原创 2018-05-27 14:56:15 · 1138 阅读 · 0 评论 -
再探spark之二
spark的cache缓存其中的方法 (保存在内存中) .cache() //进行缓存.unpresist(true) //对资源进行释放spark的checkpoint机制(保存在hdfs中)(checkpoint和cache都属于transformation 需要action才能执行)sc.setCheckpointDir("hdfs://hadoop01:9000/ck2018523")v...原创 2018-05-24 17:25:08 · 521 阅读 · 0 评论 -
spark结合hive
如果mysql是安装在windows上的话,hive在Linux上,要保证两者能通信的话需要改变windows上的字符集形式为latin1方法如下alter database hive character set latin1;话不多说码代码(hive shell里面 机器只启动了hdfs没有启动yarn所以没有启动hadoop的mapreduce程序)create table pe...原创 2018-05-27 10:16:06 · 710 阅读 · 0 评论