
spark
yuzx2008
这个作者很懒,什么都没留下…
展开
-
初识 Spark
初识 Spark因为本人已经有搭建好的 hadoop 和 hbase 集群,所以,选择 spark 版本为 without-hadoop 1.5.2。安装tar -xf /home/yuzx/data/download/spark-1.5.2-bin-without-hadoop.tgz -C /home/yuzx/serverln -sf -T /home/yuzx/server/spark-1原创 2015-12-10 17:48:40 · 737 阅读 · 0 评论 -
使用 Intellij IDEA + SBT 做 Spark 开发环境[1]
参考文档: http://danielnee.com/2015/01/setting-up-intellij-for-spark/创建新 Scala 工程使用 IDEA 新建 scala 工程工程目录结构在项目的根目录,执行mkdir -p src/main/resources/mkdir -p src/main/scala/mkdir -p src/main/java/mkdir -p sr翻译 2015-12-22 10:56:10 · 3371 阅读 · 0 评论 -
Spark TopK 问题解决-使用最小堆
参考资料: 《Spark 大数据处理》 by 高彦杰整个排序取 TopK 的实现:object TopK0 { val K = 3 def main(args: Array[String]) { // 执行 wordcount val conf = new SparkConf().setAppName("TopK0") val spark = new SparkCont原创 2016-02-24 17:03:08 · 2816 阅读 · 0 评论 -
hadoop集群&docker 的一些坑
即使每次 stop-dfs.sh 也会出现 tmp 目录文件被删除的情况tmp 目录不安全,Linux 每次重启,文件可能被删除hregionserver 有时启动很慢,jps 多次后才看到进程报错:regionserver.HRegionServer: reportForDuty to master=localhost,16000,1442913779830原创 2016-06-12 19:48:38 · 2643 阅读 · 5 评论 -
Hadoop On Docker 实践
NodemanagerDocker 上启动 Nodemanager 进程后,Docker 容器会承载很多 Container(Yarn 的资源单元),而这些 Container 其实是需要对外提供 tcp 服务的,而这些端口需要暴露到网络上,所以,选择 Docker 网络时需要注意,如果运行Docker容器的主机没有提供 sudo 权限其实会有很多限制,那么可以:docker原创 2017-03-09 15:07:20 · 1705 阅读 · 0 评论