bigdata
夜下探戈
Pursue your object, be it what it will, steadily and indefatigably.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Error: recoverUnfinalizedSegments failed for required journal
一、问题描述 HA按照规划配置好,启动后,NameNode不能正常启动。刚启动的时候 jps 看到了NameNode,但是隔了一两分钟,再看NameNode就不见了。 但是测试之后,发现下面2种情况: 1)先启动JournalNode,再启动Hdfs,NameNode可以启动并可以正常运行 2)使用start-dfs.sh启动,众多服务都启动了,隔两分钟NameNode会退出,再次hado转载 2017-11-06 23:22:18 · 4212 阅读 · 2 评论 -
hadoop wordcount求共同好友代码实现
package com.Practice.SameFriend; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; impor...原创 2018-03-16 22:18:00 · 551 阅读 · 0 评论 -
Spark架构及原理
开发角度 原则一:避免创建重复的RDD 原则二:尽可能用同一个RDD 原则三:对多次使用的RDD进行持久化 如何选择一种最合适的持久化策略 MEMORY_ONLY MEMORY_ONLY_SER MEMORY_AND_DISK_SER 不考虑:DISK_ONLY和_2后缀 原则四:尽量避免使用shuffle类算子 能不用就不用 能不能用非shuffle类的算子去替代非shuffle类的j...原创 2018-04-25 15:43:23 · 418 阅读 · 0 评论 -
RDD原理
RDD概念 RDD的内部属性 一组分片(Partition),即数据集的基本组成单位 计算每个分片的函数 RDD之间的依赖关系 一个Partitioner,即RDD的分片函数 分区列表,存储存取每个Partition的优先位置(preferred location) 可选属性 可选属性 RDD的特点 RDD的优点 RDD的存储与分区 RDD的容错机制 Spark计算工作流 RDD编程模型...原创 2018-04-25 15:43:53 · 2036 阅读 · 0 评论 -
RDD使用
RDD操作 RDD的创建方式 RDD的两种操作算子 RDD操作 RDD的创建方式 从Hadoop文件系统(或与Hadoop兼容的其他持久化存储系统,如Hive、Cassandra、HBase)输入(例如HDFS)创建。 从父RDD转换得到新RDD。 通过parallelize或makeRDD将单机数据创建为分布式RDD。 4.基于DB(Mysql)、NoSQL...原创 2018-04-25 15:44:16 · 603 阅读 · 0 评论 -
Spark架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势: Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数转载 2018-04-25 15:46:10 · 613 阅读 · 0 评论
分享