
大数据
星月的雨
这个作者很懒,什么都没留下…
展开
-
flume 总结
flume 属性mv .XXX.txt XXX.txt正在进行写操作处理的文件,文件名会加一个后缀.tmp.以表明尚未完成hdfs.inUsePrefix 属性 设置为 _ ,此举将正在写操作的文件名上加一个_,这样做是因为mapReduce会忽略以下划线为前缀的文件,_events.139213123.log.tmp,数字为sink生成的时间戳超过给定打开时间,达到给定的文件大小,写满了给定数量...原创 2017-12-17 15:30:03 · 302 阅读 · 0 评论 -
MapReduce的特性
计数器计数器是手机作业统计信息的有效手段之一,用于质量控制或应用级统计,计数器还可以辅助诊断系统故障内置计数器Hadoop为每个作业维护若干内置计数器,如处理的字节数,和记录数计数器分组MapReduce任务计数器TaskCount文件系统计数器FileSystemCounterFileInputFormatFileI原创 2018-01-29 22:10:39 · 1479 阅读 · 0 评论 -
Yarn 总结
Yarn运行机制客户端程序向ResourceManager提交应用并请求一个ApplicationMaster实例ResourceManager找到可以运行一个Container的NodeManager,并在这个Container中启动ApplicationMaster实例ApplicationMaster向ResourceManager进行注册,注册之后客户端就可原创 2018-01-20 11:36:45 · 267 阅读 · 0 评论 -
Spark编程指南
概述在一个较高的概念上来说,每一个 Spark 应用程序由一个在集群上运行着用户的 main 函数和执行各种并行操作的 driver program(驱动程序)组成。Spark 提供的主要抽象是一个弹性分布式数据集(RDD),它是可以执行并行操作且跨集群节点的元素的集合。RDD 可以从一个 Hadoop 文件系统(或者任何其它 Hadoop 支持的文件系统),或者一个在 driver转载 2018-01-27 14:06:11 · 463 阅读 · 0 评论 -
MapReduce Sqoop2
Sqoop 2 MapReduce Job一个作业初始化的工作:作业映射阶段:下面的图表对工作的减少阶段进行了描述; ,------------. ,---------------------. |SqoopReducer| |SqoopNullOutputFormat| `---+---原创 2018-02-01 22:04:35 · 345 阅读 · 0 评论 -
HIVE总结
简述CREATE TABLE records2 (station STRING, year STRING, temperature INT, quality INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';LOAD DATA LOCAL INPATH '/Users/tom/book-workspace/hadoop-boo原创 2018-01-30 22:30:54 · 245 阅读 · 0 评论 -
MapReduce的类型和格式
MapReduce的类型Context类对象用于输出键-值对map: (k1, v1) -> list(k2, v2)combiner: (k2, list(v2)) -> list(k2, v2)reduce: (k2, list(v2)) -> list(k3, v3)partition函数对中间结果的键值对 (k2 , v2)进行处理,并返回一个分区索引原创 2018-01-23 23:03:17 · 520 阅读 · 0 评论 -
Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues
map(function) map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例:val a = sc.parallelize(1 to 9, 3)val b = a.map(x => x*2)//x => x*2是一个函数,x是传入参数即RDD的每个元素,x*2是返回值a.collect//结转载 2018-01-23 21:38:20 · 675 阅读 · 0 评论 -
MapReduce工作机制
作业提交创建一个job实例向ResourceManage请求一个新应用ID将运行所需要的资源复制到一个以作业ID命令的目录下的共享文件系统中通过ResourceManage的submitApplication()方法提交作作业初始化将提交的作业请求传递给Yarn调度器,调度器分配一个容器,资源管理器在节点管理器的管理下,在容器中启动application Maste原创 2018-01-23 21:30:23 · 274 阅读 · 0 评论 -
MapReduce应用开发
用于配置的API Configuration conf = new Configuration(); conf.addResource("configuration-1.xml"); conf.addResource("configuration-2.xml");辅助类GenericOptionsParser,Tool,ToolRunnerGenericO原创 2018-01-22 22:51:11 · 336 阅读 · 0 评论 -
Hadoop I/O操作
数据完整性客户端从datanode读取数据时,会验证校验和每个datanode也会在后台线程中运行一个DataBlockScanner,从而定期验证存储在这个datanode中的所有数据块由于Hdfs存储每个数据块的复本,可以通过复本来修复受损的数据块压缩压缩两大好处: 1.减少存储文件所需要的磁盘空间2.加速数据在网络和磁盘上的传输通常使用gzip进行压缩原创 2018-01-20 12:46:13 · 329 阅读 · 0 评论