
hadoop
文章平均质量分 56
刀砍磁感线
这个作者很懒,什么都没留下…
展开
-
多线程、分布式任务如何向HDFS加载数据
大数据计算时,多线程与分布式的并行能够很好的加速数据的处理速度。而在大数据存储时,分布式的文件存储系统对并发的写请求支持存在天然的缺陷。这是一对天然的矛盾,暂时无法解决,只能缓和。 要想缓和,可通过加层的方法实现。大数据计算与大数据存储对中间层的要求主要有两点:第一,支持并发访问,以此弥补分布式存储层的不足;第二,支持缓存,起到缓冲池作用,并支持按照一定调度策略实现对缓冲的访问。一般的关系型数据原创 2015-04-27 10:47:48 · 3847 阅读 · 0 评论 -
scala 在 spark 中操作 hdfs
问题场景:在编写spark程序时,输出目录存在会造成spark任务失败。处理方法有2种,第一利用脚本方式,在主任务之上加层处理,第二,在spark任务中先处理掉目录。spark支持的可编程语言有Scala、Python、Java。其中Python无需编译打包,十分方便,但是貌似没有处理hdfs系统的Python接口,而Python的执行脚本语言是异步于主任务的,换言之,主任务与脚本任务的执行完成顺原创 2015-07-08 10:00:47 · 7623 阅读 · 0 评论 -
Hadoop文件放置策略及数据倾斜的balance方法
转自: http://www.cnblogs.com/zhanghuijunjava/archive/2013/04/22/hadoop-block_hdfs.html?utm_source=tuicool http://www.cnblogs.com/Richardzhu/p/3623323.html Hadoop文件放置 1:什么是HDFS? HDFS转载 2015-08-05 14:48:34 · 6117 阅读 · 0 评论