
hadoop
rdman
这个作者很懒,什么都没留下…
展开
-
Hadoop发展简史
Hadoop是Doug Cutting-- Apache Lucene创始人-- 开发的使用广泛的文本搜索库。Hadoop起源于Apache Nutch,后者是一个开源的网络搜索引擎,本身也是由Lucene项目的一部分。Hadoop名字的起源Hadoop这个名字不是一个缩写,它是一个虚构的名字。该项目的创建者,Doug Cutting如此解释Hadoop的得名:"这个名字是转载 2014-04-15 17:51:06 · 1232 阅读 · 0 评论 -
hadoop fs –stat命令详解
当向HDFS上写文件时,可以通过设置dfs.block.size配置项来设置文件的block size,这导致HDFS上不同文件的block size是不同的。有时候我们需要知道HDFS上某个文件的block size,比如想知道该该文件作为job的输入会创建几个map等。Hadoop FS Shell提供了一个-stat选项可以达到目的。官方文档描述这个选项时遗漏了可选参数。-stat选项的转载 2016-10-22 19:36:11 · 2094 阅读 · 0 评论 -
hadoop判断文件是否存在
hadoop判断文件是否存在 在shell中判断一个HDFS目录/文件是否存在 直接看shell代码: hadoop fs -test -e /hdfs_dirif [ $? -ne 0 ]; then echo "Directory not exists!"fihadoop fs -test -e 用于判断HDFS目录/文件是否存在,下一步检测该命令转载 2016-10-22 19:44:41 · 8991 阅读 · 0 评论 -
多线程、分布式任务如何向HDFS加载数据
大数据计算时,多线程与分布式的并行能够很好的加速数据的处理速度。而在大数据存储时,分布式的文件存储系统对并发的写请求支持存在天然的缺陷。这是一对天然的矛盾,暂时无法解决,只能缓和。要想缓和,可通过加层的方法实现。大数据计算与大数据存储对中间层的要求主要有两点:第一,支持并发访问,以此弥补分布式存储层的不足;第二,支持缓存,起到缓冲池作用,并支持按照一定调度策略实现对缓冲的访问。一般的关系型数据转载 2017-01-04 17:30:19 · 1585 阅读 · 0 评论