
Hadoop
文章平均质量分 72
失落小羊
技术是一生的爱好
展开
-
Hadoop-01
磁盘读取速度100MB/s ,读取1T磁盘需要两个半小时。 减少读取方法:同时在多个磁盘上读取数据,拥有100个磁盘,每个存储1%数据,并行读取, 两分钟可读取完。 我们可以存储100个数据集,实现并行访问,缩短数据分析时间。 可能遇到问题: 1.硬件故障 - RAID - HDFS 2.分析任务需要以某种方式结合大部分数据共同完成分析任务, 从一个磁盘读取的原创 2013-06-26 21:01:59 · 609 阅读 · 0 评论 -
Hadoop2-MapReduce(2)
新的API: //Mapper MyMapper extends Mapper map(LongWritable key,Text value,Context context) throws ...{ .... context.write(new Text(year),new IntWriteable(..)); } //Reducer MyReducer exte转载 2013-06-30 12:20:02 · 712 阅读 · 0 评论 -
Hadoop2-MapReduce(1)
MapReduce任务分为两个处理阶段: 程序猿需要定义两个函数:map函数和reduce函数 1.map: 准备数据(从输入中提取有用数据) 2.reduce:处理准备数据(MapReduce框架处理map函数的输出,根据键值对进行排序和分组,然后发送到reduce函数) 每个阶段都以键值对作为输入输出,由程序猿选择它们的类型。 (key,value) (0,1) (0原创 2013-06-29 23:16:59 · 687 阅读 · 0 评论 -
Hadoop3-分布式文件系统1
Hadoop Distributed Filesystem - 分布式文件系统 HDFS 以流式数据访问模式来存储超大文件。 超大文件 流式数据访问 商用硬件(故障) 不适合在HDFS上运行的应用: 低时间延迟的数据访问(HBase更好的选择) 大量小文件 多用户写入,任意修改文件 概念: 数据块:每个磁盘有默认原创 2013-07-02 21:46:38 · 705 阅读 · 0 评论 -
Hadoop3-分布式文件系统2
1.从Hadoop URI中读取数据 static{ URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory()); } InputStream in=null; try{ in=new URI("hdfs://host/path").openStream(); IOUtils.copyBytes(in,Sys转载 2013-07-04 21:09:57 · 658 阅读 · 0 评论