
hadoop
文章平均质量分 77
yukjin
这个作者很懒,什么都没留下…
展开
-
气象数据集例子Java程序代码
import java.io.*; import org.apache.*; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapred.FileInputFormat; im原创 2014-01-08 11:47:31 · 1782 阅读 · 0 评论 -
hadoop权威指南学习一
关于MapReduce 气象数据集例子 使用hadoop分析数据 Map和Reduce阶段 Map阶段的输入是原始气象数据,输入格式为文本格式,Map函数的键值对,键为所在行相对于文件起始位置的偏移量,值则为该行文本内容。 这个例子的Map函数的任务是提取每行文本中的年份和气温信息。Map函数的输出经MapReduce框架处理后送至Reduce函数。处理过程需原创 2014-02-26 11:44:29 · 904 阅读 · 0 评论 -
安装hadoop
先决条件 安装jdk 安装 下载hadoop发布包(apache官网) 解压下载后的压缩包 运行hadoop程序前指定JAVA_HOME,如果系统JAVA_HOME环境变量已经正确设定则无需进行其他配置,通常在/etc/profile启动脚本中设置。 创建一个指向hadoop安装目录的环境变量HADOOP_INSTALL,并将其加入PATH; 输入hadoop -version验证安原创 2014-02-26 21:16:21 · 632 阅读 · 0 评论 -
hadoop权威指南学习二
Hadoop分布式文件系统 HDFS的设计 HDFS以流式数据访问模式来存储超大文件。 流式数据访问 HDFS的构建思路是这样的:一次写入,多次读取是最高效的。数据集通常是由数据源生成或复制而来,接着长时间在此数据集上进行分析,每次分析都设计数据集的大部分或全部数据。 不适合使用HDFS的场景 1.低时间延迟的访问 HDFS是为高数据吞吐量应用优化的,这可能以高延迟作原创 2014-02-26 15:38:10 · 841 阅读 · 0 评论