分布式存储和计算
duming115
喜欢编程,也喜欢看一些编程的书
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Chukwa
1. 创建hive表,加载hive生成的数据CREATE TABLE raw_sequence (line STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'STORED AS INPUTFORMAT 'org.apache.hadoop.chukwa.inputtools.Chu...原创 2011-05-06 17:54:17 · 162 阅读 · 0 评论 -
不同的数据中心之间的数据同步方案 设想
1. 数据的分布式存储与计算应该是基于一个数据中心内的,即使用户参与的计算也应该是基于区域内的,例如南北两个数据中心。2. 数据应该与数据的管理信息(Meta)内容应该是分开存放的,因为meta(数据的唯一标识,路径或者key,大小,更新时间,增量更新的长度与内容)数据的量非常小,对meta信息的南北同步可以在非常短时间内来完成,通过对meta的定期扫描可以对数据做增量的更新,然后对meta对...原创 2010-10-22 22:17:31 · 1045 阅读 · 0 评论 -
Hadoop cloudera CDH3B4
1. 问题: hadoop的客户端运行hadoop命令,但是没有在指定的日志文件中输出,指定的日志文件也不存在目录下. 解决: hadoop的日志输出由conf/log4j.properties控制,log4j.properties文件中指定hadoop.log.dir=. ,运行hadoop时,会由conf/hadoop-env.sh中指定的export HADOOP_LOG_DIR 指定...原创 2011-03-10 11:36:28 · 166 阅读 · 0 评论
分享