Principle No.1 只有干净的数据才能进入存储。
这个原则是极其重要。
1. 大数据eco,唯一的优点是处理海量数据,但是工具一般都不完善,藏着各种坑。不像传统数据库和传统功能,完备精致。
2. 最佳的使用方式就是:数据是干净清洁完美的,用大数据工具处理,性能很爽。
3. 但是,如果你试图用大数据eco做数据清洗,烦死你!
4. 所以,数据务必清洗好了再进入大数据存储,然后再去做计算。
Principle No.2:数据存储用hbase,如果数据永远不需要修改更新,可以考虑存hdfs。
Principle No.3: hive建metadata,impala做计算。
Principle No.4: 有些人都期望用SQL解决所有问题,给他们SQL吧。