Hadoop的核心,HDFS 与 MapReduce
MapReduce 适合一次写入、多次读取数据的应用,关系型数据库则更适合持续更新的数据。
MapReduce 的高级查询语言(如:phoenix、Pig、Hive )
MapReduce 的核心特征,数据本地化(data locality)。因此获得良好的性能,并节省网络带宽。
Apache Mahout 是一个在Hadoop上运行的机器学习类库。(例如:分类和聚类算法)
SETI@home
数据模式:
数据访问模式中包含大量的硬盘寻址,进入等待阶段。(关系型数据库)
而流数据读取模式,主要取决于传输速率。(网络宽带的大小) (HBase内存数据库)
HBase表设计:
1、只允许创建少量<3 column Family,Hbase对多列族支持不好。
2、列族、列、单元格的名称尽量简短,增加HFile存储效率,较少读取的性能开销。
HBase的Rowkey设计:
1、长度越短越好
2、确保唯一性
3、业务访问中权重高的key放在前面,做个字段拼接,类似关系型数据库的联合主键。
4、大数据,查询条件多的时候,不使用:scan columnvaluefileter 很影响性能。