创始人 doug cutting
lucene→nutch→hadoop 各阶段
关键技术 GFS Map-Reduce (hadoop) Bigtable(Hbase) 谷歌提供的关键技术和思想
高容错性 默认3副本
批处理 大数据处理 spark strom 在 Hadoop2.x推出的yarn (方便第三方插件读取使用数据)
低延迟数据访问 寻址 读取(Hadoop延迟高)
小文件读取 效率低 元数据信息较多占用空间大
客户端——namenode——datanode
heartbeats保证namenode和datanode之间的通信
每一个datanode切分成block进行文件存储 2.X默认block大小为128M(逻辑概念) 130M占用空间还是130M