
Hadoop生态系统
一棵大树Atree
这个作者很懒,什么都没留下…
展开
-
HDFS浅谈
用HDFS存储数据HDFS是一种实用、稳定的集群化文件存储和管理方法。补充:扇区是硬盘上可访问的最小单元,簇是用于组织和标识磁盘上文件的大一点儿的单元。在HDFS中,每个文件仅能写一次,也就是说,只在文件创建的时候写入。避免了将存储在一个集群机器上的数据复制到其他机器上可能导致的一致性问题。HDFS是有弹性的,随意这些数据块在集群中复制(冗余备份),以防服务器失效。HDFS使用文件...原创 2019-06-08 12:09:09 · 258 阅读 · 0 评论 -
MapReduce浅谈
利用Hadoop MapReduce处理数据我们可以将MapReduce看作作一个引擎,你提供输入,其快速有效地将输入转化成输出。MapReduce是一种并行编程框架,用于处理不同系统中的大量数据。Hadoop Reduce包括几个阶段,每个阶段都有一组重要操作,帮助你从大数据中获取需要的答案。这个流程从用户请求运行MapReduce开始,到结果被写回HDFS结束。MapReduce既...原创 2019-06-08 21:11:52 · 264 阅读 · 0 评论 -
数据库和数据仓库
1、RDBMS(关系型)在小型和大型的组织机构中,大多数主要的运营信息主要是存储在关系型数据库管理系统(RDBMS)中。知道什么数据集被存储了以及它们被存储在何处,是大数据实施中的关键构件块。PostgreSQL是最广泛使用的开源数据库,其真正的能力在于它的扩展性。用户和数据库管理员可以添加新的功能,而不影响数据库的基本操作和可靠性。2、非关系型数据库(“不仅仅是SQL”Not Only ...原创 2019-06-11 21:07:15 · 1986 阅读 · 2 评论 -
国内Hadoop开源项目
1、BC-Hadoop:中国移动Hadoop工具链打包https://github.com/cmri/bc-hadoop2.0孵化阶段,将成为一个通用的开源Hadoop平台2、BC-BSP:中国移动图计算平台https://github.com/cmri/BC-BSP孵化阶段,将成为通用的开源BSP平台3、小米Minos:部署和管理Hadoop生态链工具Mi...原创 2019-09-29 21:56:12 · 2044 阅读 · 0 评论