- 博客(4)
- 收藏
- 关注
原创 Hadoop-分布式并行编程模型MapReduce
MapReduce是一种分布式并行编程模型,用于大规模数据集(大于1 TB)的并行运算,它将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数Map和Reduce上,并且允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,并将其运行于廉价计算机集群上,完成海量数据的处理。通俗地说,MapReduce的核心思想就是“分而治之”,它把输入的数据集切分为若干独立的数据块,分发给一个主节点管理下的各个分节点来共同并行完成;最后,通过整合各个节点的中间结果得到最终结果。...
2022-06-21 12:00:56
2250
1
原创 NoSQL数据库
NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称,它所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型。NoSQL数据库没有固定的表结构,通常也不存在连接操作,也没有严格遵守ACID约束。因此,与关系数据库相比,NoSQL具有灵活的水平可扩展性,可以支持海量数据存储。......
2022-06-20 22:34:00
7497
原创 Hadoop-分布式文件系统HDFS
分布式文件系统(Hadoop Distributed File System, HDFS)是Hadoop项目的两大核心之一,是针对谷歌文件系统(Google File System, GFS)的开源实现,研究在计算机集群上如何进行存储。HDFS具有处理超大数据、流式处理、可以运行在廉价商用服务器上等优点。HDFS在设计之初就是要运行在廉价的大型服务器集群上,因此在设计上就把硬件故障作为一种常态来考虑,可以保证在部分硬件发生故障的情况下仍然能够保证文件系统的整体可用性和可靠性。......
2022-06-20 16:27:37
1465
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人