
大数据
chenbengang
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据-数据仓库Hive
数据仓库Hive 一、Hive简介 数据仓库:面向主题、集成的、相对稳定的、反应历史变化的数据集合,用于支持管理决策。 传统数据仓库面临挑战:无法满足海量数据存储需求;无法有效处理不同类型数据;计算可处理能力不足。 Hive满足上述挑战,且Hive架构在底层的Hadoop核心组件基础之上。借助HDFS和MapReduce两个Hadoop核心组件。借助SQL语言的新的查询语言HiveQL。 Hiv...原创 2020-05-07 16:49:40 · 510 阅读 · 0 评论 -
大数据-MapReduce
大数据-MapReduce 分布式并行编程 传统的并行计算,共享型方案刀片服务器,适用于实时的细粒度计算,尤其是计算密集的应用。 MapReduce扩展性好,节点普通pc也可,每个节点拥有自己的内存和空间,适用于非实时的批处理,以及数据密集型的应用。 MapReduce模型 复杂的计算过程高度抽象成两个函数,map和reduce。 将庞大数据切片,对每个小片并行的单独使用map处理,计算向数...原创 2020-05-01 09:44:59 · 937 阅读 · 0 评论 -
分布式数据库HBase
分布式数据库HBase 一、HBase简介(基于bigtable): bigtable的用处: bigtable支持pb级别数据,高可扩展性,可扩展到几千个服务器的分布式存储。存储非结构化和半结构化数据。 bigtable的原理: HBase相比于关系型数据库具备自动分片能力、良好的水平可扩展性。 二、HBase数据模型 HBase由行键、列族,列限定符,时间戳四个元素组成。旧的版本保留,...原创 2020-02-21 16:50:57 · 478 阅读 · 0 评论 -
分布式文件系统HDFS
hdfs相关概念 namenode包括fsimage和editlog组成。 fsimage:保存系统文件树,记录块大小及组成文件的块、访问权限、文件的复制等级、修改和访问时间。 editlog:记录对数据的增删改查等操作。 datanode:将数据保存到linux文件系统即可,负责存和取。 至于块被放在哪个地方是由namenode构建清单,与datanode沟通。 如果只有fsimage则运行过...原创 2020-02-11 15:45:59 · 617 阅读 · 0 评论 -
大数据-ambari安装过程中的问题
1.解决安装ambari需要大于等于python2.6:centos7,安装配置好java环境。 2.解决没有权限登录问题:先按照那两个博客配置好ssh localhost免密登录,再按照cnblogs的配置思路,有分布式的话,配置好分布式的免密登录问题。 3.解决连接超时问题。 ...原创 2019-12-22 09:41:37 · 576 阅读 · 0 评论