
hadoop生态圈
文章平均质量分 89
AnswerLh
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据仓库
1.数据仓库 主要是面向分析的集成化数据环境,为企业提供决策支持。 BI:提供报表并提出决策支持,帮助企业做出业务经营决策 **设计初衷:**分析需求、分析维度、分析的指标进行设计的,其面向分析型 处理。也叫联机分析处理 OLAP 2.数据库 面向业务应用,面向事务的设计。联机事务处理 OLTR 数据库和数据仓库的区别 1.数据库是面向业务应用,数据仓库是面向分析 2.数据库一般是存储业务数据...原创 2018-11-07 22:47:30 · 404 阅读 · 0 评论 -
Hadoop初了解
名词解释 HDFS:分布式文件系统 client NameNode:维护目录树结构 , 存放文件系统的元数据 动态元数据:Block块的位置信息(通过心态的方式来给namenode汇报) 静态元数据:文件大小,节点信息,偏移量,block清单 DataNode : 数据存储,真实存放数据,将自己的数据块信息通过心跳传给NameNode。 元数据:用来描述数据的数据 Hive: 数据仓库,面向分析处...原创 2018-11-07 22:38:21 · 190 阅读 · 0 评论 -
分布式存储
目录 大数据技术 分布式存储原理 搭建集群的三种模式 伪分布式 完全分布式 高可用完全分布式 安全模式 各名词作用 NameNode DataNode SecondaryNameNode zkfc HDFS的读写流程 写的流程 读的流程 备份机制 权限 HDFS优缺点 大数据技术 分布式存储 分布式计算 分布式的批处理 攒一段时间的数据,在未来的某一个时...转载 2018-11-08 11:02:56 · 1273 阅读 · 0 评论 -
搭建HDFS完全分布式
前期配置准备 修改静态IP:修改/etc/sysconfig/network-scripts/ifcfg-eth0 修改主机名:修改/etc/sysconfig/network文件 HOSTNAME={自定义主机名,如node01} 关闭防火墙:service iptables stop 进行时间同步 方法一: 安装ntp:yum install ntp 网上查找最新的时间服务器,如...原创 2018-11-08 11:21:58 · 251 阅读 · 0 评论 -
配置eclipse连接集群
eclipse操作HDFS 配置环境 在eclipse的安装目录内,找到dropins,在其其中新建目录plugins; 将hadoop-eclipse-plugin-2.6.0.jar包拷贝于内。重启eclipse 进行如下操作 在第三处下右键,打开New Hadoop location 配置连接信息 ...原创 2018-11-08 11:46:34 · 310 阅读 · 0 评论 -
搭建yarn集群
目录 YARN集群规划 配置文件 配置mapred-site.xml 配置yarn-site.xml 启动 PS YARN集群规划 配置文件 配置mapred-site.xml <property> <name>mapreduce.framework.name</name> <value>yarn</value>...原创 2018-11-08 11:53:36 · 411 阅读 · 0 评论