
hadoop
文章平均质量分 57
hadoop
罗少说
这个作者很懒,什么都没留下…
展开
-
hadoop面试题(一)
hadoop面试题原创 2023-06-24 23:01:59 · 980 阅读 · 0 评论 -
hadoop之hdfs生产数据块损坏修复方法
hadoop之hdfs生产数据块损坏修复方法原创 2022-11-28 10:59:35 · 3794 阅读 · 4 评论 -
hadoop集群迁移
hadoop集群迁移原创 2022-11-28 10:56:16 · 1455 阅读 · 0 评论 -
深入理解Hadoop YARN中的Container概念
深入理解Hadoop YARN中的Container概念原创 2022-11-28 10:51:23 · 1242 阅读 · 0 评论 -
hadoop之yarn
yarn介绍yarn是Apache Hadoop YARN,hadoop中的组件,是英文简称,全程是Yet Another Resource Negotiator,另一种资源协调者,是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。hadoop进行资源管理和任务调度的是resourcemanager。后面会更新google三篇论文和yarn的演变过程yarn的web界面..原创 2021-01-26 22:37:00 · 5010 阅读 · 1 评论 -
大数据hadoop常用端口-hadoop 3.x 通信端口
关于hadoop 2.x的通信端口参考上一篇博客namenode rpc-address 8020 namenode http-address 9870 namenode https-address 9871 datanode address 9866 datanode http-address 9864 datanode https-address 9865 resourcemanager ht.原创 2020-10-20 13:39:24 · 1457 阅读 · 1 评论 -
hadoop2.x、hive、hbase、zookeeper常用端口
组件 节点 默认端口 配置 用途说明 HDFS DateNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS DateNode 50075 dfs.datanod...原创 2020-10-20 13:37:11 · 372 阅读 · 0 评论 -
hadoop之namenode检查点机制
NameNode使用两个文件来保留其命名空间:fsimage,它是命名空间和编辑的最新检查点,是自检查点以来命名空间更改的日志(日志)。当NameNode启动时,它会合并fsimage和edits journal以提供文件系统元数据的最新视图。NameNode然后用新的HDFS状态覆盖fsimage并开始一个新的编辑日志。Checkpoint节点定期创建命名空间的检查点。它从活动的NameNode下载fsimage和editlog,在本地合并它们,并将新映像上传回活动的NameNode。Checkpoi原创 2020-09-23 19:35:32 · 1231 阅读 · 0 评论 -
hadoop文件路径权限修改——chown
修改hdfs路径的文件路径所属用户权限时,报错,提示org.apache.hadoop.security.AccessControlException: Non-super user cannot change owner.意思是说当前用户执行修改用户权限时,不是超级用户,不能执行在hadoop中root用户不是最高权限用户切换hdfs用户,再次执行命令hadoop dfs -chown -R admin /apps/hive这里是修改文件夹, 加了-R ,如果是文件则不需要..原创 2020-07-24 17:09:35 · 5524 阅读 · 0 评论 -
大数据介绍
大数据技术是基于谷歌在2004~2006年发表的3篇论文第一篇论文 GFS 分布式文件系统第二篇论文 MapReduce 分布式计算第三篇论文 HBase 分布式存储Hadoop发展历史:Hadoop到目前为止一共有3个大版本Hadoop1.0Hadoop2.0Hadoop3.0Hadoop1.0 是分布式计算框架基于分布式文件系统,将计算和...原创 2020-04-23 19:43:17 · 521 阅读 · 0 评论 -
spark复习笔记(二)——spark sql
Spark SQL特点1、易整合整合SQL查询和Spark编程2、统一的数据访问方式使用相同方式连接不同的数据源3、继承Hive在已有的仓库上直接运行SQL或者HQL4、标准的连接方式通过JDBC或者ODBCDataFrame分布式数据容器schema 数据的结构信息(类似于desc table)支持嵌套数据类型 struct array map从API易用性,Dat...原创 2020-04-20 10:03:34 · 426 阅读 · 0 评论 -
spark复习笔记(一)——RDD
RDD编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用对RDD的转换RDD支持2种操作:1、transformation2、action在spark种几乎所有的transformation操作都是懒执行的transformation操作并不会立即计算他们的结果,而是记住这个操作当通过一个action来获取结果返回给驱动程序的时候,这些转换操作才开始计算这种设计...原创 2020-04-20 10:00:51 · 536 阅读 · 0 评论 -
数仓架构、企业级数仓流程、数仓实践
数据仓库的架构:星型模型和雪花模型架构星型模型是确定了一个事实表和多个维度表雪花模型是:事实表两边的维度表可以再有子表,主要是表达清洗的维度层次关系(例如地区维度省市,品类维度一级品类二级品类)构建企业级数据仓库的流程:1、确定主题确定数据分析或前端展现的主题2、确定量度技术指标的统计值,例如数据汇总的最大值最小值,年销售额等3、确定粒度量度的聚合程度,一...原创 2020-04-20 09:53:39 · 415 阅读 · 0 评论 -
spark和mapreduce的区别
spark是通过借鉴Hadoop mapreduce发展而来,继承了其分布式并行计算的优点,并改进了mapreduce明显的缺陷,具体表现在以下几方面: 1.spark把中间计算结果存放在内存中,减少迭代过程中的数据落地,能够实现数据高效共享,迭代运算效率高。mapreduce中的计算中间结果是保存在磁盘上的,这样必然影响整体运行速度。 2.spark容错性高。spark支持D...原创 2020-04-20 09:49:26 · 1364 阅读 · 0 评论