
java 大数据 hadoop
清沐挽曦
这个作者很懒,什么都没留下…
展开
-
数据湖、数据仓、湖仓一体
据湖更有一种“兜底”的感觉,甭管当下有用没有/或者暂时没想好怎么用,先保存着、沉淀着,将来想用的时候,尽管翻牌子就是了,反正都原汁原味的留存了下来。(2)数据湖:支持多种格式存储数据库,结构化数据(如关系型数据库中的表),半结 构化数据(如 CSV、JSON 、XML、日志等),非结构化数据。数据的抽取和Schema的设计,都有非常强的针对性,便于业务分析师迅速获取洞察结果,用与决策支持。Lakehouse的结构可以支持更多不同类型的数据,包括文件、视频、音频和系统日志。原创 2023-09-19 16:15:11 · 157 阅读 · 0 评论 -
EMR(有弹性的MR)和MaxCompute的区别是什么?
以 Hadoop为例,每个ECS Instance上通常都运行了一些daemon进程(例如,NameNode、DataNode、ResouceManager和NodeManager),这些daemon 进程共同组成了Hadoop集群。即EMR有多个ECS Instance(ECS实例)组成,一个ECS Instance可能是NameNode节点,也可能是nodeManager节点。以Hadoop为代表的开源组件,搭建及维护的成本较高,遇见各类配置、网络、参数问题较多,升级时存在不兼容风险,原创 2023-09-19 16:14:24 · 861 阅读 · 0 评论 -
Hive排序
Hive中的四种排序order by 、 sort by 、 distribute by 、cluster by首先贴一下官网对于Hive排序的几种方法的介绍:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy总述order by全局排序;对输入的数据做排序,故此只有一个reducer(多个reducer无法保证全局有序);只有一个reducer,会导致当输入规模较大时,需要较长的计算时间;总结:or转载 2021-03-22 10:30:15 · 556 阅读 · 0 评论 -
hadoop面试题
1.从前到后从你教育背景(学过哪些课)到各个项目你负责的模块,问的很细(本以为他是物理学博士,但是所有的技术都懂)2.hadoop 的 namenode 宕机,怎么解决先分析宕机后的损失,宕机后直接导致client无法访问,内存中的元数据丢失,但是硬盘中的元数据应该还存在,如果只是节点挂了,重启即可,如果是机器挂了,重启机器后看节点是否能重启,不能重启就要找到原因修复了。但是最终的解决方案应...转载 2020-04-26 23:13:01 · 1535 阅读 · 0 评论 -
kafka集群搭建
kafka集群搭建先启动zookeeper集群1.安装(1)下载wget http://mirrors.hust.edu.cn/apache/kafka/0.8.2.2/kafka_2.11-0.8.2.2.tgz(2).解压sudo tar -zxvf kafka_2.11-1.1.1.tgz -C /export/server/(3).权限sudo chown -R hadoo...原创 2020-03-05 23:10:47 · 429 阅读 · 0 评论 -
简单的心跳机制
心跳机制有两个线程:thread1将tag变量改为true,thread2将tag变量改为false.thread1------tag=truethread2------>tag=true------tag=falsethread1------>tag=true------tag=false------tag=truethread2------>tag=true----...原创 2020-03-05 10:40:35 · 162 阅读 · 0 评论 -
storm中的ack-fail机制详解
一.ack-fail机制ack-fail机制的作用:确保消息不丢失1.需要ackfail时,请为每个tuple生成一个messageID,这个messageId是用来标识你关系的tuple,当这个tuple被完全处理时,storm框架会调用Spout的ack 方法,否则调用fail.至于消息是否重发,完全由自己处理MySpout{private Map buffer = new HashM...原创 2020-03-05 10:24:06 · 687 阅读 · 0 评论 -
Storm中worker的内部通信
一.worker间通信1.ServerSocket将数据分发到Disruptor队列中以Map<taskId,队列>的形式2.启动一个execute1进程,去Disruptor的Map中根据taskId获取Map<taskId-1,incoming>中对应的元素,放入自己的incoming-queue 队列3.execute线程(有多少个task就有多少个execut...原创 2020-03-05 10:11:52 · 220 阅读 · 0 评论 -
Storm启动流程
Storm启动流程**client->numbus->zk->supervisor->worker->spout,bolt**storm只负责计算,不负责采集和存储数据----------nimbus(storm程序启动)1.客户端运行storm nimbus 时,回调用storm的python脚本,该脚本中为每个命令编写一个方法,每个方法都可以生成一条相应...原创 2020-03-05 09:46:55 · 786 阅读 · 0 评论 -
storm集群搭建及numbus,supervisor启动异常
1.安装(1)下载wget https://archive.apache.org/dist/storm/apache-storm-1.1.2/apache-storm-1.1.2.tar.gz(2)创建文件夹mkdir -p /export/server(3)解压tar -zxvf apache-storm-1.1.2.tar.gz -C /export/server(4)重命名...原创 2020-03-05 09:31:40 · 935 阅读 · 0 评论 -
离线计算与流式计算的区别
1.离线计算:批量获取数据,批量传输数据,周期性批量计算数据,数据展示代表技术,flume采集数据,hdfs批量存储数据,mapreduce批量计算数据,hive批量计算数据,task任务调度,sqoop批量导入数据.公司职位:hivesql调度平台Hadoop集群运维数据清洗(脚本语言)元数据管理数据稽查数据仓库模型架构2.流式计算:数据实时产生、数据实时传输、数据实时计...原创 2020-03-05 09:23:55 · 1457 阅读 · 0 评论 -
windows下使用idea远程链接Hadoop(Linux)
window系统使用idea远程链接Hadoop一.配置环境二.Idea中创建Maven项目,导入依赖三.启动四.FAQ一.配置环境1.将在Linux系统中解压的hadoop版本(.gz后缀),解压到指定目录2.配置HADOOP_HOME环境变量(1)新建环境变量(我解压在F:/)(2)Path变量(3)检验:在dos窗口中输入hadoop3.下载windows下连接hadoo...原创 2019-11-25 21:19:20 · 2121 阅读 · 2 评论