
大数据
重生之我在异世界打工
ok
展开
-
HDFS 最全命令合集【持更】
官方地址 http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/FileSystemShell.html df查看磁盘占用情况 (base) [root@hadoop101 ~]# hdfs dfs -df / Filesystem Size Used Available Use% hdfs://hadoop101:9000 67316113408 .原创 2020-05-31 15:09:13 · 363 阅读 · 0 评论 -
【大数据学习】hadoop-mapReduce分组小问题
注意一个问题 有如下数据 订单id 商品id 成交金额 0000001 Pdt_01 222.8 Pdt_02 33.8 0000002 Pdt_03 522.8 Pdt_04 122.4 Pdt_05 722.4 0000003 Pdt_06 232.8 Pdt_02 33.8 mapreduce默认的是先排序,后分组。如果我们编写Bean时,...原创 2020-02-29 11:01:00 · 139 阅读 · 0 评论 -
记一次【该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系】修复过程
1.检查ntp服务,巧了真的是这个问题 原因是ntp服务挂掉了,重新启动后,等10分钟左右再启动所有角色。 我启动kudu的时候报错,无法同步还是因时钟同步问题,所以等10分钟左右再启动。 2.检查agent server 是否启动(先启动server再启动agent) /opt/cm-5.15.1/etc/init.d/cloudera-scm-agent status (start) server机器: /opt/cm-5.15.1/etc/init.d/cloudera-scm-server st原创 2022-02-22 17:32:16 · 1382 阅读 · 0 评论 -
记一次封装superset打docker镜像的过程
1.拉取镜像 docker pull centos:centos7 2.运行 docker run -itd --name mysuperset centos:centos7 3.进入容器 docker exec -it mysuperset /bin/bash 4.更新环境 yum -y update 5.安装需要的软件 1.安装vim yun -y install vim 2.安装依赖 yum install gcc gcc-c++ libffi-devel python-devel python-p原创 2022-02-22 09:53:26 · 1292 阅读 · 0 评论 -
parquent和orc对比
Parquet与ORC的对比 https://blog.youkuaiyun.com/yu616568/article/details/51868447 结论: parquent比较通用,orc比较适合hive,无论是压缩还是插入查询速度对于hive来说都比parquent更优 parquent原理 https://blog.youkuaiyun.com/worldchinalee/article/details/82785262?ops_request_misc=%257B%2522request%255Fid%2522.原创 2021-04-06 16:16:37 · 407 阅读 · 0 评论 -
【腾讯大数据面试】
青蛙一次一个或两个台阶那跳上n阶有多少种跳法并给出代码实现? private static HashMap<Integer, Integer> map = new HashMap<Integer, Integer>(); public static int method(int n) { if (n == 1) { map.put(1, 1); return 1; } if (n原创 2020-06-10 21:56:32 · 407 阅读 · 0 评论 -
自己实时数仓实现思路
2.负责直播质量监控模块:实时统计音频视频丢帧数量、人均卡顿次数、卡顿前10区域等、实时举报监控报警 3.负责直播流量模块:实时UV,实时在线总人数、各直播间总人数、各分类在线人数、实时热门直播间、 各分类热门直播间等 4.负责交易模块:实时购买礼物总交易额、各礼物购买金额、实时打赏总交易额、各类目打赏总交易额、实时各主播被打赏交易额top10等 实时举报监控报警:消费报警日志,使用滑动窗口,没10s检测一分钟之内的直播间投诉量。 ...原创 2020-06-04 09:21:49 · 265 阅读 · 0 评论 -
【大数据面试】瞎说宝典
哈哈啊哈原创 2020-06-03 08:54:33 · 291 阅读 · 1 评论 -
【虎牙】Flink调优实践
数据倾斜原创 2020-05-26 23:33:58 · 215 阅读 · 0 评论 -
Atlas元数据管理
Atlas元数据管理 什么是元数据? 元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。 为什么进行元数据管理? 对hive表的元数据用Atlas进行管理,就可以很清楚的知道表与表之前的血缘关系。一个表从哪几个表通过什么方式得来的,这些信息可以辅助我们问题追踪。方便工作交接,几千张表对于一个新员工来原创 2020-05-10 14:59:44 · 1992 阅读 · 0 评论 -
【大数据学习】hadoop-mapReduce阶段
mapperReduce阶段 大概流程图 MapReduce编程规范 用户编写的程序分成三个部分:Mapper、Reducer和Driver。(代码上传到git) hadoop序列化 java的序列化serializable是一个重量级的序列化框架,序列化后会附带很多额外的信息,不利于高效的网络传输。 hadoop序列化Writable 1 紧凑 2 快速 3 可扩展 4 互操作 编写bean...原创 2020-02-29 10:18:06 · 166 阅读 · 0 评论