
大数据
文章平均质量分 65
周小董
专注于数据采集,数据治理及数据架构的研究,热爱分享一些经验,欢迎朋友来探讨交流。 附言:文章仅用于个人学习,如有侵权,请联系我删除,谢谢!
展开
-
[1239]hive求解中位数
中位数(Median)又称中值,统计学中的专有名词,是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。原创 2023-11-25 15:14:42 · 1739 阅读 · 0 评论 -
[1236]hive数据倾斜原因及解决方案
1)通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小。2)是不是map数越多越好?答案是否定的。如果一个任务有很多小文件(远远小于块大小128m),则每个小文件也会被当做一个块,用一个map任务来完成,而一个map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的map数是受限的。3)是不是保证每个map处理接近128m的文件块,就高枕无忧了?原创 2023-10-27 19:30:00 · 261 阅读 · 0 评论 -
[1220]hue数据导出
参考:https://www.cnblogs.com/hongfeng2019/p/11579504.html。4、选择每个人对应的文件夹,没有自己名称的可以创建一个。8、按照下面截图提示,就可以将文件下载到本地了。2、 执行完成后,点击下面导出。1、执行要下载的sql语句。6、右面是导出执行时的界面。7、选择已经执行的文件。原创 2023-08-11 20:15:00 · 1029 阅读 · 0 评论 -
[1218]hive之Map Join使用方法
MAPJION会把小表全部加载到内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map端是进行了join操作,省去了reduce运行的时间,算是hive中的一种优化。如上图中的流程,首先Task A在客户端本地执行,负责扫描小表b的数据,将其转换成一个HashTable的数据结构,并写入本地的文件中,之后将该文件加载到DistributeCache中。原创 2023-08-08 23:30:00 · 955 阅读 · 0 评论 -
[1204]Flink1.13详细教程
2、最新 Flink 1.13 部署(Session、Per-Job、Application、HA、YARN)快速入门、详细教程:https://blog.youkuaiyun.com/qq_38582455/article/details/124003968。8、最新 Flink 1.13 状态编程与容错机制(状态、状态后端、检查点、精确一次、端到端的状态一致性)快速入门、详细教程:https://blog.youkuaiyun.com/qq_38582455/article/details/123987663。原创 2023-06-15 19:12:41 · 201 阅读 · 0 评论 -
[1192]获取CDH集群告警并通过钉钉告出
参考:https://blog.youkuaiyun.com/weixin_40817778/article/details/119249820。钉钉群机器人特征字为:告警。原创 2023-05-05 20:03:37 · 342 阅读 · 0 评论 -
[1185]hive distcp数据同步
3,拷贝表从远程集群到本地(跨集群),拷贝完后记得修复分区表 【如果没有队列则不要:-Dmapred.job.queue.name=root.bi_qipu.p1】4,拷贝从远程集群到本地(同集群),拷贝完后记得修复分区表 【如果没有队列则不要:-Dmapred.job.queue.name=root.bi_qipu.p1】参考:https://www.bbsmax.com/A/GBJrXY63d0/2 ,对hive表的修改(改为内部表,添加字段,修改字段)原创 2023-01-27 14:28:23 · 635 阅读 · 0 评论 -
[1167]CDH集群添加主机
经过这些操作后,node04这台主机就被CM管理起来了,但是他还不属于任何一个集群。原创 2022-10-23 14:54:06 · 913 阅读 · 0 评论 -
[1166]CDH集群删除主机节点
具体步骤如下:1、开始下线前的自检2、选择需要下线的主机,开始下线。3、选择迁移时是否要同步迁移数据,一般时要选择同步迁移数据。然后开始下线节点4、接着会显示节点下线的进度。同时在NameNode web ui 上会显示 hdfs block 文件向其他节点的同步进度(主要看 Number of Under-Replicated Blocks)。在 NameNode Summary 页面,可以看到正在下线的节点数量和待迁移的 hdfs block 数量。原创 2022-10-22 19:09:53 · 1738 阅读 · 1 评论 -
[1145]Hive导入csv文件
现有文件为csv格式,需要导入hive中,设csv内容如下1001,zs,231002,lis,24首先创建表create table if not exists csv2( uid int, uname string, age int)row format serde 'org.apache.hadoop.hive.serde2.OpenCSVSerde'stored as textfile ;导入数据及查询load data local inpath '/d原创 2022-05-30 23:11:23 · 3357 阅读 · 2 评论 -
[1144]Hive常用日期格式转换
文章目录获取当前时间日期格式转换返回日期中的年,月,日,时,分,秒,当前的周数计算日期差值返回当月或当年的第一天获取当前时间获取当前时间戳select unix_timestamp()把时间戳转为正常的日期select from_unixtime(unix_timestamp(),'yyyy-MM-dd HH:mm:ss')select from_unixtime(unix_timestamp(),'yyyy-MM-dd') 业务中有时存放的是包含毫秒的整数,需要先转换为秒s原创 2022-05-30 23:10:12 · 7200 阅读 · 0 评论 -
[1142]hive中如何新增字段
文章目录新增字段1、方法1cascade知识2、方法2 (适用于外部表)3、方法3(下下策)修改字段删除列新增字段1、方法1alter table 表名 add columns (列名 string COMMENT '新添加的列') CASCADE; alter table 表名 add columns (列名 string COMMENT '新添加的列'); hive表中指定位置增加一个字段 分两步,先添加字段到最后(add columns),然后再移动到指定位置(change)原创 2022-05-19 21:51:55 · 20639 阅读 · 0 评论 -
[1130]hive表修复元数据
文章目录hive 分区表msck命令Impala中的invalidate metadata和refresh使用方式INVALIDATE METADATA原理REFRESH原理使用原则总结创建完表后希望恢复hdfs上的元数据可以使用msck repair table tablename;(tablename是你的表的名字)方法来进行修复元数据。上面是一层分区的情况执行的。下面还有多层分区情况执行的:set hive.msck.path.validation=ignore;msck repair原创 2022-04-21 21:38:51 · 7288 阅读 · 0 评论 -
[1129]HDFS查看文件的两种方式
文章目录1.localhost:50070 图形化界面 离线查看2.通过命令行终端实现在线查看文件内容1.localhost:50070 图形化界面 离线查看可以查看hdfs文件目录的结构,副本数,block大小,文件的大小,但是不能查看文件的内容,要是查看文件的内容的话,得把文件给下载下来2.通过命令行终端实现在线查看文件内容[root@cdp101 bin]# hdfs dfs -lsFound 5 itemsdrwx------ - hive hive 0 202原创 2022-04-21 21:38:16 · 11387 阅读 · 0 评论 -
[1064]大数据概述
文章目录大数据时代的数据特点大数据时代的关键技术大数据时代的数据特点一般认为,大数据主要具有 四方面的典型特征——规模性(Volume)、多样性(Variety)、高速性(Velocity)和价值性(Value), 即所谓的"4V“(1)规模性,即大数据具有相当的规模,其数据量非常巨大。淘宝网近4亿的会员每天产生的商品交易数据约20TB, Facebook (脸书)约10亿的用户每天产生的日志数据超过300TB。数据 的数量级别可划分为B、KB、MB、GB、TB、PB、EB、ZB等,而数据的数量级别为原创 2021-11-09 19:14:50 · 776 阅读 · 0 评论 -
[1022]Hive insert 字段表错位
文章目录Hive insert 字段表错位踩坑1 问题描述2 排查过程3 问题定位4 解决方案hive的insert语句列顺序问题以及新增字段遇到的坑insert语句列顺序对新增字段插入数据再查询发现是NULLHive insert 字段表错位踩坑1 问题描述往 Hive 表 insert 数据后,查询时出现个别行字段错位,插入语句如下:insert overwrite table A select col1,col2,col3 from table B where dayid = '';首先测原创 2021-07-10 21:28:03 · 3162 阅读 · 7 评论 -
[1021]利用sqoop对mysql执行DML操作
文章目录业务背景业务实现业务背景利用sqoop对mysql进行查询、添加、删除等操作。业务实现select操作:sqoop eval \--connect jdbc:mysql://127.0.0.1:3306/market \--username admin \--password 123456 \--query "select end_user_id, category_id, score, last_bought_date, days_left, update_time from转载 2021-07-10 21:26:01 · 325 阅读 · 0 评论 -
[1020]hive中分区表的创建
1、开启分区set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;否则会出抛出异常:2、创建分区表创建静态分区表:create table test_part_table(word string,num bigint )partitioned by(dt string)row format delimited fields terminated by '\t';转载 2021-07-10 21:25:09 · 7082 阅读 · 0 评论 -
[999]sqoop导入数据‘‘--query搭配$CONDITIONS‘‘的理解
文章目录运行测试原理理解引言sqoop在导入数据时,可以使用--query搭配sql来指定查询条件,并且还需在sql中添加$CONDITIONS,来实现并行运行mr的功能。运行测试测试均基于sqoop1,mysql数据准备如下。(1)只要有--query+sql,就需要加$CONDITIONS,哪怕只有一个maptask。# 只有一个maptask[hadoop@node01 /kkb/bin]$ sqoop import --connect jdbc:mysql://node01:3306/转载 2021-05-29 18:35:48 · 1090 阅读 · 0 评论 -
[998]sqoop使用入门
文章目录sqoop基础基本概念基本架构sqoop安装sqoop使用导入数据到hdfs导入数据到hive导入数据到hbase导出数据引言sqoop是apache旗下,用于关系型数据库和hadoop之间传输数据的工具,sqoop可以用在离线分析中,将保存在mysql的业务数据传输到hive数仓,数仓分析完得到结果,再通过sqoop传输到mysql,最后通过web+echart来进行图表展示,更加直观的展示数据指标。sqoop基础基本概念如下图所示,sqoop中有导入和导出的概念,参照物都是hadoop转载 2021-05-29 18:35:01 · 275 阅读 · 0 评论 -
[997]Impala Shell常用命令行选项与常用命令
常用命令行选项-h或–help显示帮助信息。[root@node2 ~]# impala-shell -h-k or --kerberos当连接到 impalad 时使用 Kerberos 认证。如果要连接的 impalad 实例不支持 Kerberos,将显示一个错误-i或–impalad连接到指定的impalad节点。[root@node2 ~]# impala-shell -i node3-q或–query指定要执行的Sql语句。[root@node2 ~]# impala-原创 2021-05-29 18:33:18 · 1645 阅读 · 0 评论 -
[981]Hive基本使用--命令行
基本使用Hive 用户接口主要有三个:命令行(CLI),客户端(Client) 和 Web界面(WUI)。其中最常用的是 CLI,启动的时候,会同时启动一个 Hive 服务。Client 是 Hive 的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出 Hive Server 所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive的Web工具这里介绍Hive命令行的一个基本使用注意:hive命令行语句后面一定要加分号库操作原创 2021-05-16 20:52:51 · 220 阅读 · 0 评论