
Hadoop
zhangbinu
要技艺超群,要予人温暖。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
CDH集群启动后使用Hive报错解决办法
CDH集群启动后使用Hive报错: 解决方案: 查看状态二个namenode节点都为standby状态: $./hdfs haadmin -getServiceState namenode1 standby $./hdfs haadmin -getServiceState namenode2 standby 在CM界面手动切换即可: ...原创 2019-11-06 19:23:45 · 1351 阅读 · 1 评论 -
Sqoop从MySQL导入数据到Hive的Shell脚本
因工作需求,要将mysql的数据导入到Hive中通过Spark SQL进行分析,经过一翻周折,完成了这个自动化脚本,算是实现需求的第一步,也算是在Shell编程这条路上算是迈出了第一步。 mysql中每天一张表,hive中一个表,按时间分区,如dt=180820. 以下是导数据的Shell脚本: #!/bin/bash source /etc/profile host=127.0.0.1 ...原创 2018-08-20 17:18:34 · 2899 阅读 · 2 评论 -
Sqoop分批导入Mysql上亿条数据的表到HDFS
因数据量过大,运行sqoop跑不动或者卡内存,于是通过写脚本分批导入到HDFS,然后再加载到Hive表中。 shell脚本如下: #!/bin/bash source /etc/profile host=127.0.0.1 for((i=1; i<=100; i++)) do start=$(((${i} - 1) * 100000 + 1)) end=$(...原创 2018-08-28 19:37:38 · 5193 阅读 · 3 评论 -
Hive中的默认分隔符及其表示
默认记录和字段分隔符 \n 每行一条记录 ^A 分隔列(八进制 \001) ^B 分隔ARRAY或者STRUCT中的元素,或者MAP中多个键值对之间分隔(八进制 \002) ^C 分隔MAP中键值对的“键”和“值”(八进制 \003)...原创 2018-08-28 19:42:49 · 10759 阅读 · 0 评论 -
Sqoop从HDFS导出Hive表到Mysql的shell脚本
因统计需求,要指将Spark SQL计算好的结果,从Hive导出到Mysql数据库,于是写了个批量导的脚本。 运行参数: 开始时间 结束时间 注意点: 1. 在shell中,sqoop语句的每一行末尾不能有多余的空格,否则执行时报错! 2. shell中的if条件判断,只能是数字和才能比较大小,需要将时间转成时间戳! 代码如下: #!/bin/bash source /etc/pr...原创 2018-08-24 16:55:34 · 1369 阅读 · 1 评论 -
HBase查询-Scan类实用设置
Scan类常用方法说明 1. 指定需要的family或column ,如果没有调用任何addFamily或Column,会返回所有的columns scan.addFamily(); scan.addColumn(); 2. 指定最大的版本个数。如果不带任何参数调用setMaxVersions,表示取所有的版本。如果不掉用setMaxVersions,只会取到最新的版本 scan.setMax...原创 2019-04-29 19:33:11 · 1483 阅读 · 0 评论