
hadoop
hadoop相关
枫夜求索阁
「枫夜·求索阁」——技术人的思维藏经阁。十年开发沉淀架构设计/源码解析/效能工具,同步技术博客(https://www.fengyege.top/)。既写硬核代码,也谈工程师人文修行,守拙求真,与大家共探技术美学与人生代码。
展开
-
问题解决:spark程序运行过程中,集群线程过多,异常中断(Couldn't set up IO streams)
问题场景spark程序提交之后,运行之后,报错,报错提示如下:Caused by: java.io.IOException: Couldn't set up IO streams at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:826) at org.apache.had...原创 2020-02-27 23:12:56 · 2726 阅读 · 0 评论 -
问题解决:Spark Unable to load native-hadoop library for your platform
软件版本软件版本spark2.4.0hadoop3.2.0scala2.11.8问题场景启动spark-shell的时候,有WARN提示,提示如下:Unable to load native-hadoop library for your platform原因缺少对Hadoop的lib的引用。在环境变量里面进行设置即可。解决方法编辑 ...原创 2019-12-16 17:37:58 · 3565 阅读 · 0 评论 -
hive 命令整理
启动hive数据库操作create database database_name; -- 新建数据库creat database if not exists -- 新建数据库 database_name;show databases; -- 查看数据库show databases like 'h.*'; -- 查看数据库use default; --使用哪...原创 2018-05-07 10:10:39 · 1452 阅读 · 0 评论 -
hive笔记
hive不支持修改表中数据,但是可以修改表结构,而不影响数据有local的速度明显比没有local慢在hive内执行Hadoop的dfs命令:(去掉hadoop,以;结尾)没有一个命令可以让用户查看当前所在的是哪个数据库库在hive内执行一些bash shell命令(在命令前加!并且以;结尾即可)Hive脚本如何注释: 使用–开头的字符串来表示注释hive中使用正则表达式 hiv...原创 2018-05-07 10:18:49 · 251 阅读 · 0 评论 -
“ error in shuffle in fetcher”的解决方案
问题场景使用hive进行数据的统计,发现数据进行到一半,就异常退出。查看了报错,是栈溢出,导致了异常。问题分析通过查找资料和查看资料,才发现,在shuffle阶段,会将map的output数据给取下来,然后根据设定的参数决定是放进内存中,还是存储到磁盘里面进行操作。而mapreduce.reduce.shuffle.memory.limit.percent这个参数默认值是0.25,代表...原创 2018-06-21 17:51:02 · 3489 阅读 · 0 评论 -
hadoop hive 动态分区
应用场景突然业务有要求,要求将以前的每个月的数据进行抽取保存。如果只是单纯一条一条的执行,又太过于繁琐。作为程序员,这肯定不能忍。所以,这个时候,就需要动态分区了。重要参数// 动态分区set hive.exec.dynamic.partition=true;// 非严格模式。可以不指定特定的分区。如果是严格模式,那么至少要指定一个分区set hive.exec.dyna...原创 2018-06-28 11:49:27 · 676 阅读 · 0 评论