- 博客(34)
- 资源 (2)
- 收藏
- 关注
原创 在dss中运行scala任务报java.lang.NullPointerException: null
在dss中运行scala任务报java.lang.NullPointerException: null
2023-03-19 01:01:54
271
原创 Hive多字段数值比较大小
Hive多字段数值比较大小、COALESCE函数(返回第一个非空值)、least函数(返回最小值)、greatest函数(返回最大值)
2022-06-30 10:37:16
4601
原创 Hive处理Json相关数据
get_json_object 函数此函数为常用函数,可以取出json数据中的相应的字段的数值-- get_json_object(json,'$.name') as nameselect get_json_object('{"name":"zj","age":25}','$.name') as name ,get_json_object('{"name":"zj","age":25}','$.age') as age;select get_json_object('{"name":"zj","a
2022-04-12 11:25:40
1366
原创 Hive 表字段数据修改
hive字段信息修改修改表注释ALTER TABLE table1 SET TBLPROPERTIES('comment' = '每日背书企业成交明细(去重)');增加字段alter table table1 add columns(bonus varchar(255) comment '奖金');alter table table1 add columns(bonus varchar(255) comment '奖金') cascade; -- 适用于分区表联级机制cascadeca
2022-04-12 11:15:37
10106
原创 Spark | HDFS 本地调式时出现:Failed to connect to /192.168.0.53:9866 for block, add to deadNodes and continu
出现原因21/11/16 15:13:17 WARN BlockReaderFactory: I/O error constructing remote block reader.java.net.ConnectException: Connection timed out: no further information......Failed to connect to /192.168.0.53:9866 for block, add to deadNodes and continue. ja
2021-11-16 15:24:25
3524
2
原创 Hive UDF GDF UDTF编写与实现
hive 自定义函数实现UDF | GDF | UDTF 区别UDF:一进一出(hive3 已经废除)GDF:一进一出(hive3 支持的GDF)UDTF:一进多出业务前景测试数据为:字符串(JSON数组格式 [{},{},{}] )[{\"title\": \"转让背书\", \"endorseName\": \"山东泰山钢铁集团有限公司\", \"endorseeName\": \"山东汶汇港物流有限公司\", \"isTransfer\": \"可以转让\", \"endorseDa
2021-11-11 11:09:13
2222
原创 centos6 的 hadoop三台集群的搭建
三台的hadoop分布式集群的搭建:如果你要部署一个高可用的完全分布式集群请参照:我的博客:Hadoop完全分布式集群搭建过程(HA高可用)https://blog.youkuaiyun.com/hello_heheha/article/details/998883301,修改主机名分别为:master slave1 slave22,配置/ etc / hosts(三台都要修改)...
2021-11-11 10:00:11
548
原创 大数据面试题汇总
大数据面试题-20200607简答题+面试题HashMap和HashTable的区别Scla中的Case class作用数据仓库分层概念数据分层概念数据分层为倒三角,从上到下依次为ODS层(原始数据层)、DWD层(明细数据层)、DWS层(服务数据层)、ADS层(数据应用层),数据量是从多到少,从复杂化到简单化。ODS层:原始数据层、存放原始数据,直接加载原始日志信息,数据, 数据保持原貌不做处理DWD层(DWI层):结构和粒度与原始数据保持一致,对ODS层数据进行数据清洗(去空值、脏数据、
2020-09-22 13:12:06
631
原创 Elasticsearch学习笔记
ES简介Elasticsearch:全文检索引擎,快速存储,检索、和分析海量数据底层是由Lucene支持Lucene开放的源代码的全文检索引擎工具包,不是完整的全文检索引擎,而是一个全文检索的引擎架构,特点:完整的查询完整的索引部分具有文本分析Lucene提供了一个简单缺强大的应用程序接口ES基本概念P:Primary shard 主分片R:Reaplication shard 备用分片一个cluster存在一或者多个node组成,每个集群都有一个cluster.n
2020-09-22 10:20:00
282
原创 join和union的区别
join和union的区别union和join是需要联合多张表时常见的关联词,join:两张表做交连后里面条件相同的部分记录产生一个记录集,union:union是产生的两个记录集(字段要一样的)并在一起,成为一个新的记录集 。join的连接方式(left join\left outer join) \ right join \right outer join \inner join......
2020-03-27 18:02:15
15305
原创 Spark的ReduceByKey和GroupByKey的区别
Spark的ReduceByKey和GroupByKey的区别ReduceByKey和GroupByKey其实和Hadoop的MapReduce中的是否带有combinner一样的道理,无论是ReduceBuKey还是GroupByKey返回的结果都是RDD。ReduceByKey:说白了就是带有Commbiner的操作,也就是说ReduceBykey会减少Map端的输出,在Map端输出的时候...
2020-01-31 16:24:19
351
原创 Maven设置指定jar包依赖版本信息
我们在配置Spark core 的 maven依赖的时候jackson-module-scala_2.11的版本冲突,解决办法如下:<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</ar...
2019-12-12 16:44:07
9485
原创 Cannot open channel to 2 at election address zj03/192.168.8.132:3888
问题描述我的问题是,在我配置的三台集群中就一台启动不起来,但是原来我的是三台都启动成功,最近就是这一台启动不起来,查看日志信息就是包这个错误。2019-08-24 20:02:13,041 [myid:0] - WARN [WorkerSender[myid=0]:QuorumCnxManager@584] - Cannot open channel to 1 at election add...
2019-08-24 21:48:16
2758
2
原创 Hadoop完全分布式集群搭建过程(HA高可用)
使用Centos7来进行完全分布式的集群搭建,一般我们用伪分布式的集群就可以了,不需要配置完全分布式的集群和我们搭建伪分布式集群一样,我们首先要现在好安装包,以及我们需要配置配置JDK,SSH免秘钥登陆,以及Zookeeper分布式的搭建等,下面就开始我们的搭建过程一、配置Linux虚拟机1.配置主机名以及主机映射我们配置集群环境的时候,设置固定的主机名和主机映射能够方便的让我我们使用修...
2019-08-21 21:45:24
1212
2
原创 Cento7安装mysql以及mysql中文编码的问题解决方案
Centos7默认的是 Mariadb而不是mysql,这里依旧以mysql为例进行展示,亲测非常有效。安装mysql1、查看系统自带的mysql版本信息rpm -qa | grep mysql一般情况是没有任何返回值的,如果有返回值这证明原来已经安装过mysql,如果安装过则需要我们用以下语句进行卸载掉rpm -e XXX.rpm或者强制删除rpm -e --nodeps......
2019-08-20 21:25:23
440
原创 使用maven打jar包的pom配置
使用maven打jar包的pom配置在pom.xml文件中添加如下配置,就可以在用maven打jar包的时候可以将相对应的jar可以直接打进去<build> <plugins> <plugin> <artifactId>maven-assembly-plugin</ar...
2019-07-24 20:48:38
824
转载 Hadoop面试题
Hadoop面试题转载:http://www.aboutyun.com/thread-6787-1-1.html转载:https://blog.youkuaiyun.com/sdksdk0/article/details/516953411. 下面哪个程序负责 HDFS 数据存储。a)NameNodeb)Jobtrackerc)Datanode d)secondaryNameNod...
2019-06-10 14:58:43
522
原创 windows下使用Idea来运行MR
#Windows下使用idea来运行MR##我们要先在本地配置Hadoop运行环境,我的是hadoop2.7.5先解压按装包,然后配置hadoop环境变量##下载hadoop.dall和winutils.exe两个文件,我在这里面下载的是hadoop2.7.1网址:https://github.com/LUK-qianliu/winutils-master将下载好的这两个文件放到hado...
2019-04-05 16:33:26
1178
原创 IDEA打开一个web项目的时候开启tomca出现404错误
#IDEA打开一个web项目的时候开启tomca出现404错误当我们导入一个web项目的时候,我么把dk,maven,tomcat等一切配置好以后,开启tomcat的时候,会出现404错误,按理说我们应该访问web目录下的index.jsp文件,这是因为我们的web路径出现的丢失导致的,此时我们可以尝试一下方法:打开File -> Project查看Modules中web项目中是否出现...
2019-03-25 20:07:08
370
原创 java.lang.IllegalArgumentException: No converter found for return value of type
遇见 java.lang.IllegalArgumentException: No converter found for return value of type: class java.util.ArrayList 解决办法如果我们碰见这个问题一般是我们在配置pom文件的时候,缺包所导致的主要原因是:这是因为springmvc默认是没有对象转换成json的转换器的,需要手动添加jackso...
2019-03-23 15:45:36
508
原创 Error: E0501 : E0501: Could not perform authorization operation, User: root is not allowed to impers
修改hadoop的配置文件core-site.xml <property> <name>hadoop.proxyuser.root.hosts</name> <value>*</value> </property> <property> &
2019-01-16 10:44:52
1449
原创 centos6、ubuntu中mysql的安装
centos:mysql: 安装 此文档只支持Centos6的mysql安装,Centyo7安装mysql可以参照我的另外一篇进行安装配置 连接为:https://blog.youkuaiyun.com/hello_heheha/article/details/99880723 使用yum安装mysql #>yum install mys...
2018-12-09 18:54:17
230
原创 Hbase集群搭建
Hbase安装:1.上传hbase安装包到虚拟机中2.解压hbase压缩包3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase-env.sh export JAVA_HOME=/usr/java/...
2018-12-09 18:50:02
116
原创 MapReduce需要的maven pom设置
<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.3.1</version> </depen...
2018-12-07 10:08:08
1017
DataX数据的迁移(MySQL、HDFS,Hive)
2022-04-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人