heheha_zj-优快云博客

原创 Flume拦截器的实现

Flume拦截器实现，校验JSON格式，清洗非Json格式的数据，FLume采集日志文件数据到Kafka

2025-01-03 15:27:58 536

原创在dss中运行scala任务报java.lang.NullPointerException: null

在dss中运行scala任务报java.lang.NullPointerException: null

2023-03-19 01:01:54 311

原创 hive 数据导入和导出

hive数据导入与导出，Sqoop数据导入与导出

2022-08-16 09:23:15 522

原创 Hive多字段数值比较大小

Hive多字段数值比较大小、COALESCE函数（返回第一个非空值）、least函数（返回最小值）、greatest函数（返回最大值）

2022-06-30 10:37:16 4846

原创 Mysql row_number() | rank() 实现

Mysql row_number() | rank() 实现

2022-06-30 10:29:20 415

get_json_object 函数此函数为常用函数，可以取出json数据中的相应的字段的数值-- get_json_object(json,'$.name') as nameselect get_json_object('{"name":"zj","age":25}','$.name') as name ,get_json_object('{"name":"zj","age":25}','$.age') as age;select get_json_object('{"name":"zj","a

2022-04-12 11:25:40 1442

原创 Hive 表字段数据修改

hive字段信息修改修改表注释ALTER TABLE table1 SET TBLPROPERTIES('comment' = '每日背书企业成交明细(去重)');增加字段alter table table1 add columns(bonus varchar(255) comment '奖金');alter table table1 add columns(bonus varchar(255) comment '奖金') cascade; -- 适用于分区表联级机制cascadeca

2022-04-12 11:15:37 10268

原创 Hive 行转列、列转行

hive 行列之间数据相互转换

2021-12-21 10:21:28 840

原创 DataX将HDFS数据迁移到Mysql中NULL值的处理

DataX将HDFS数据迁移到Mysql中NULL值的处理

2021-12-18 17:06:17 4653

原创 Spark | HDFS 本地调式时出现：Failed to connect to /192.168.0.53:9866 for block, add to deadNodes and continu

出现原因21/11/16 15:13:17 WARN BlockReaderFactory: I/O error constructing remote block reader.java.net.ConnectException: Connection timed out: no further information......Failed to connect to /192.168.0.53:9866 for block, add to deadNodes and continue. ja

2021-11-16 15:24:25 3742 2

原创 Hive UDF GDF UDTF编写与实现

hive 自定义函数实现UDF | GDF | UDTF 区别UDF：一进一出（hive3 已经废除）GDF：一进一出（hive3 支持的GDF）UDTF：一进多出业务前景测试数据为：字符串(JSON数组格式 [{},{},{}] )[{\"title\": \"转让背书\", \"endorseName\": \"山东泰山钢铁集团有限公司\", \"endorseeName\": \"山东汶汇港物流有限公司\", \"isTransfer\": \"可以转让\", \"endorseDa

2021-11-11 11:09:13 2284

原创 centos6 的 hadoop三台集群的搭建

三台的hadoop分布式集群的搭建：如果你要部署一个高可用的完全分布式集群请参照：我的博客：Hadoop完全分布式集群搭建过程（HA高可用）https://blog.youkuaiyun.com/hello_heheha/article/details/998883301，修改主机名分别为：master slave1 slave22，配置/ etc / hosts（三台都要修改）...

2021-11-11 10:00:11 581

原创大数据面试题汇总

大数据面试题-20200607简答题+面试题HashMap和HashTable的区别Scla中的Case class作用数据仓库分层概念数据分层概念数据分层为倒三角，从上到下依次为ODS层（原始数据层）、DWD层（明细数据层）、DWS层（服务数据层）、ADS层（数据应用层），数据量是从多到少，从复杂化到简单化。ODS层：原始数据层、存放原始数据，直接加载原始日志信息，数据，数据保持原貌不做处理DWD层（DWI层）：结构和粒度与原始数据保持一致，对ODS层数据进行数据清洗（去空值、脏数据、

2020-09-22 13:12:06 670

原创 Elasticsearch学习笔记

ES简介Elasticsearch：全文检索引擎，快速存储，检索、和分析海量数据底层是由Lucene支持Lucene开放的源代码的全文检索引擎工具包，不是完整的全文检索引擎，而是一个全文检索的引擎架构，特点：完整的查询完整的索引部分具有文本分析Lucene提供了一个简单缺强大的应用程序接口ES基本概念P：Primary shard 主分片R：Reaplication shard 备用分片一个cluster存在一或者多个node组成，每个集群都有一个cluster.n

2020-09-22 10:20:00 351

原创 join和union的区别

join和union的区别union和join是需要联合多张表时常见的关联词，join:两张表做交连后里面条件相同的部分记录产生一个记录集，union:union是产生的两个记录集(字段要一样的)并在一起，成为一个新的记录集。join的连接方式(left join\left outer join) \ right join \right outer join \inner join......

2020-03-27 18:02:15 15634

原创 Spark的ReduceByKey和GroupByKey的区别

Spark的ReduceByKey和GroupByKey的区别ReduceByKey和GroupByKey其实和Hadoop的MapReduce中的是否带有combinner一样的道理，无论是ReduceBuKey还是GroupByKey返回的结果都是RDD。ReduceByKey：说白了就是带有Commbiner的操作，也就是说ReduceBykey会减少Map端的输出，在Map端输出的时候...

2020-01-31 16:24:19 388

原创 Maven设置指定jar包依赖版本信息

我们在配置Spark core 的 maven依赖的时候jackson-module-scala_2.11的版本冲突，解决办法如下：<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</ar...

2019-12-12 16:44:07 9588

原创 Cannot open channel to 2 at election address zj03/192.168.8.132:3888

问题描述我的问题是，在我配置的三台集群中就一台启动不起来，但是原来我的是三台都启动成功，最近就是这一台启动不起来，查看日志信息就是包这个错误。2019-08-24 20:02:13,041 [myid:0] - WARN [WorkerSender[myid=0]:QuorumCnxManager@584] - Cannot open channel to 1 at election add...

2019-08-24 21:48:16 2980 2

原创 Hadoop完全分布式集群搭建过程（HA高可用）

使用Centos7来进行完全分布式的集群搭建，一般我们用伪分布式的集群就可以了，不需要配置完全分布式的集群和我们搭建伪分布式集群一样，我们首先要现在好安装包，以及我们需要配置配置JDK，SSH免秘钥登陆，以及Zookeeper分布式的搭建等，下面就开始我们的搭建过程一、配置Linux虚拟机1.配置主机名以及主机映射我们配置集群环境的时候，设置固定的主机名和主机映射能够方便的让我我们使用修...

2019-08-21 21:45:24 1470 2

原创 Cento7安装mysql以及mysql中文编码的问题解决方案

Centos7默认的是 Mariadb而不是mysql，这里依旧以mysql为例进行展示，亲测非常有效。安装mysql1、查看系统自带的mysql版本信息rpm -qa | grep mysql一般情况是没有任何返回值的，如果有返回值这证明原来已经安装过mysql，如果安装过则需要我们用以下语句进行卸载掉rpm -e XXX.rpm或者强制删除rpm -e --nodeps......

2019-08-20 21:25:23 485

原创使用maven打jar包的pom配置

使用maven打jar包的pom配置在pom.xml文件中添加如下配置，就可以在用maven打jar包的时候可以将相对应的jar可以直接打进去<build> <plugins> <plugin> <artifactId>maven-assembly-plugin</ar...

2019-07-24 20:48:38 886

转载 Hadoop面试题

Hadoop面试题转载：http://www.aboutyun.com/thread-6787-1-1.html转载：https://blog.youkuaiyun.com/sdksdk0/article/details/516953411. 下面哪个程序负责 HDFS 数据存储。a)NameNodeb)Jobtrackerc)Datanode d)secondaryNameNod...

2019-06-10 14:58:43 547

原创 windows下使用Idea来运行MR

#Windows下使用idea来运行MR##我们要先在本地配置Hadoop运行环境，我的是hadoop2.7.5先解压按装包，然后配置hadoop环境变量##下载hadoop.dall和winutils.exe两个文件，我在这里面下载的是hadoop2.7.1网址：https://github.com/LUK-qianliu/winutils-master将下载好的这两个文件放到hado...

2019-04-05 16:33:26 1216

原创 IDEA打开一个web项目的时候开启tomca出现404错误

#IDEA打开一个web项目的时候开启tomca出现404错误当我们导入一个web项目的时候，我么把dk，maven，tomcat等一切配置好以后，开启tomcat的时候，会出现404错误，按理说我们应该访问web目录下的index.jsp文件，这是因为我们的web路径出现的丢失导致的，此时我们可以尝试一下方法：打开File -> Project查看Modules中web项目中是否出现...

2019-03-25 20:07:08 394

原创 java.lang.IllegalArgumentException: No converter found for return value of type

遇见 java.lang.IllegalArgumentException: No converter found for return value of type: class java.util.ArrayList 解决办法如果我们碰见这个问题一般是我们在配置pom文件的时候，缺包所导致的主要原因是：这是因为springmvc默认是没有对象转换成json的转换器的，需要手动添加jackso...

2019-03-23 15:45:36 543

原创 Error: E0501 : E0501: Could not perform authorization operation, User: root is not allowed to impers

修改hadoop的配置文件core-site.xml <property> <name>hadoop.proxyuser.root.hosts</name> <value>*</value> </property> <property> &

2019-01-16 10:44:52 1473

原创 centos6、ubuntu中mysql的安装

centos：mysql：安装此文档只支持Centos6的mysql安装，Centyo7安装mysql可以参照我的另外一篇进行安装配置连接为：https://blog.youkuaiyun.com/hello_heheha/article/details/99880723 使用yum安装mysql #>yum install mys...

2018-12-09 18:54:17 254

原创 Hbase集群搭建

Hbase安装：1.上传hbase安装包到虚拟机中2.解压hbase压缩包3.配置hbase集群，要修改3个文件（首先zk集群已经安装好了）注意：要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase-env.sh export JAVA_HOME=/usr/java/...

2018-12-09 18:50:02 135

原创 MapReduce需要的maven pom设置

<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.3.1</version> </depen...

2018-12-07 10:08:08 1051

DataX数据的迁移（MySQL、HDFS，Hive）

1.将Mysql中的数据迁移到Hdfs文件系统中，然后通过Hive加载HDFS文件系统中的数据值 2.将Hive中的数据迁移到指定Mysql数据库中注意点： 1.数据迁移的过程中，由于hive的Null值存储为"\N"，Mysql存储为NULL值，二者转换时需要注意，再数据迁移json模板中，"nullFormat": "\\N", 该配置信息就是解决了数据迁移是存在的Null值。 2.如果hive中没有数值DataX迁移时会出现异常执行语句：python /opt/module/datax/bin/datax.py /opt/module/datax/job/xxx.json

2022-04-12

MAC地址修改器.zip

在我们使用TeamViewer的时候，连接一定次数后会报检测出商业用途，我们可以根据MAC地址修改器来修改主机的MAC地址

2019-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

hello_heheha的博客

原创 Hive集群安装部署

原创 Azkaban3.84集群安装部署