- 博客(22)
- 收藏
- 关注
原创 Flink求TopN
一、数据字段如下: 字段名 数据类型 说明 userId Long 加密后的用户ID itemId Long 加密后的商品ID categoryId Int ...
2019-11-08 20:49:04
2115
原创 Spark Streaming 读取Kafka数据
1.引入Maven依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</vers...
2019-10-11 17:02:24
321
1
原创 Spark从 Hbase 读写文件
由于 org.apache.hadoop.hbase.mapreduce.TableInputFormat 类的实现,Spark 可以通过Hadoop输入格式访问 HBase。 这个输入格式会返回键值对数据,其中键的类型为org. apache.hadoop.hbase.io.ImmutableBytesWritable,而值的类型为org.apache.hadoop.hbase.client....
2019-10-08 20:41:28
257
原创 Spark从 Mysql 数据库读写文件
1.引入maven依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> &...
2019-10-08 18:40:23
232
原创 Shell中单引号和双引号区别
1、创建一个脚本 [hadoop@hadoop104 fczheng]$ vim test.sh 在文件中添加如下内容: #!/bin/bash do_time=$1 echo '$do_time' echo "$do_time" echo "'$do_time'" echo '"$do_time"' echo `date` 2、执行结果 [hadoop@hadoop104 fc...
2019-08-29 15:25:59
140
原创 Kafka启动后进程过一段时间自己消失,问题解决
我的Kafka有三个节点,启动kafka后进程过一段时间后会自己消失。解决问题思路如下: 由于kafka依赖于zookeeper,启动后要去zookeeper中注册, 启动kafka时:先启动zookeeper,保证zookeeper服务正常后,后再启动Kafka。 关闭Kafka时:先关闭kafka,再关闭zookeeper。 保证启动和停止无误后,如果kafka启动后,kafka进程...
2019-08-28 13:00:37
9115
3
原创 DataX3.0入门简介
一篇不错的介绍DataX的文章,转载自:https://blog.youkuaiyun.com/u014646662/article/details/82792725 ,感谢原作者。 一. DataX3.0概览 二、DataX3.0框架设计 三. DataX3.0插件体系 四、DataX3.0核心架构 五、DataX 3.0六大核心优势 对人工智能感兴趣的同学,可以点击以下链接: 现在人工智能非...
2019-08-23 21:15:53
326
原创 Hadoop集群安全模式
基本语法: 集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。 功能描述:查看安全模式状态 hdfs dfsadmin -safemode get 功能描述:进入安全模式状态 hdfs dfsadmin -safemode enter 功能描述:离开安全模式状态 hdfs dfsadmin -safemode leave 功能描述:等...
2019-08-23 20:34:34
489
原创 使用MapReduce将HBASE表中的数据导入到HDFS
目标:将HBase中student表中的数据,通过MR迁移到HDFS的hdfs://hadoop112:9000/user/hadoop/out1路径下。 1. 添加Maven依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId...
2019-08-16 21:32:06
1079
原创 使用MapReduce把HBase表中的数据迁移到另一张HBase表中
目标:将HBase中student表中的数据,通过MR迁入student_mr表中。 1. 添加Maven依赖 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>h...
2019-08-16 20:03:13
648
原创 Hbase Region下线故障修复
当发现HBASE的某张表无法正常访问,或scan时: 发现故障后,检查hbase(以student表为例): [hadoop@hadoop112 ~]$ hbase hbck -details student 结果重要部分如下: Summary: Table student is okay. Number of regions: 0 Deployed on: Tabl...
2019-08-16 12:36:56
2038
1
原创 Arrays.copyOf()与System.arraycopy()的区别
如果我们想拷贝一个数组,我们可能会使用Arrays.copyof()或者System.arraycopy()两种方式。在这里,我们将使用一个比较简单的示例来阐述两者之间的区别。 一、首先System.arraycopy() 首先观察先System.arraycopy(Object src, int srcPos, Object dest, int destPos, int length)的声明...
2019-08-15 11:16:33
579
原创 HBase架构简介
一、HBase架构 HBase架构图如下: 从图中可以看出 Hbase 是由 Client、Zookeeper、Master、HRegionServer、HDFS 等 几个组件组成,下面来介绍一下几个组件的相关功能: 1 )Client Client 包含了访问 Hbase 的接口,另外 Client 还维护了对应的 cache 来加速 Hbase 的访问,比如 ca...
2019-08-14 18:11:10
320
原创 Hive之--窗口函数
背景: 平常我们使用 hive或者 mysql时,一般聚合函数用的比较多。但对于某些偏分析的需求,group by可能很费力,子查询很多,这个时候就需要使用窗口分析函数了~ 注:hive、oracle提供开窗函数,mysql8之前版本不提供,但Oracle发布的 MySQL 8.0版本支持窗口函数(over)和公用表表达式(with)这两个重要的功能! 一、相关函数说明 OVER():指定分...
2019-08-05 23:41:54
454
原创 Hive之--行转列collect和列转行explode
一、行专列 1.相关函数说明 concat(string A/col, string B/col…):返回输入字符串连接后的结果,支持任意个输入字符串; concat_ws(separator, str1, str2,...):它是一个特殊形式的 concat()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL,返回值也将为 NULL。这个函数会跳过...
2019-08-05 19:17:10
1002
原创 Hive集合数据类型
Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java中的Array和Map类似,而STRUCT与C语言中的Struct类似,它封装了一个命名字段集合,复杂数据类型允许任意层次的嵌套。 数据类型 描述 语法示例 STRUCT 和c语言中的struct类似,都可以通过...
2019-08-02 18:14:23
519
原创 Hadoop的HA集群搭建详细步骤
一、环境准备 1. 修改IP 2. 修改主机名及主机名和IP地址的映射 3. 关闭防火墙 4. ssh免密登录 5. 安装JDK,配置环境变量等 二、集群规划 表2-1 hadoop集群规划 hadoop112 hadoop113 hadoop114 NameNode NameNode Journ...
2019-07-31 20:08:17
607
原创 HDFS的I/O流操作
采用IO流的方式实现数据的上传和下载。 package com.fczheng.hdfs; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.net.URI; import java.net....
2019-07-23 21:16:43
236
原创 Hadoop分布式集群搭建详细步骤
主机名和ip映射如下: 192.168.1.110 hadoop110 192.168.1.111 hadoop111 192.168.1.112 hadoop112 一、Linux环境准备 1、更改主机名 (注:次操作分别在hadoop110,hadoop111,hadoop112上操作) [hadoop@hadoop110 ~]$ su root [root@hadoop...
2019-07-23 00:11:02
376
原创 Hadoop分布式集群搭建之--SSH无密登录配置
1、配置ssh实现hadoop100免秘钥登录hdoop101和hadoop102。 2、免秘钥登录原理如下图所示: 3、生成公钥和私钥: 注:本操作hadoop用户已经创建,执行路径为/home/hadoop/.ssh [hadoop@hadoop100 .ssh]$ ssh-keygen -t rsa 注:然后敲(三个回车),就会生成两个文件id_rsa(私钥)、id_rsa...
2019-07-22 20:47:46
479
原创 HDFS客户端的API操作
下面的代码对HDFS的客户端操作,即HDFS文件的上传,HDFS文件的下载,HDFS文件夹的删除,HDFS文件名的更改,HDFS文件详情的查看。代码如下: package com.fczheng.hdfs; import java.io.File; import java.io.IOException; import java.net.URI; import java.net.UR...
2019-07-22 20:03:04
246
原创 Hadooop分布式集群搭建之--ntp同步集群时间
时间同步方式:hadoop112作为时间服务器,hadoop113、hadoop114定时同步hadoop112的时间,每10分钟同步一次。 配置时间同步具体实操: 1、时间服务器配置(必须root用户) 1、检查ntp是否安装 [root@hadoop112 hadoop]# rpm -qa|grep ntp fontpackages-filesystem-1.41-1.1.el6.noarch...
2019-07-20 19:11:15
469
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅