keeper&-优快云博客

原创 spark写hive本地运行报错

Please make sure that jars for your version of hive and hadoop are included in the paths passed to spark.sql.hive.metastore.jars

2022-06-17 15:03:06 537

原创 The root scratch dir: tmp/hive on HDFS should be writable. Current permissions are: rw-rw-rw-

The root scratch dir: tmp/hive on HDFS should be writable. Current permissions are: rw-rw-rw-

2022-06-17 14:58:25 745

原创 java模糊匹配redis集群中的key

public Set<String> getAllKeys(String pattern){ Set<String> result = new HashSet<>(); try { Map<String, JedisPool> clusterNodes = jedisCluster.getClusterNodes(); for (Map.Entry<String, JedisPool> ent

2021-12-14 13:58:14 2307

public class RedisClusterUtil { private static JedisCluster jedis = null; //可用连接实例的最大数目，默认为8； //如果赋值为-1，则表示不限制，如果pool已经分配了maxActive个jedis实例，则此时pool的状态为exhausted(耗尽) private static Integer MAX_TOTAL = 10; //控制一个pool最多有多少个状态为idle(空闲)的jed

2021-12-14 13:49:58 2674

原创修改hdfs文件所属用户提示：Non-super user cannot change owner

hdfs dfs -chown -R test /apps/hive/test.db/test.dat报错：chown: changing ownership of ‘/apps/hive/test.db/test.dat’: Non-super user cannot change owner使用如下命令可以正常修改：sudo -u hdfs hadoop fs -chown -R test /apps/hive/test.db/test.dat...

2020-09-03 09:30:18 2662

原创 hive 中 unnest的使用

unnest 类似 hive中的侧视图如数据：id infos1 01,02,032 04,05,06select id,info from test cross join unnest(split(info,',')) as info输出如下1 011 021 032 042 052 06

2020-09-02 17:22:41 4071

原创 hive分区表的创建和数据加载

create table ipbc(ip string)partitioned by(ds string)row format delimited fields terminated by '\t';load data local inpath '/root/ztj/ipbc0705.txt' into table ipbc partition (ds='2020-07-05');insert into table ipbc partition (ds='20200706') select

2020-07-14 17:05:28 274

原创 hive拉链表实战

–第一步：数据库源表orders（）create table orders(order_id int,createtime string,modifiedtime string,status string)20190821开始做拉链表数据如下±--------------------------------±----------------------------------...

2020-01-11 15:25:10 425

转载 submit Spark sql脚本并行度调优

添加链接描述

2020-01-06 20:36:06 252

原创 spark中dataset对象使用map算子报错问题

报错：Error:(29, 32) Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for s...

2019-12-01 21:52:39 1497

原创 kettle连接hadoop报错问题

连接参数如下报错截图：the hadoop file system url dose not match the shims core-site.xml解决办法：将hadoop下etc/hadoop/下的所有xml配置配置文件，拷贝到kettle目录下（如下图标记的目录）路径：data-integration\plugins\pentaho-big-data-plugin\hadoop...

2019-11-27 21:39:48 2328

转载 linux中YUM安装MySQL5.7 linux

添加链接描述

2019-10-31 15:58:29 113

转载 yum源安装高版本mysql

添加链接描述

2019-10-31 15:18:04 254

转载卸载mysql

添加链接描述

2019-10-31 15:15:19 98

原创 mapreducer的运行机制

mapreducer的运行机制map阶段1 通过读取数据组件 InputFormat (默认 TextInputFormat) 将文件进行逻辑切片，然后启动对应切片个数的maptask任务2 通过recordread读取数据，返回<key1,value1>的键值对3 进入自定义的mapper类中，调用map函数，读取一行记录就会调用一次，输出处理后的键值对；map的shuff...

2019-10-18 21:45:28 181

原创 mapreduce入门案例

worldcount输出单词出现的次数代码编写步骤1自定义mapper类继承自Mapper，自定义mapper主要是将，<k1,V1>转换成 <k2,v2>public class WordCountMapper extends Mapper<LongWritable,Text, Text , LongWritable> { //map方法就是将...

2019-10-18 21:42:38 160

原创 HDFS的高可用机制

在典型的HA集群中，两台独立的机器被配置为NameNode。在工作集群中，NameNode机器中的一个处于Active状态，另一个处于Standby状态。Active NameNode负责群集中的所有客户端操作，而Standby充当从服务器。Standby机器保持足够的状态以提供快速故障切换（如果需要）。ZKFC进程中的三个组件ZKFailoverController是基于Zookeepe...

2019-10-18 21:38:49 198

原创 HDFS的api操作

1.2 使用文件系统方式访问数据### 1.2.1 获取 FileSystem 的几种方式* 第一种方式```java@Testpublic void getFileSystem1() throws IOException { Configuration configuration = new Configuration(); //指定我们使用的文件系统类型: c...

2019-10-18 21:33:21 132

原创 FsImage 和 Edits 详解

edits• edits 存放了客户端最近一段时间的操作日志• 客户端对 HDFS 进行写文件时会首先被记录在 edits 文件中• edits 修改时元数据也会更新fsimage• fsimage 存放了一份比较完整的元数据信息• 因为 fsimage 是 NameNode 的完整的镜像, 如果每次都加载到内存生成树状拓扑结构，这是非常耗内存和CPU, 所以一般开始时对 Nam...

2019-10-18 21:29:38 657

原创 HDFS 文件读取过程

Client向NameNode发起RPC请求，来确定请求文件block所在的位置；NameNode会视情况返回文件的部分或者全部block的主机列表，namenode会对列表进行排序，排序两个规则：网络拓扑结构中距离 Client 近的排靠前；心跳机制中超时汇报的 DN 状态为 STALE，这样的排靠后；Client 选取排序靠前的 DataNode 来读取 block，如果客户端本身就是D...

2019-10-18 21:27:13 131

原创 hdfs文件的写入过程

</head><body ><h1>这里以一个namenode，3个datanode为例</h1> <ul> <li>client 发送上传文件的请求</li> <li>namenode接收到请求后会检查上传权限，</li> <li> 如果符...

2019-10-18 21:24:38 277

原创 hdfs基准测试

测试写入速度hadoop jar /export/servers/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.5.jar TestDFSIO -write -nrFiles 10 -fileSize 10MB完成之后查看写入速度结果hdfs dfs -text /benchmarks...

2019-10-18 20:54:23 191

原创 hdfs的安全模式

安全模式是hadoop的一种保护机制，用于保证集群中的数据块的安全性。当集群启动的时候，会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。假设我们设置的副本数（即参数dfs.replication）是3，那么在datanode上就应该有3个副本存在，假设只存在2个副本，那么比例就是2/3=0.666。hdfs默认的副本率0.999。我们的副本率，0.666明显小于0.999，因此...

2019-10-18 20:50:11 171

原创 hdfs常用的命令

HDFS常用命令类似于Linux的ls命令，显示文件列表hdfs dfs -ls /在整个目录下递归执行ls, 与UNIX中的ls-R类似hdfs dfs -ls -R /创建目录。使用-p参数可以递归创建目录hdfs dfs -mkdir dir2hdfs dfs -mkdir -p dir3/testput将单个的源文件src或者多个源文件srcs...

2019-10-18 20:48:54 282

原创 HDFS的副本机制和机架感知

1 HDFS 文件副本机制所有的文件都是以 block 块的方式存放在 HDFS 文件系统当中,作用如下1. 一个文件有可能大于集群中任意一个磁盘，引入块机制,可以很好的解决这个问题2. 使用块作为文件存储的逻辑单位可以简化存储子系统3. 块非常适合用于数据备份进而提供数据容错能力在 Hadoop1 当中, 文件的 block 块默认大小是 64M, hadoop2 当中, 文件的 b...

2019-10-18 20:46:16 458

原创 NameNode和DataNode

1 ,NameNodeNameNode在内存中保存着整个文件系统的名称空间和文件数据块的地址映射整个HDFS可存储的文件数受限于NameNode的内存大小1，管理元数据信息2，管理数据块（Block）映射信息，配置副本策略3，处理客户端读写请求。4，NameNode心跳机制全权管理数据块的复制，周期性的接受心跳和块的状态报告信息（包含该DataNode上所有数据块的列表）若接...

2019-10-18 20:45:10 497

原创 hadoop集群中每个角色的用途（非高可用模式）

HDFS是主/从（Mater/Slave）体系结构，HDFS由四部分组成，HDFS Client、NameNod e、DataNode和Secondary NameNode。每个服务的作用1、Client：就是客户端。文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储。与 NameNode 交互，获取文件的位置信息。与 DataNo...

2019-10-18 20:43:39 630

原创 hadoop配置文件修改

#######################################################################core-site.xml<configuration>  <property> <name>fs.default.name</nam...

2019-09-17 20:11:41 2198

原创 hadoop集群部署

1、 Hadoop的介绍狭义上来说，hadoop就是单独指代hadoop这个软件，HDFS ：分布式文件系统MapReduce : 分布式计算系统Yarn：分布式集群资源管理广义上来说，hadoop指代大数据的一个生态圈，包括很多其他的软件2、hadoop的历史版本和发行版公司**####################################################...

2019-09-17 19:53:54 274

原创 hadoop集群环境准备

1 安装vm虚拟机和centos6.9系统安装好后克隆两份，（这里使用三台机器搭建hadoop集群）2 修改克隆系统的配置文件vim /etc/udev/rules.d/70-persistent-net.rules修改name=“eth0”vim /etc/sysconfig/network-scripts/ifcfg-eth0修改网卡信息HWADDR 与70-persist...

2019-09-17 19:37:49 104

weixin_43995212的博客

原创 IDEA提示jar包不存在，但是jar包已经导入

原创 spark写hive本地运行报错

原创 The root scratch dir: tmp/hive on HDFS should be writable. Current permissions are: rw-rw-rw-

原创 java模糊匹配redis集群中的key

原创 java使用密码连接Redis集群

原创修改hdfs文件所属用户提示：Non-super user cannot change owner

原创 hive 中 unnest的使用

原创 hive分区表的创建和数据加载

原创 hive拉链表实战

转载 submit Spark sql脚本并行度调优

原创 spark中dataset对象使用map算子报错问题

原创 kettle连接hadoop报错问题

转载 linux中YUM安装MySQL5.7 linux

转载 yum源安装高版本mysql

转载卸载mysql

原创 mapreducer的运行机制

原创 mapreduce入门案例

原创 HDFS的高可用机制

原创 HDFS的api操作

原创 FsImage 和 Edits 详解

原创 HDFS 文件读取过程

原创 hdfs文件的写入过程

原创 hdfs基准测试

原创 hdfs的安全模式

原创 hdfs常用的命令

原创 HDFS的副本机制和机架感知

原创 NameNode和DataNode

原创 hadoop集群中每个角色的用途（非高可用模式）

原创 hadoop配置文件修改

原创 hadoop集群部署

原创 hadoop集群环境准备

jdk1.8 无需安装，配置java_home 即可使用

scala-2.11 环境，免安装版，配置环境变量即可使用

空空如也