- 博客(31)
- 收藏
- 关注
原创 spark写hive本地运行报错
Please make sure that jars for your version of hive and hadoop are included in the paths passed to spark.sql.hive.metastore.jars
2022-06-17 15:03:06
537
原创 The root scratch dir: tmp/hive on HDFS should be writable. Current permissions are: rw-rw-rw-
The root scratch dir: tmp/hive on HDFS should be writable. Current permissions are: rw-rw-rw-
2022-06-17 14:58:25
745
原创 java模糊匹配redis集群中的key
public Set<String> getAllKeys(String pattern){ Set<String> result = new HashSet<>(); try { Map<String, JedisPool> clusterNodes = jedisCluster.getClusterNodes(); for (Map.Entry<String, JedisPool> ent
2021-12-14 13:58:14
2307
原创 java使用密码连接Redis集群
public class RedisClusterUtil { private static JedisCluster jedis = null; //可用连接实例的最大数目,默认为8; //如果赋值为-1,则表示不限制,如果pool已经分配了maxActive个jedis实例,则此时pool的状态为exhausted(耗尽) private static Integer MAX_TOTAL = 10; //控制一个pool最多有多少个状态为idle(空闲)的jed
2021-12-14 13:49:58
2674
原创 修改hdfs文件所属用户提示:Non-super user cannot change owner
hdfs dfs -chown -R test /apps/hive/test.db/test.dat报错:chown: changing ownership of ‘/apps/hive/test.db/test.dat’: Non-super user cannot change owner使用如下命令可以正常修改:sudo -u hdfs hadoop fs -chown -R test /apps/hive/test.db/test.dat...
2020-09-03 09:30:18
2662
原创 hive 中 unnest的使用
unnest 类似 hive中的侧视图如数据:id infos1 01,02,032 04,05,06select id,info from test cross join unnest(split(info,',')) as info输出如下1 011 021 032 042 052 06
2020-09-02 17:22:41
4071
原创 hive分区表的创建和数据加载
create table ipbc(ip string)partitioned by(ds string)row format delimited fields terminated by '\t';load data local inpath '/root/ztj/ipbc0705.txt' into table ipbc partition (ds='2020-07-05');insert into table ipbc partition (ds='20200706') select
2020-07-14 17:05:28
274
原创 hive拉链表实战
–第一步:数据库源表orders()create table orders(order_id int,createtime string,modifiedtime string,status string)20190821开始做拉链表 数据如下±--------------------------------±----------------------------------...
2020-01-11 15:25:10
425
原创 spark中dataset对象使用map算子报错问题
报错:Error:(29, 32) Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for s...
2019-12-01 21:52:39
1497
原创 kettle连接hadoop报错问题
连接参数如下报错截图:the hadoop file system url dose not match the shims core-site.xml解决办法:将hadoop下etc/hadoop/下的所有xml配置配置文件,拷贝到kettle目录下(如下图标记的目录)路径:data-integration\plugins\pentaho-big-data-plugin\hadoop...
2019-11-27 21:39:48
2328
原创 mapreducer的运行机制
mapreducer的运行机制map阶段1 通过读取数据组件 InputFormat (默认 TextInputFormat) 将文件进行逻辑切片,然后启动对应切片个数的maptask任务2 通过recordread读取数据,返回<key1,value1>的键值对3 进入自定义的mapper类中,调用map函数,读取一行记录就会调用一次,输出处理后的键值对;map的shuff...
2019-10-18 21:45:28
181
原创 mapreduce入门案例
worldcount输出单词出现的次数代码编写步骤1自定义mapper类继承自Mapper,自定义mapper主要是将,<k1,V1>转换成 <k2,v2>public class WordCountMapper extends Mapper<LongWritable,Text, Text , LongWritable> { //map方法就是将...
2019-10-18 21:42:38
160
原创 HDFS的高可用机制
在典型的HA集群中,两台独立的机器被配置为NameNode。在工作集群中,NameNode机器中的一个处于Active状态,另一个处于Standby状态。Active NameNode负责群集中的所有客户端操作,而Standby充当从服务器。Standby机器保持足够的状态以提供快速故障切换(如果需要)。ZKFC进程中的三个组件ZKFailoverController是基于Zookeepe...
2019-10-18 21:38:49
198
原创 HDFS的api操作
1.2 使用文件系统方式访问数据### 1.2.1 获取 FileSystem 的几种方式* 第一种方式```java@Testpublic void getFileSystem1() throws IOException { Configuration configuration = new Configuration(); //指定我们使用的文件系统类型: c...
2019-10-18 21:33:21
132
原创 FsImage 和 Edits 详解
edits• edits 存放了客户端最近一段时间的操作日志• 客户端对 HDFS 进行写文件时会首先被记录在 edits 文件中• edits 修改时元数据也会更新fsimage• fsimage 存放了一份比较完整的元数据信息• 因为 fsimage 是 NameNode 的完整的镜像, 如果每次都加载到内存生成树状拓扑结构,这是非常耗内存和CPU, 所以一般开始时对 Nam...
2019-10-18 21:29:38
657
原创 HDFS 文件读取过程
Client向NameNode发起RPC请求,来确定请求文件block所在的位置;NameNode会视情况返回文件的部分或者全部block的主机列表,namenode会对列表进行排序,排序两个规则:网络拓扑结构中距离 Client 近的排靠前;心跳机制中超时汇报的 DN 状态为 STALE,这样的排靠后;Client 选取排序靠前的 DataNode 来读取 block,如果客户端本身就是D...
2019-10-18 21:27:13
131
原创 hdfs文件的写入过程
</head><body ><h1>这里以一个namenode,3个datanode为例</h1> <ul> <li>client 发送上传文件的请求</li> <li>namenode接收到请求后会检查上传权限,</li> <li> 如果符...
2019-10-18 21:24:38
277
原创 hdfs基准测试
测试写入速度hadoop jar /export/servers/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.5.jar TestDFSIO -write -nrFiles 10 -fileSize 10MB完成之后查看写入速度结果hdfs dfs -text /benchmarks...
2019-10-18 20:54:23
191
原创 hdfs的安全模式
安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。当集群启动的时 候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。假设我们设置的副本数(即参数dfs.replication)是3,那么在datanode上就应该有3个副本存 在,假设只存在2个副本,那么比例就是2/3=0.666。hdfs默认的副本率0.999。我们的副本率,0.666明显小于0.999,因此...
2019-10-18 20:50:11
171
原创 hdfs常用的命令
HDFS常用命令类似于Linux的ls命令,显示文件列表hdfs dfs -ls /在整个目录下递归执行ls, 与UNIX中的ls-R类似hdfs dfs -ls -R /创建目录。使用-p参数可以递归创建目录hdfs dfs -mkdir dir2hdfs dfs -mkdir -p dir3/testput将单个的源文件src或者多个源文件srcs...
2019-10-18 20:48:54
282
原创 HDFS的副本机制和机架感知
1 HDFS 文件副本机制所有的文件都是以 block 块的方式存放在 HDFS 文件系统当中,作用如下1. 一个文件有可能大于集群中任意一个磁盘,引入块机制,可以很好的解决这个问题2. 使用块作为文件存储的逻辑单位可以简化存储子系统3. 块非常适合用于数据备份进而提供数据容错能力在 Hadoop1 当中, 文件的 block 块默认大小是 64M, hadoop2 当中, 文件的 b...
2019-10-18 20:46:16
458
原创 NameNode和DataNode
1 ,NameNodeNameNode在内存中保存着整个文件系统的名称 空间和文件数据块的地址映射整个HDFS可存储的文件数受限于NameNode的内存大小1,管理元数据信息2,管理数据块(Block)映射信息 ,配置副本策略3,处理客户端读写请求。4,NameNode心跳机制 全权管理数据块的复制,周期性的接受心跳和块的状态报告信息(包 含该DataNode上所有数据块的列表) 若接...
2019-10-18 20:45:10
497
原创 hadoop集群 中每个角色的用途(非高可用模式)
HDFS是主/从(Mater/Slave)体系结构 ,HDFS由四部分组成,HDFS Client、NameNod e、DataNode和Secondary NameNode。每个服务的作用1、Client:就是客户端。文件切分。文件上传 HDFS 的时候,Client 将文件切分成 一个一个的Block,然后进行存 储。与 NameNode 交互,获取文件的位置信息。与 DataNo...
2019-10-18 20:43:39
630
原创 hadoop配置文件修改
#######################################################################core-site.xml<configuration> <!-- 指定集群的文件系统类型:分布式文件系统 --> <property> <name>fs.default.name</nam...
2019-09-17 20:11:41
2198
原创 hadoop集群部署
1、 Hadoop的介绍狭义上来说,hadoop就是单独指代hadoop这个软件,HDFS :分布式文件系统MapReduce : 分布式计算系统Yarn:分布式集群资源管理广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件2、hadoop的历史版本和发行版公司**####################################################...
2019-09-17 19:53:54
274
原创 hadoop集群环境准备
1 安装vm虚拟机和centos6.9系统安装好后克隆两份,(这里使用三台机器搭建hadoop集群)2 修改克隆系统的 配置文件vim /etc/udev/rules.d/70-persistent-net.rules修改name=“eth0”vim /etc/sysconfig/network-scripts/ifcfg-eth0修改网卡信息HWADDR 与70-persist...
2019-09-17 19:37:49
104
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人