- 博客(8)
- 收藏
- 关注
原创 Hive报错:Permission denied: user=root, access=WRITE, inode=“/user“:hdfs:supergroup:drwxr-xr-x
刚部署了CDH集群,同事往hdfs中写了一些测试数据,通过Hive查询这些数据的时候报了下面错误:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x。
2024-04-29 17:03:18
828
2
原创 CDH安装hive报错:Failed to Create Hive Metastore Database Tables.
按照提示寻找/usr/share/java/目录 发现/usr/share/目录下没有java这个目录,就在/usr/share/目录下手动创建了一个java目录,然后把mysql-connector-java.jar拷贝了进来,同时赋予mysql-connector-java.jar可执行权限。也就是说是:/usr/share/java/目录下没有mysql-connector-java.jar。之后重试安装,成功了!
2023-12-27 18:58:38
646
1
原创 大数据之无界数据流和有界数据流
无界流:有一个开始但是没有结束,不会在生成时终止并提供数据,必须连续处理无界流,也就是说必须在获取后立即处理event。对于无界数据流我们无法等待所有数据都到达,因为输入是无界的,并且在任何时间点都不会完成。处理无界数据流通常要求以特定顺序(例如事件发生的顺序)获取event,以便能够推断结果完整性。有界数据流:有界数据流有明确定义的开始和结束,可以在执行任何计算之前通过获取所有数据来处理有界流,处理有界流不需要有序获取,因为可以始终对有界数据集进行排序,有界流的处理也称为批处理。...
2021-10-24 19:20:01
2544
原创 大数据:流处理和批处理的不同
流与批的特点:批处理的特点是有界、持久、大量,非常适合需要访问全套记录才能完成的计算工作,一般用于离线统计。流处理的特点是无界、实时,无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作,一般用于实时统计。应用场景:在spark的计算中,一切都是由批次组成的,离线数据是一个大批次,而实时数据是由一个一个无限的小批次组成的。而在flink的世界观中,一切都是由流组成的,离线数据是有界限的流,实时数据是一个没有界限的流,这就是所谓的有界流和无界流。这种以流为世界观的架构,获
2021-10-24 19:16:19
2332
原创 hadoop常用端口号
1,namenode http端口:500702,datanode http端口:500753,secondaryNameNode 节点http端口号:500904,datanode后端访问端口号:500105,fs 端口号:90006,yarn http端口号:80887,历史服务器web访问端口号:1988...
2021-10-14 16:13:14
1213
转载 Flink的状态一致性的相关总结
当在分布式系统中引入状态时,自然也引入了一致性问题。一致性实际上是"正确性级别"的另一种说法,也就是说在成功处理故障并恢复之后得到的结果,与没有发生任何故障时得到的结果相比,前者到底有多正确?举例来说,假设要对最近一小时登录的用户计数。在系统经历故障之后,计数结果是多少?如果有偏差,是有漏掉的计数还是重复计数?1、一致性级别在流处理中,一致性可以分为3个级别:at-most-once: 故障发生后,计数结果可能丢失 at-least-once: 计算程序在发生故障后可能重复计算,但是绝不会少算
2021-10-13 20:01:52
127
转载 使用JDBC连接MySql时出现:The server time zone value ‘�й���ʱ��‘ is unrecognized or represents more than one
今天在使用JDBC连接Mysql时出现The server time zone value '�й���ʱ��' is unrecognized or represents more than one time zone. You must configure either the server or JDBC driver (via the serverTimezone configuration查了一些资料看到有人分享,解决办法如下:在连接字符串后面加上?serverTimezone=UTC
2021-10-03 12:13:10
283
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人