自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Hive报错:Permission denied: user=root, access=WRITE, inode=“/user“:hdfs:supergroup:drwxr-xr-x

刚部署了CDH集群,同事往hdfs中写了一些测试数据,通过Hive查询这些数据的时候报了下面错误:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x。

2024-04-29 17:03:18 828 2

原创 CDH安装hive报错:Failed to Create Hive Metastore Database Tables.

按照提示寻找/usr/share/java/目录 发现/usr/share/目录下没有java这个目录,就在/usr/share/目录下手动创建了一个java目录,然后把mysql-connector-java.jar拷贝了进来,同时赋予mysql-connector-java.jar可执行权限。也就是说是:/usr/share/java/目录下没有mysql-connector-java.jar。之后重试安装,成功了!

2023-12-27 18:58:38 646 1

原创 窗口函数的SQL语法

窗口函数相比于聚合和分组函数能实现更复杂的数据分析功能。

2022-12-27 13:46:31 285

原创 大数据之无界数据流和有界数据流

无界流:有一个开始但是没有结束,不会在生成时终止并提供数据,必须连续处理无界流,也就是说必须在获取后立即处理event。对于无界数据流我们无法等待所有数据都到达,因为输入是无界的,并且在任何时间点都不会完成。处理无界数据流通常要求以特定顺序(例如事件发生的顺序)获取event,以便能够推断结果完整性。有界数据流:有界数据流有明确定义的开始和结束,可以在执行任何计算之前通过获取所有数据来处理有界流,处理有界流不需要有序获取,因为可以始终对有界数据集进行排序,有界流的处理也称为批处理。...

2021-10-24 19:20:01 2544

原创 大数据:流处理和批处理的不同

流与批的特点:批处理的特点是有界、持久、大量,非常适合需要访问全套记录才能完成的计算工作,一般用于离线统计。流处理的特点是无界、实时,无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作,一般用于实时统计。应用场景:在spark的计算中,一切都是由批次组成的,离线数据是一个大批次,而实时数据是由一个一个无限的小批次组成的。而在flink的世界观中,一切都是由流组成的,离线数据是有界限的流,实时数据是一个没有界限的流,这就是所谓的有界流和无界流。这种以流为世界观的架构,获

2021-10-24 19:16:19 2332

原创 hadoop常用端口号

1,namenode http端口:500702,datanode http端口:500753,secondaryNameNode 节点http端口号:500904,datanode后端访问端口号:500105,fs 端口号:90006,yarn http端口号:80887,历史服务器web访问端口号:1988...

2021-10-14 16:13:14 1213

转载 Flink的状态一致性的相关总结

当在分布式系统中引入状态时,自然也引入了一致性问题。一致性实际上是"正确性级别"的另一种说法,也就是说在成功处理故障并恢复之后得到的结果,与没有发生任何故障时得到的结果相比,前者到底有多正确?举例来说,假设要对最近一小时登录的用户计数。在系统经历故障之后,计数结果是多少?如果有偏差,是有漏掉的计数还是重复计数?1、一致性级别在流处理中,一致性可以分为3个级别:at-most-once: 故障发生后,计数结果可能丢失 at-least-once: 计算程序在发生故障后可能重复计算,但是绝不会少算

2021-10-13 20:01:52 127

转载 使用JDBC连接MySql时出现:The server time zone value ‘�й���׼ʱ��‘ is unrecognized or represents more than one

今天在使用JDBC连接Mysql时出现The server time zone value '�й���׼ʱ��' is unrecognized or represents more than one time zone. You must configure either the server or JDBC driver (via the serverTimezone configuration查了一些资料看到有人分享,解决办法如下:在连接字符串后面加上?serverTimezone=UTC

2021-10-03 12:13:10 283

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除