- 博客(9)
- 收藏
- 关注
原创 Kafka面试题3
1、kafka中的消费者,他们的偏移量存储在哪里?3、kafka中数据挤压太多,怎么办?(提高消费者的效率) 4、Kafka中的数据在消费过程中,有漏消费和重复消费的情况,怎么办?5、kafka中的数据已经消费过的数据,是否可以再次消费?怎么做? 6、Kafka中数据倾斜
2024-11-13 11:12:48
846
2
原创 Kafka面试题2
1、kafka是如何做到高效读写Kafka 通过“零拷贝”技术提高了数据的传输效率。当 Kafka 需要将数据从磁盘读取到网络时,使用零拷贝可以避免数据在内存中的额外拷贝,从而加速数据的传输过程。Kafka 支持消息的批量处理,不仅在生产端(Producer)可以将多个消息打包成一个请求批量发送到 Kafka 集群,消费者端(Consumer)也可以批量拉取消息。批量操作减少了网络通信的次数,从而提高了系统吞吐量。当上层有写操作时,操作系统只是将数据写入 PageCache。
2024-11-11 23:09:07
634
原创 Kafka面试题总结
例子:bin/kafka-reassign-partitions.sh --bootstrap-server bigdata01:9092 --topics-to-move-json-file topics-to-move.json --broker-list "0,1,2,3" --generate。kafka在进行初始化的时候,选举谁当第一Leader,是有一定的算法的。生产者发送的数据,单分区内可以做到有序,多分区,无法保证,除非把多个分区的数据拉到消费者端,进行排序,效率低下。
2024-11-09 16:25:42
806
原创 请写出hive查询语句,各类型专利top 10申请人,以及对应的专利申请数
2)表字段:专利号(patent_id)、专利名称(patent_name)、专利类型(patent_type)、申请时间。(aplly_date)、授权时间(authorize_date)、申请人(apply_users)--各类型专利top 10申请人,以及对应的专利申请数,找出申请人和申请数后将字段炸裂再分组。本表记录数约1万条。4)请写出hive查询语句,各类型专利top 10申请人,以及对应的专利申请数。请写出hive查询语句,各类型专利top 10申请人,以及对应的专利申请数。
2024-11-07 23:21:11
179
原创 DataX的介绍
但是比Sqoop要快,Sqoop底层是MR(Map任务),基于磁盘的,DataX基于内存的,所以速度比较快。DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX是java 解决的是高并发问题,大数据解决的是海量数据存储与分析问题的工具。DataX是阿里云DataWorks数据集成的开源版本。
2024-09-12 23:28:56
265
原创 HIVE配置远程服务的启动脚本
想要通过一些远程软件操作hive,这个时候必须开启远程模式。而hiveserver2和metastore,是启动hive的关键服务。正常启动hive,需要启动hiveserver2和metastore,什么是hiveserver2和metastore呢?第一次运行时间有些长,需要等待片刻,看到四个session id则正常运行。ip为metastore服务所在的主机ip地址。为别人连接mysql元数据提供服务的。可以正常显示出,即可正常运行。thrift:是协议名称。保存后上传,再加上权限。
2024-09-09 00:23:43
692
1
原创 Hive-beeline连接报错:root is not allowed to impersonate root 解决方法
使用hive/bin目录下的hive启动客户端,使用!connect jdbc:hive2://hadoop01:10000连接Hive数据仓库时提示输入用户名和密码,输入数据库的用户名和密码报错:这一般是hive的进程配置问题。
2024-09-09 00:07:18
1005
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人