a2makemoney-优快云博客

原创 Kafka面试题3

1、kafka中的消费者，他们的偏移量存储在哪里？3、kafka中数据挤压太多，怎么办？（提高消费者的效率） 4、Kafka中的数据在消费过程中，有漏消费和重复消费的情况，怎么办？5、kafka中的数据已经消费过的数据，是否可以再次消费？怎么做？ 6、Kafka中数据倾斜

2024-11-13 11:12:48 896 2

1、kafka是如何做到高效读写Kafka 通过“零拷贝”技术提高了数据的传输效率。当 Kafka 需要将数据从磁盘读取到网络时，使用零拷贝可以避免数据在内存中的额外拷贝，从而加速数据的传输过程。Kafka 支持消息的批量处理，不仅在生产端（Producer）可以将多个消息打包成一个请求批量发送到 Kafka 集群，消费者端（Consumer）也可以批量拉取消息。批量操作减少了网络通信的次数，从而提高了系统吞吐量。当上层有写操作时，操作系统只是将数据写入 PageCache。

2024-11-11 23:09:07 690

原创 Kafka面试题总结

例子：bin/kafka-reassign-partitions.sh --bootstrap-server bigdata01:9092 --topics-to-move-json-file topics-to-move.json --broker-list "0,1,2,3" --generate。kafka在进行初始化的时候，选举谁当第一Leader，是有一定的算法的。生产者发送的数据，单分区内可以做到有序，多分区，无法保证，除非把多个分区的数据拉到消费者端，进行排序，效率低下。

2024-11-09 16:25:42 917

原创请写出hive查询语句，各类型专利top 10申请人，以及对应的专利申请数

2）表字段：专利号(patent_id)、专利名称(patent_name)、专利类型(patent_type)、申请时间。(aplly_date)、授权时间(authorize_date)、申请人(apply_users)--各类型专利top 10申请人，以及对应的专利申请数，找出申请人和申请数后将字段炸裂再分组。本表记录数约1万条。4）请写出hive查询语句，各类型专利top 10申请人，以及对应的专利申请数。请写出hive查询语句，各类型专利top 10申请人，以及对应的专利申请数。

2024-11-07 23:21:11 223

原创 SQL练习题

5、查询在五一期间，每个用户消费的餐厅前三名（按照消费的金额计算）

2024-09-12 23:35:22 1009

原创 DataX的介绍

但是比Sqoop要快，Sqoop底层是MR(Map任务），基于磁盘的，DataX基于内存的，所以速度比较快。DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX是java 解决的是高并发问题，大数据解决的是海量数据存储与分析问题的工具。DataX是阿里云DataWorks数据集成的开源版本。

2024-09-12 23:28:56 352

原创 HIVE配置远程服务的启动脚本

想要通过一些远程软件操作hive，这个时候必须开启远程模式。而hiveserver2和metastore，是启动hive的关键服务。正常启动hive，需要启动hiveserver2和metastore，什么是hiveserver2和metastore呢？第一次运行时间有些长，需要等待片刻，看到四个session id则正常运行。ip为metastore服务所在的主机ip地址。为别人连接mysql元数据提供服务的。可以正常显示出，即可正常运行。thrift:是协议名称。保存后上传，再加上权限。

2024-09-09 00:23:43 846 1

原创 Hive-beeline连接报错：root is not allowed to impersonate root 解决方法

使用hive/bin目录下的hive启动客户端，使用!connect jdbc:hive2://hadoop01:10000连接Hive数据仓库时提示输入用户名和密码，输入数据库的用户名和密码报错：这一般是hive的进程配置问题。

2024-09-09 00:07:18 1216

a2makemoney的博客

原创全网最详细的Zeppelin的使用安装