自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 全网最详细的Zeppelin的使用安装

zeppelin 的安装和使用

2024-12-11 11:45:22 550

原创 Kafka面试题3

1、kafka中的消费者,他们的偏移量存储在哪里?3、kafka中数据挤压太多,怎么办?(提高消费者的效率) 4、Kafka中的数据在消费过程中,有漏消费和重复消费的情况,怎么办?5、kafka中的数据已经消费过的数据,是否可以再次消费?怎么做? 6、Kafka中数据倾斜

2024-11-13 11:12:48 846 2

原创 Kafka面试题2

1、kafka是如何做到高效读写Kafka 通过“零拷贝”技术提高了数据的传输效率。当 Kafka 需要将数据从磁盘读取到网络时,使用零拷贝可以避免数据在内存中的额外拷贝,从而加速数据的传输过程。Kafka 支持消息的批量处理,不仅在生产端(Producer)可以将多个消息打包成一个请求批量发送到 Kafka 集群,消费者端(Consumer)也可以批量拉取消息。批量操作减少了网络通信的次数,从而提高了系统吞吐量。当上层有写操作时,操作系统只是将数据写入 PageCache。

2024-11-11 23:09:07 634

原创 Kafka面试题总结

例子:bin/kafka-reassign-partitions.sh --bootstrap-server bigdata01:9092 --topics-to-move-json-file topics-to-move.json --broker-list "0,1,2,3" --generate。kafka在进行初始化的时候,选举谁当第一Leader,是有一定的算法的。生产者发送的数据,单分区内可以做到有序,多分区,无法保证,除非把多个分区的数据拉到消费者端,进行排序,效率低下。

2024-11-09 16:25:42 806

原创 请写出hive查询语句,各类型专利top 10申请人,以及对应的专利申请数

2)表字段:专利号(patent_id)、专利名称(patent_name)、专利类型(patent_type)、申请时间。(aplly_date)、授权时间(authorize_date)、申请人(apply_users)--各类型专利top 10申请人,以及对应的专利申请数,找出申请人和申请数后将字段炸裂再分组。本表记录数约1万条。4)请写出hive查询语句,各类型专利top 10申请人,以及对应的专利申请数。请写出hive查询语句,各类型专利top 10申请人,以及对应的专利申请数。

2024-11-07 23:21:11 179

原创 SQL练习题

5、查询在五一期间,每个用户消费的餐厅前三名(按照消费的金额计算)

2024-09-12 23:35:22 962

原创 DataX的介绍

但是比Sqoop要快,Sqoop底层是MR(Map任务),基于磁盘的,DataX基于内存的,所以速度比较快。DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX是java 解决的是高并发问题,大数据解决的是海量数据存储与分析问题的工具。DataX是阿里云DataWorks数据集成的开源版本。

2024-09-12 23:28:56 265

原创 HIVE配置远程服务的启动脚本

想要通过一些远程软件操作hive,这个时候必须开启远程模式。而hiveserver2和metastore,是启动hive的关键服务。正常启动hive,需要启动hiveserver2和metastore,什么是hiveserver2和metastore呢?第一次运行时间有些长,需要等待片刻,看到四个session id则正常运行。ip为metastore服务所在的主机ip地址。为别人连接mysql元数据提供服务的。可以正常显示出,即可正常运行。thrift:是协议名称。保存后上传,再加上权限。

2024-09-09 00:23:43 692 1

原创 Hive-beeline连接报错:root is not allowed to impersonate root 解决方法

使用hive/bin目录下的hive启动客户端,使用!connect jdbc:hive2://hadoop01:10000连接Hive数据仓库时提示输入用户名和密码,输入数据库的用户名和密码报错:这一般是hive的进程配置问题。

2024-09-09 00:07:18 1005

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除