大数据之家-优快云博客

原创 harbor证书替换

在 AWS 环境中，如果您使用的是 Harbor 容器镜像仓库并需要替换其 SSL 证书，可以按照以下步骤操作。- 如果您使用 AWS 的负载均衡（如 ALB 或 NLB）来代理 Harbor，则可能需要在负载均衡器上更新证书，而不是直接替换 Harbor 的证书。- 如果证书路径发生变化，需要编辑 Harbor 的配置文件 `harbor.yml`（通常位于 `/etc/harbor/harbor.yml`）。- 确保证书的域名与您配置的 Harbor 域名一致，否则会出现证书验证失败问题。

2025-03-15 00:46:49 282

原创 deepseek 私域知识库搭建（小白教程）

使用 Streamlit，您可以轻松为 RAG 智能体创建交互式聊天界面。以下是一个简单的 Python 示例，展示如何构建 DeepSeek RAG 聊天机器人。安装超时可以使用下面的方式进行安装。

2025-02-07 14:45:57 794

原创 deepseek本地部署小白教程（mac版本）

2、Terminal中输入命令（网络可能会断，多尝试几次就好了）mac本地使用brew install ollama。1、安装ollama,我以mac为例子。3、开始愉快的进行交互了。

2025-02-06 09:54:33 494

原创 ds 启动flink 任务报错

Flink 总内存 taskmanager.memory.flink.size jobmanager.memory.flink.size。进程总内存 taskmanager.memory.process.size jobmanager.memory.process.size。配置项 TaskManager 配置参数 JobManager 配置参数。Flink 总内存和进程总内存配置冲突，移除默认conf配置中的参数设置。

2024-10-28 21:38:09 653

原创 python手动安装最新版本

/configure -C --with-openssl=/usr/lib/openss3.0.13/ --with-openssl-rpath-auto --prefix=/usr/lib/python3.11.4 #编译。2、Python配置文件修改（Modules/Setup），否则无法使用pip install。这一步若报出'cannot find -lssl'错误，需要手动将openssl添加到环境变量。make -j8 && make install #安装。查看版本状态一致后完成安装。

2024-09-14 17:09:22 317 1

原创 zeppline如何配置用户登陆

1、打开文件，通常位于目录下。添加或修改以下属性以启用简单的用户名/密码身份验证：<property><property>

2024-09-02 22:13:01 500

原创 hive benchmark

hive-testbench-hdp3/tpcds-gen目录下，make，等执行完毕后，进入目录 “/hive-testbench-hdp3/tpcds-gen/target”，可以找到 “tpcds-gen-1.0-SNAPSHOT.jar”文件。2、unzip hdp3.zip（可以直接从git上下载zip包）1、下载benchmark程序。

2024-08-18 22:15:46 293

原创 Flink CDC (session模式)

2、配置变更(application在session起来后再调整，客户端配置)1、相关的CDC包需要移动到flink home。

2024-08-16 10:18:43 524

原创 Flink cdc正确打开方式（flink on yarn）

3、oracle驱动缺失, on yarn缺失的jar需要拷贝到#FLINK_HOME/lib/1、Flink on yarn模式下，flink cdc需要先启动yarn-session模式。2、启动之后进行正常测试。

2024-08-10 00:50:15 548

原创 kafka 3.x 配置kerbos

第三步，准备 kafka-server-kerberos-start.sh 文件，添加 Kerberos 认证配置。2.3 准备 kafka-server-kerberos-start.sh 文件，添加 Kerberos 认证配置。拷贝 bin/kafka-server-start.sh 脚本，命名为 kafka-server-kerberos-start.sh，编辑最后一行，在最后一行代码之前，添加 Krb5 环境变量和 jaas.conf 配置信息。//不同的主机，需修改成不同的keytab文件。

2024-08-08 09:58:28 1183

原创 spark连接metastore(kerbors)揭秘

1、hivemeta开启meta后，spark-sql执行报错：解决方案：

2024-08-05 22:57:31 465

原创 dataX -20240804-master分支

1、修改dataX源码：HdfsHelper#getColumnTypeInspectors。2、修改dataX源码：HdfsHelper#transportOneRecord。2、重新打包dataX安装。

2024-08-04 17:07:50 458 1

原创 flink 1.17 测试

1、配置2、测试：

2024-08-01 22:49:41 395

原创 DataX 最新版本安装部署

1、下载2、打包。

2024-07-30 21:20:22 319

原创 Dolphinscheduler 3.2.1bug记录

问题1：

2024-07-30 21:11:04 394

原创 zeppline 连接flink 1.17报错

重新编译zepplin代码，适配当前的flink版本（验证中）

2024-07-29 09:42:20 344

原创 StarRock3.3 安装部署（存算分离、存算一体保姆式教程）

服务器前置要求：1、内存>=32GBwget。

2024-07-28 18:32:53 2698

原创 dolphinscheduler 3.2.1 如何访问开启kerbos的hadoop集群

对于api-server/conf/common.properties 进行配置变更。配置后文件管理和资源管理默认会使用hdfs分布式存储。

2024-07-24 22:11:41 157

原创 dolphinscheduler 3.2.1 datax报错jvm command not found

解决方案：在/etc/profile文件中增加下面的环境设置。

2024-07-23 23:47:25 412

原创 Jupyter如何优雅禁止termin

4、重启 Jupyter Notebook，使配置生效。3、修改 Jupyter Notebook 配置文件。1、在 Jupyter 配置目录下创建一个自定义的。

2024-07-23 23:20:19 520

原创 Apache Ranger 2.4.0 集成Hive 3.x(Kerbos)

看到下面的内容后，已经初始化完毕，需要重启meta和hive服务。服务正常，但是权限已经受到管控，需要进行授权。6.1 测试连接时出现下面报错。五、Ranger 授权。

2024-06-30 22:48:29 550

原创 Apache Ranger 2.4.0 集成hadoop 3.X(Kerbos)

参照上一个文章。

2024-06-30 21:52:50 1236 1

原创 hadoop 3.X 分布式HA集成Kerbos(保姆级教程）

前提：先安装Kerbos。

2024-06-30 00:41:44 1423 1

原创 Apache Ranger 2.4.0 安装部署

ranger2.4.0安装部署

2024-06-30 00:30:26 1426 3

原创深入浅出hdfs源码-读源码解析

深入浅出hdfs源码-读源码解析

2024-01-23 23:15:03 386 1

原创深入浅出hdfs-hadoop基本介绍

hadoop基本介绍，本文会从hadoop诞生之初到hadoop衍生出来的生态发展图看未来hadoop的发展之路

2024-01-23 23:05:58 550 1

原创深入浅出hdfs源码

37、hdfs snapshot源码解析。10、hdfs fsimage源码解析。15、hdfs metrics核心解析。18、hdfs balance源码解析。19、hdfs block管理核心解析。17、hdfs distcp源码解析。25、hdfs viewfs源码解析。31、hdfs 节点状态管理源码解析。28、hdfs mover源码解析。32、hdfs文件存储状态源码解析。11、hdfs节点上下线源码解析。24、hdfs 分层策略源码解析。33、hdfs文件元信息源码解析。

2024-01-10 23:52:28 383

原创 no matching host key type found. their offer: ssh-rsa解决方案

ssh 解决host key type found

2022-11-20 21:46:47 471

原创 hadoop3升级问题error safe-stable-stringify@2.3.1: The engine “node“ is incompatible with this module. Ex

mvn 编译报错：[INFO] Running 'yarn ' in /home/hadoop/hadoop-3.3.1-src/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-applications/hadoop-yarn-applications-catalog/hadoop-yarn-applications-catalog-webapp/target[DEBUG] Executing command line [/home/hadoop/hadoop-

2022-02-10 20:09:40 907

空空如也

空空如也