- 博客(27)
- 收藏
- 关注
原创 数仓面试必知必会
本文从数据仓库的定义、分层架构、建模方法、工具技术栈等方面全面介绍了数据仓库的关键概念和实践方法。主要内容包括:数据仓库核心概念:数据仓库是面向主题的、集成的、历史性且非易失的数据集合,主要用于决策支持,与传统OLTP数据库在目的、数据结构和更新方式上有显著区别。分层架构:详细说明了ODS、DWD、DWS和ADS各层的作用和特点,以及分层设计如何解决数据复用、性能优化和业务隔离等问题。建模方法:比较了维度建模、实体关系建模和DataVault三种主流方法,重点阐述了维度建模中的事实表、维度
2025-10-30 17:08:09
950
原创 doris各服务器存储不均匀,导致BE节点不稳定
Doris存储不均匀问题分析与解决方案 摘要:Doris集群常见存储不均匀问题主要由分桶不合理、Tablet迁移未完成或硬件配置差异导致。核心表现为BE节点存储占用差距大、Tablet分布不均(可达16倍差异)及BE节点频繁宕机。主要原因包括:分桶字段选择不当、节点硬件容量不一致、Compaction压力过高等。解决方案包括:优化分桶策略(选择高基数字段)、调整BUCKET数量、增加小盘节点容量、升级Doris版本等。提供完整的诊断命令组合和自动化监控脚本,可检测存储/Tablet分布差异(>30%或
2025-10-11 11:29:49
1089
原创 数据治理-企业级数据体系
摘要: 数据治理是企业确保数据质量、安全与一致性的一套组织、流程和技术体系,核心目标是让企业“用对数据、用好数据”。其体系包括数据标准、质量、主数据、安全、元数据等八大模块,需通过工具(如DataHub、GreatExpectations)和流程(如质量监控、血缘追溯)落地。针对Flink+Doris+Hive+PostgreSQL技术栈,方案建议分阶段实施:先打通元数据与指标口径,再构建主数据同步与质量检测,最终实现安全管控与闭环运营。关键交付物包括数据目录、指标中心、质量规则库等,需结合实时(Flink
2025-10-10 15:56:25
1864
原创 kafka的数据消费通过flinksql 入数到Doris的报错(Connection timed out)
kafka的数据消费通过flinksql 入数到Doris,在kafka连接到Doris,Doris通过fe 的配置解析be的时候,Doris物理机的fe解析出来的是be ip的私网地址,始终报错连接超时。但是通过查看 be ip 是正运行状态而且处于监听状态,通过官网的解释,在 flinksql 脚本中,配置Doris的with当中添加'benodes' 就能解决这个问题,kafka-doris 的数据能入库。
2025-10-10 11:01:05
285
原创 DORIS 服务器宕机重启后出现的问题
摘要:Doris BE节点重启时出现最大打开文件数不足警告,需修改系统限制:1)以root编辑/etc/security/limits.conf,为doris用户设置655350文件限制;2)确认/etc/pam.d/login包含pam_limits模块;3)重启系统生效。此外发现BE启动失败原因为FE节点IP变更导致网络不通,通过ifconfig停用多余网卡后恢复正常。关键步骤包括:修改系统参数→重启验证→排查网络→停用冲突网卡。(149字)
2025-10-10 10:36:46
361
原创 Doris 文件导入,以及doris 库里的数据开发
本文介绍了在Apache Doris中进行数据导入和加工的多种方法。主要内容包括:1) 三种数据导入方式 - Broker Load、Stream Load和Insert Into,重点讲解了Stream Load的CSV/JSON文件导入方法及注意事项;2) 数据加工方案,由于Doris不支持存储过程,提出了通过Shell脚本实现数据加工的方法,包含获取数据、解析JSON字段和插入结果表的完整流程;3) 详细的Shell脚本实现,包含日志记录、错误处理和执行监控等功能。文章还特别强调了操作中的注意事项,如
2025-10-10 10:18:44
1818
原创 带密码加密机制的自动 FTP 拉取脚本
本文详细介绍了一套安全的FTP自动取数方案,包含密钥加密、密码加密保护及自动下载脚本实现。方案采用OpenSSL对FTP密码进行双重加密保护,将密钥与加密密码分离存储,并通过Shell脚本实现自动化下载功能。脚本支持日期参数指定下载文件,包含完整的错误检查和日志记录,建议设置600权限保护密钥文件安全。同时提供了定时任务配置建议和安全操作指南,确保系统在实现自动化功能的同时,保障敏感信息安全。
2025-10-09 17:51:31
363
原创 表全字段搜索数据
PostgreSQL动态SQL脚本实现了在指定表中搜索所有字段包含特定关键词的功能。该方案首先创建空表结构,然后通过PL/pgSQL块动态构建WHERE条件,将所有字符类型字段和转换为文本的非字符类型字段与关键词进行模糊匹配,最后将结果插入临时表返回。进一步优化为可复用函数search_in_table,接收模式名、表名和关键词参数,自动返回匹配记录。函数内部通过information_schema.columns获取字段信息,智能处理不同数据类型,支持任意表结构的灵活查询。该方案适用于需要全局搜索表内容的
2025-10-09 16:44:37
250
原创 从 FTP 下载指定日期的数据文件、解压缩并重命名文件
该脚本实现从FTP服务器自动下载、解压和重命名数据文件的功能。主要流程包括:1)接收日期参数并构建路径;2)使用FTP命令下载指定目录下所有文件;3)解压.gz文件;4)重命名.csv文件(替换特殊字符)。存在以下问题:FTP使用明文密码、解压失败处理不完善、文件名替换逻辑可能误操作等。改进建议包括:使用更安全的lftp替代传统ftp、增加错误检测机制、优化文件名替换规则等。脚本最后提供了优化版本,增加了日志记录和更健壮的错误处理。
2025-10-09 16:21:54
495
原创 LINUX 上安装POSTGRES
将该文件中的所有的scram-sha-256模式修改为md5 因为使用ora2pg时scram-sha-256加密方式有问题。的错误,这是 PostgreSQL 初始化失败的根本原因。这通常是因为系统没有安装对应版本的 OpenSSL 库。修改PG配置:修改$DATA_HOME目录下的配置文件:postgresql.conf。将本地服务器上存在的文件发送到,pgsql 的bin目录当中。这是导致问题的根本原因。可以通过官网下载或者通过其他服务器上存在的文件,将。,你需要安装对应的 OpenSSL 兼容包。
2025-04-27 16:27:09
480
原创 kafka 通过 flink 将数据落到 doris 的原理
整个流程的关键在于利用 Flink 的流处理能力,将 Kafka 中实时生成的数据高效处理后,直接导入 Doris 中,以便支持后续的分析和查询工作。通过这种集成,可以实现高效的实时数据分析平台,支持海量数据的处理和快速响应的业务需求。
2024-08-20 15:43:08
2303
原创 HADOOP 保姆级环境搭建及知识总结
首先在官网下载JDK和Hadoop登录Linux到root用户下,创建两个文件目录,例如:module,software两个文件目录,通过FinalShell将两下载好的两个文件上传到module目录下,通过命令将两个文件解压到创建的另外一个目录中去解压完两个文件之后,配置环境变量。配置完上面的两个路径,执行:source /etc/profile 刷新一下我们配置的文件,分别写Java查看配置jdk是否成功,Hadoop查看配置Hadoop是否成功当出现这样的内容说明我们创建成功了。
2024-01-09 23:21:02
1624
原创 hive的学习笔记 持续更新
Hive 的数据都是存储在HDFS上的,默认有一个根目录,在hive-site.xml,由参数hive.metastore.warehouse.dir指定。是hive的一种优化手段表,指根据表中字段的值,经过hash计算规则将数据文件分成指定的若干个小文件。hive中能够写SQL处理的前提是针对表,而不是针对文件,因此需要将文件和表之间的对应关系描述记录清楚。元数据信息(用来描述数据的数据)是hive的一种优化手段表,指定分区列的值将表划分成不同的分区,可以更快的对指定分区数据进行查询。
2024-01-08 22:46:11
724
原创 Error while compiling statement: FAILED: HiveAccessControlException Permission denied: user informat
这个错误起初以为是自己的用户权限被锁了,但是查找了一下发现这个不是用户权限问题,而是自己在输入登录指令的时候发现多了空格。从Hadoop集群登录到hive的时候,虽然登录进去了hive里,但是在操作的时候总是报错。重新筛选了一下登录 指令就好了。
2024-01-04 21:58:45
936
原创 Linux:错误E45:“readonly” option is set(add ! to override)及Job for network.service failed because 解决方法
之后执行systemctl start network 命令是报错:原因是上次你在配网卡是没有保存退出,存在两块网卡的配置文件。可以将上次配置删除,留下刚刚配置好的。然后重新执行:systemctl start network 就不会报错了。显示文件出现:E45: 'readonly' option is set (add!to override)在执行:systemctl stop network。第一步::set noreadonly。
2024-01-01 21:05:11
2206
原创 linux远程连接finalshell始终失败解决方法
用编译器 编写 vim ifcfg-ens33,修改BOOTPROTO的状态为dhcp(动态ip)再重启虚拟机:shutdown -r now;重启了虚拟机,进入终端命令 : su -root 到root用户下 cd /etc/sysconfig/network-scripts 目录下。自己是虚拟机远程连接一直失败,最后查找很多文献终于解决了这个问题,希望对你们有帮助。刚开始连接不上,查看了网络连接问题:windows +r输入: ncpa.cal。再查看虚拟机的编辑,点击更改设置-还原了默认设置。
2023-12-28 23:14:28
2103
原创 MYSQL插入数据报错:ERROR 1366 (HY000): Incorrect string value: ‘\xD5\xC5\xCE\xDE\xBC\xC9‘
使用上述两个语句查看MYSQL数据库服务器和数据库字符集。显示出来的问题是:所插入的字符串的值不正确。
2023-12-26 11:46:25
341
原创 Linux用户管理及用户组
操作步骤:切换到root用户,执行visudo命令(打开vi编译器:/etc/sudoers),进入文件在最行按i进入编译模式写入:[用户名] ALL=(ALL) NOPASSWD: ALL 完成后按Esc退出编译模式,按:wq保存并退出。linux 系统的真是用户,这类用户可以使用用户名和密码登陆系统。root 用户拥有对系统的完全控制权,能运行任何命令,所以 root 用户也是系统中最具危险性的用户。退出root用户,查看当前目录,返回到/根目录下,通过sudo命令创建文件,发现一创建成功。
2023-12-22 18:03:52
99
原创 MySQL流程控制函数(if, case)
案例:查询员工的工资的情况,如果工资>20000,显示A级别,如果工资>15000,显示B级别,如果工资>10000,显示C级别,否则,显示D级别。案例:查询员工的工资,要求部门号=30,显示的工资为1.1倍,部门号=40,显示的工资为1.2倍,部门号=50,显示的工资为1.3倍,其他部门,显示的工资为原工资。when 常量1 then 要显示的值1或语句1;when 常量2 then 要显示的值2或语句2;when 条件1 then 要显示的值1或语句1。else 要显示的值n或语句n;
2023-12-22 16:15:12
203
原创 Linux编译器vim
例如:输入 vim hello.txt 文件不存在编译新文件,进入hello.txt文件中,按i键键入插入模式,内容输入it and code. :wq为保存并退出。末行模式:用来保存文件内容或退出编辑模式,还能对文件的内容进行搜索、替换、保。入模式),每种模式分别又支持多种不同的命令快捷键,能大大提升工作的效率。输入模式:主要用于文本编辑,在输入模式就可以对正常的文本内容进行编辑。vi 和 vim 都是 Linux 中的编辑器,不同的是。vim 文本编辑器中存在三种模式:命令模式、末行模式(
2023-12-21 22:34:02
205
原创 Linux的echo,飘号(`), 重定向符,tail
命令 echo pwd 本意是输出当前的工作路径,但是pwd被作为普通字符输出了。因此,可以通过将命令用反引号(飘号)将其包括(`pwd`)会被作为命令执行,而非普通字符。注:无需选项,只有一个参数,表示要输出的内容,复杂的内容可以用""。>>:将左边命令的结果,追加写入到符号右侧指定的文件中。>:将左边命令的结果,覆盖写入到符号右侧指定的文件中。选项:-f 表示持续跟踪,退出跟踪:ctrl c。可以查看文件尾部的内容,跟踪文件的最新更改。参数:表示被跟踪的文件路径。重定向符:>和 >>
2023-12-21 22:05:56
664
原创 linux 的find, which,grep命令及管道符 |
命令不能用来搜索普通文 件,只能用来搜索系统命令。用于在系统中搜索符合条件的文件名,如果需要模糊查询时,就需要使用正。find 搜索路径 [选项] 搜索内容。-name 按照文件名来搜索。列出命令所在的路径,在通配符来进行匹配,
2023-12-20 21:29:47
402
原创 Linux的基本命令
常会用到 2 个符号“./”【表示当前目录下】、“../”【表示上一级目录】。cp -r 参数1 参数2(参数1被复制文件,参数2是复制文件)mv 参数1 参数2 (参数1被移动的文件,参数2要移动去的地方)录,使用“cd ~”可以切换到当前用户的家目录。此处目录 可以是文件夹名称也可以是包含名称的一个完整路径。ls -al:显示所有文件以列表的形式展示。显示所有的文件/文件夹(包括隐藏文件)ls -l :将文件以列表的形式展示。cd ../..返回上两级的目录。cd ../:返回上一级的目录。
2023-12-20 20:29:39
80
原创 MYSQL环境变量
如过命令运行错,说明MySQL的环境变量不对。点击此电脑属性-高级系统设置-环境变量-系统变量中找到path:将MySQL所在的bin目录粘贴进去。MySQL的登陆:mysql -h主机名 -p端口号 -u用户名 -p密码。方法二:通过cmd启动、停止服务:net stop/start mysql。MySQL的退出:exit。方法一:计算机管理-服务。
2023-12-18 20:47:08
78
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1