自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 【doris】应用篇(六)索引(一)

摘要:本文介绍了Apache Doris数据库中的两种主要索引类型:前缀索引和倒排索引。前缀索引基于建表时指定的排序键进行稀疏索引构建,查询时需按键顺序命中才能有效使用。倒排索引支持更灵活的等值、范围和模糊查询,可通过分词策略实现全文检索,但会带来额外存储开销。文章通过具体SQL示例说明了两种索引的创建和使用方法,并对比了它们的特点和适用场景,建议根据实际查询需求合理设计表结构和索引策略,以提升查询效率。

2025-07-21 16:10:54 305

原创 【Azkaban】安装和简单使用

Azkaban是一款由LinkedIn开源的工作流调度系统,专为Hadoop作业管理设计。文章介绍了Azkaban的核心功能包括DAG工作流管理、任务调度、可视化监控及权限控制,并对比了单机模式(使用H2数据库)和分布式模式(MySQL数据库)的安装部署方法。单机模式简单易用但可靠性较低,分布式模式通过SSL认证和Web/Exec服务分离实现高可用。最后通过创建Shell任务示例展示了从项目创建、任务定义到调度配置的完整使用流程,适用于ETL、报表生成等大数据场景。Azkaban以其轻量级和可视化优势成为中

2025-07-10 17:10:46 1928

原创 【doris】应用篇(五)Broker Load

摘要: 本文介绍了Doris数据库中Broker Load数据导入方式,适用于从HDFS或S3等远程存储系统导入大数据的异步场景。支持CSV、JSON、Parquet等格式及多种压缩类型。详细展示了四种实现方式:1)无Kerberos认证的HDFS导入;2)带Kerberos认证的HDFS导入;3)同步TFV(Table-Valued Function)方式查询HDFS文件;4)带Kerberos的TFV导入。通过SQL命令可查看或取消任务进度。Broker Load灵活支持字段指定、条件过滤和多表并行导入

2025-07-10 17:08:14 181

原创 【doris】应用篇(四)spark-doris-connector

本文介绍了spark-doris-connector框架的使用方法,该框架通过Spark并发能力提升Doris数据吞吐量。主要内容包括:1) 版本匹配问题,建议选择兼容版本;2) 数据读取和写入的代码示例,与Spark写法兼容;3) 优化参数配置,如内存限制、批量大小等;4) 常见问题和注意事项,如版本兼容性、stream load异常等。该框架还支持通过Doris Catalog和Spark SQL进行数据交互,具体可参考官方文档。使用时需注意参数调优和异常处理。

2025-07-02 15:57:18 229

原创 【doris】应用篇(三)导入-stream load

本文总结了Doris数据库Stream Load导入方式的使用经验和常见问题。Stream Load通过HTTP协议同步导入数据,适合10GB以下文件,支持原子性导入。文章介绍了基本语法、监控方法和关键参数优化建议(如enable_stream_load_record、max_tablet_version_num等),并分享了实际踩坑经验,包括日志级别对性能的影响和并发控制问题。最后强调生产环境应合理配置参数,平衡性能与资源消耗。(149字)

2025-06-26 14:26:27 433

原创 【doris】应用篇(二)- 分区 分桶

Doris合理分区与分桶能提升查询效率、便于管理数据并均衡数据分布。分区支持Range、List类型,可手动或自动创建,动态分区可自动维护时间分区。分桶有Hash和Random两种方式,Hash分桶适合关联查询,Random分桶数据更均匀。建议:1)总Tablet数量控制在1G-10G;2)考虑磁盘并行处理能力;3)关联查询可优化为Colocate join;4)分桶键优先选择高基数字段,数据倾斜可加盐值处理。合理设计分区和分桶对Doris性能至关重要。

2025-06-09 10:09:01 445

原创 【doris】分布式安装(四)- 踩坑记录

Doris 常见报错问题总结本文记录了Doris使用过程中遇到的典型问题及解决方案:BE报错部分:LIMIT_REACH报错:官方确认为调试日志,不影响使用brpc发送失败:由BE节点刚启动或CPU资源不足导致BE僵尸进程:高负载时软中断频繁导致服务器高负载:网卡硬件问题引发HDFS块缺失:HDFS集群网卡驱动问题导致FE报错部分:查询被取消:workload group并发数配置不足FE启动失败:版本不一致或启动参数错误建议:生产环境应做好资源隔离,业务SQL使用独立资源组,

2025-05-26 11:37:08 356

原创 【doris】应用篇(一)- 建库 建表

本文介绍了Apache Doris数据库的建库建表操作。Doris支持三种表引擎:明细表(存储原始数据)、主键表(支持唯一键去重和更新)和聚合表(内置聚合函数)。建库操作与MySQL类似,支持设置副本分布。建表时需注意排序键设置,它直接影响查询效率。明细表使用DUPLICATE KEY,主键表用UNIQUE KEY实现数据去重,聚合表通过AGGREGATE KEY实现预聚合。文中还介绍了分桶策略、副本设置以及数据更新注意事项,建议事务性操作使用主键表,并提醒注意数据可见性延迟问题。

2025-05-26 10:15:29 797

原创 【doris】分布式安装(三)- 数据湖(初配置)

本文介绍了如何利用Doris的数据湖能力实现对Hive、HDFS和JDBC数据源的读取。对于Hive,Doris通过同步Hive元数据实现远程读取,支持无Kerberos和Kerberos认证两种配置方式,并提供了手动刷新元数据的SQL命令。对于HDFS,Doris可以直接通过SQL查询HDFS中的文件。对于JDBC,Doris支持通过JDBC连接多种数据库,如MySQL,并提供了创建JDBC Catalog的示例。本文简要展示了Doris在数据湖场景中的应用,未来将进一步扩展更多数据源的支持。

2025-05-22 16:32:31 142

原创 【doris】分布式安装(二)- workload group

本文介绍了Doris数据库中的Workload Group资源分配和权限管理。Workload Group通过细粒度的资源划分(CPU、内存、IO)实现负载隔离,支持软限和硬限两种模式。软限动态调整资源分配,硬限则严格限制资源使用。文章详细讲解了如何配置硬限,包括服务器准备、CGroup设置、BE和FE的配置调整,以及如何通过SQL语句配置Workload Group的硬限参数。此外,还介绍了如何创建新用户、分配权限,并将其加入特定的Workload Group。本文为Doris的资源管理和权限控制提供了基

2025-05-20 17:43:24 434

原创 【doris】 分布式安装(一)

Apache Doris 是一款基于 MPP 架构的开源实时分析型数据库,具备高性能、易用性和实时数据处理能力。它支持亚秒级响应、多场景优化、MySQL 协议兼容、流批一体等功能,适用于电商、金融等实时分析场景。安装和配置 Doris 需要准备 Linux 服务器,关闭防火墙、配置 host 文件、时钟同步、关闭透明大页、增加虚拟内存区域,并安装 JDK。软件安装包括 FE(前端)和 BE(后端)的配置与启动,通过分布式部署实现高可用和扩展性。本文简要介绍了 Doris 的基本配置和分布式安装步骤。

2025-05-20 16:45:50 1025

原创 【linux工具】 expect 安装和使用

expect 安装 使用 样例

2025-05-20 15:42:52 738

原创 深入理解Java虚拟机_JVM高级特性与最佳实践

#深入理解Java虚拟机_JVM高级特性与最佳实践https://sn9.us/file/9066129-409570937

2019-12-07 13:28:52 159

原创 LNMP搭建(二)安装php

使用php需要安装一些依赖装libxml2cd /export/software/tar zxvf libxml2-2.7.2.tar.gz cd libxml2-2.7.2./configure --prefix=/usr/local/libxml2 \--without-zlibmake && make install...

2018-08-16 22:50:19 227

原创 LNMP搭建(一)安装环境相关依赖

前提:此为本人学习练习,本着读者有一定linux基础,大多数软件采用编译安装,仅供练习安装 gccphp及众多扩展为c语言编写,所以需要安装c编译器yum install gcc-c++安装lrzsz文件传输工具yum install lrzsz安装zlib压缩库cd /export/softwaretar zxvf zlib-1.2.5.tar.gz...

2018-08-16 22:32:47 742

原创 nginx-学习笔记(二)nginx简单日志轮询分割

nginx不提供日志分割功能所以可以通过定时脚本配合 crontab 实现日志分割功能第一步编写脚本xxx.shcd /var/logs/nginx/logs/bin/mv www_access.log www_access_$(date +%F).log然后平滑重启 ./nginx -s reload第二步编写定时计划 crontab -e1 0 * *...

2018-08-16 22:08:11 383

原创 nginx-学习笔记(一)安装与启动

nginx功能:支持修改nginx配置,可平滑重启,不中断业务访问可自定义访问日志格式,临时缓冲写日志操作,快速日志轮询,及通过rsyslog处理日志可利用信号控制nginx进程支持rewrite,支持uri重写和正则表达式匹配支持基于可独断ip地址和http基本认证的访问控制支持put,delete,mkcol,copy,move等http请求支持flv和MP4流技术产品应用...

2018-08-16 21:54:26 393

原创 python基础学习笔记(二) 迭代器

一、什么是迭代器迭代器是一个对象,也是访问集合的一种方式,从集合第一个位置开始,到最后一个位置截止二、哪些是可迭代对象1、list、set、tuple、dict、str2、generator对象(生成器和yield)注:可迭代对象不一定是迭代器(可以使用next)如何判断是否是可迭代对象from collections import Iterableisinstance([],Iterable)=...

2018-03-25 21:03:35 135

原创 python基础学习(一)

一、模块的导入import moduleName模块重新导入reload( name )注:避免循环导入(在a中导入b并且直接调用,在b中导入a直接调用相关方法)二、== 和 is 区别1、== 对于值相同的两个变量适用2、is对于共用地址变量指的是两个变量指的地址是否相同(引用比较)三、深拷贝和浅拷贝概念:深拷贝:拷贝地址指向的数值,是对对象所有层次的拷贝浅拷贝:拷贝地址指向的是同一个数值 , ...

2018-03-25 20:44:01 182

Python基础文档教程,样例代码,python入门

Python基础文档教程,样例代码,python入门

2025-05-20

azkaban3.90 版本安装包

azkaban3.90 版本安装包

2025-05-20

azkaban3.47.0版本安装包

azkaban3.47.0版本安装包

2025-05-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除