自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 StarRocks 复杂视图查询金额不一致的坑:一个真实案例的完整排查与解决

在使用StarRocks处理费用拆分视图时,发现不同查询方式导致金额差异近50%。排查发现根因是:视图通过科目编号定义研发费用范围,但底层表费用分类字段与业务定义不一致。当添加"费用分类='研发费用'"条件时,StarRocks的谓词下推优化会提前过滤掉不符合条件的记录,导致拆分基数减少。解决方案包括:1) 短期避免在视图上直接使用费用分类条件;2) 长期建议将视图物化为物理表,确保数据稳定性和查询一致性。核心经验表明,对于复杂业务逻辑的计算结果,物化为物理表比依赖动态视图更可靠。

2025-12-22 13:52:57 331

原创 python满屏关心语

【代码】python满屏关心语。

2025-11-03 11:42:56 185

原创 Redis 学习笔记

Redis是一个高性能的开源内存数据库,支持多种数据结构(字符串、哈希、列表等),具备持久化和高可用特性。它常用于缓存、会话存储、计数器等场景,通过内存存储实现快速读写。Redis支持键值操作、数据类型操作和数据库管理命令,还能用于分布式锁和消息队列。在验证码登录系统等实践中,Redis可存储验证码并设置过期时间。Redis的高性能源于内存存储、单线程模型和高效数据结构,与Memcached相比功能更丰富。面试常见问题包括数据结构、持久化机制、内存淘汰策略和集群方案等,是系统设计中的重要组件。

2025-09-25 08:34:48 1027

原创 初识seatunnel

SeaTunnel是一款开源分布式数据集成平台,支持批流一体处理,主要用于多源数据同步、转换和集成。核心特点包括:支持数十种数据源(如MySQL、Kafka、HDFS等)、基于Flink/Spark引擎的高性能处理、通过YAML配置实现无代码开发、内置SQL数据转换能力。文档详细演示了数据库同步的实现方法,包括JDBC连接配置、自动建表功能,以及通过UDF实现数据清洗(如手机号脱敏、数据运算等)。系统采用Source-Transform-Sink架构,支持多数据源合并处理,通过plugin_input/ou

2025-09-23 19:32:57 1023

原创 yolo检测常见指标

YOLO目标检测性能评估的核心指标主要包括:mAP(平均精度)和FPS(每秒帧数)。mAP综合衡量检测精度,通过计算不同IoU阈值下各类别的平均精度;FPS评估检测速度,体现实时性。此外,IoU(交并比)用于判断预测框准确性,Precision和Recall分别反映查准率和查全率。实际应用中需在精度(mAP)和速度(FPS)间权衡,如YOLO的不同版本针对不同需求优化性能。这些指标帮助评估模型在目标定位、分类和实时性方面的综合表现。

2025-07-28 00:09:00 1230

转载 远程连接工具finalshell的安装使用

链接:https://pan.baidu.com/s/1FcyWEMCkkAxMUybFapOhAA?--来自百度网盘超级会员V3的分享。

2024-03-04 16:04:27 296

原创 电脑无法开启虚拟化

如果出现以下错误,需要进入bios界面,不同电脑进入界面的方式不一样。1、关机后,按住开机键和f10,进入如下界面(语言在主菜单里面)2、选择先进和下面的系统选项,勾选VTx和VTd。3、按f10保存重启。

2024-03-04 14:39:21 1329

原创 猎冰超前点播--大结局

链接:https://pan.baidu.com/s/1cHPiioQsQluWQQtP5CC_aA?pwd=yyds提取码:yyds--来自百度网盘超级会员V3的分享。

2024-03-01 23:02:08 1579

原创 内网穿透--netapp的使用

内网穿透是一种可以让外部网络与内部网络建立连接的技术,它可以帮助我们在外部网络上访问内部网络资源,也可以让内部网络中的服务在外部网络上运行。

2024-01-02 09:53:41 953

原创 数仓可视化5--superset的部署安装

Apache Superset 是一个现代的数据探索和可视化平台。它功能强大且十分易用,可对接各种数据源,包括很多现代的引擎,拥有丰富的图表展示形式,并且支持自定义仪表盘。

2024-01-02 09:28:11 1103

原创 数仓可视化3--dws层宽表

昨天是统计的一个用户启动一次,就记录一次,将启动时间变为了时间段。

2024-01-02 08:59:46 724

原创 数仓可视化2--数仓分层

action行为种类:INSTALL("01", "install","安装"),LAUNCH("02", "launch","启动"),LOGIN("03", "login","登录"),REGISTER("04", "register","注册"),INTERACTIVE("05", "interactive","交互行为"),EXIT("06", "exit","退出"),PAGE_ENTER_H5("07", "page_enter_h5","网页页面进入"),

2023-12-28 10:43:07 562

原创 电商数仓可视化1--数据导入

1、业务数据业务数据往往产生于事务型过程处理,所以一般存储在关系型数据库中,如mysql、oracle业务数据源:用户基本信息、商品分类信息、商品信息、店铺信息、订单数据、订单支付信息、活动信息、物流信息等2、埋点数据埋点日志相对业务数据是用于数据分析、挖掘需求,一般以日志形式存储于日志文件中,随后通过采集落地分布式存储介质中如hdfs、hbase用户行为日志:用户浏览、用户点评、用户关注、用户搜索、用户投诉、用户咨询3、外部数据。

2023-12-27 10:32:01 1232

原创 python--爬虫图片练习--(lol皮肤下载)

【代码】python--爬虫图片练习--(lol皮肤下载)

2023-12-26 09:20:30 498

原创 python--爬虫图片练习--(斗鱼颜值主播)

本篇主要对爬虫图片进行练习,需要用到requests库,用于从给定的斗鱼直播平台中获取图片数据,并将这些图片保存到本地目录的directory中。

2023-12-25 21:49:00 468

原创 python--爬虫文本练习--(豆瓣影评TOP250)

ps:在命令行或者pycharm中的终端进行安装pip install beautifulsoup4 #用于解析HTML和XML文档,帮助您从网页中提取所需的数据。pip install xlwt # 用于创建和操作Excel文件。

2023-12-25 21:33:20 552

原创 python--贪吃蛇小游戏

【代码】python--贪吃蛇小游戏。

2023-12-25 21:13:52 456

原创 python--新年焰火

ps:下面代码的音乐部分需要自己指定本地音乐地址。用python实现绽放烟花的效果。

2023-12-25 17:16:28 742

原创 python--圣诞树

【代码】python--圣诞树。

2023-12-24 23:56:24 902 1

原创 数据迁移工具之datax的安装

DataX是阿里巴巴开源的一个异构数据源离线同步工具,可以实现包括关系型数据库(如MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。它致力于解决数据孤岛问题,帮助企业更好地管理和利用数据资产。

2023-12-21 15:27:36 1144

原创 监控组件Prometheus的安装

创建目录,存放Prometheus 拉取过来的数据,我们这里选择local storage。# 至此Prometheus就可以正常工作了。# 创建目录,放置Prometheus。# 启动Prometheus。

2023-12-04 11:22:25 493 1

原创 安装单机版azkaban

ps:账号密码均为azkaban。

2023-12-02 15:03:27 573

原创 Azkaban设置邮箱报警-睿象云电话,短信报警

azkaban实现邮箱、电话、短信、微信报警服务

2023-11-10 16:49:07 597 1

原创 任务调度器-azkaban

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。Azkaban是一个开源的数据管道和任务调度系统,用于协调和管理大规模数据处理任务,通常用于处理大规模数据处理任务、数据管道和工作流程。

2023-11-05 10:00:21 414

原创 大数据之数据迁移sqoop的安装

sqoop的基本介绍以及安装使用

2023-09-14 15:19:33 386 1

原创 linux常用高级命令

linux常用命令

2023-09-08 23:11:40 497 1

原创 大数据平台搭建之hive连接mysql

linux中mysql的安装、hive本地模式的搭建

2023-09-07 21:11:15 3235 2

原创 大数据平台搭建之hive本地模式安装

hive的基本介绍,hive的架构,hive的本地模式搭建

2023-09-07 20:52:29 1219 1

原创 linux中静态ip的设置

linux中设置静态ip是为了在我们后边学习hadoop的过程中,ip不会不断变化,仅供学习使用。

2023-09-07 19:47:24 857 1

原创 linux的免密登录

免密登录的相关配置

2023-09-07 12:07:56 1392 1

原创 linux中hadoop伪分布搭建

hadoop的核心配置文件在/opt/hadoop/etc/hadoop下,主要修改core-site.xml 、hdfs-site.xml、mapred-site.xml(由mapred-site.xml.template拷贝而来)、yarn-site.xml、slaves五个文件。在正方形内随机撒点,分布于1/4圆内的数量假设为a ,分布于圆外的数量为b,N则是所产生的总数:N=a+b。b、伪分布式 -----只是模拟hadoop集群,会有不同守护进程,这些进程只保留在一台节点。

2023-09-06 22:18:48 2757 1

原创 linux中jdk的安装

linux新手jdk小白安装教学

2023-09-06 21:15:12 626 1

原创 大数据入门到放弃第一天:linux的入门

linux保姆式安装

2023-09-06 19:55:20 1363 2

原创 linux中超炫酷的代码

linux超炫酷代码

2023-09-01 17:17:56 728 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除