- 博客(16)
- 收藏
- 关注
原创 预制菜风波下的思考:为什么说 KLake 是企业的数据“健康厨房”?
预制菜与数据治理的困境异曲同工:传统中台如预制菜集中加工导致数据;过期;,而KLake虚拟数据中心则像健康厨房系统,实现数据;现点现做;。其四大优势:1)实时直连源库保证数据新鲜度;2)内置安全管控确保合规;3)支持自然语言查询提升灵活性;4)轻量化架构降低成本。这种;健康厨房;模式既满足效率需求,又保障数据安全与质量,为企业数字化转型提供新思路。
2025-09-24 09:38:17
321
原创 dml影响的行数与索引之间的关系
used_urec 的值:不仅与DML操作的行数相关,还受到表上索引数量的影响。每行DML操作会为表数据块生成1条undo记录。每个索引的维护会额外生成1条undo记录。used_urec = DML行数 × (1 + 索引数量)无索引时:used_urec = 1 × (1 + 0) = 11个索引时:used_urec = 1 × (1 + 1) = 22个索引时:used_urec = 1 × (1 + 2) = 3。
2025-02-12 11:06:57
411
原创 虚拟内存使用过大
检查虚拟内存使用:使用free、top、vmstat等工具。优化内存使用:增加物理内存、调整交换空间、修改swappiness参数。排查内存泄漏:找到高内存进程并重启。优化应用程序:调整配置、优化数据库、使用缓存工具。监控和报警:实时监控内存使用,设置报警。
2025-02-11 19:30:00
1468
原创 DML语句及受影响行数
DML语句的受影响行数取决于操作类型和条件,可以通过SQL函数或编程语言的数据库接口获取。性能视图是数据库性能监控和优化的关键工具,不同DBMS提供不同的视图和动态管理视图(DMV),帮助管理员实时监控和诊断性能问题。
2025-02-08 15:23:33
1059
原创 为什么会存在多个执行计划的SQL
多个执行计划的本质是 优化器根据动态环境选择不同成本路径。虽然这种灵活性有助于提升性能,但也可能导致计划不稳定。通过理解上述原因并采取针对性措施(如固定计划、统一统计信息),可以有效控制执行计划的波动,保障数据库性能稳定。
2025-02-07 12:47:09
967
原创 ROWNUM与ROWID简介
北海虽赊,扶摇可接;东隅已逝,桑榆非晚。或许正是自己的孤单与小岛的繁华,更彰显出Oracle几分魅力,ROWNUM与ROWID也是他此行初遇者,他能否保持着他所热爱的浪漫与自由,是否热爱着满是未知的生活,让我们共同期待。
2024-12-08 20:28:36
501
2
原创 Spark Streaming实时计算框架—在他乡
书接上回,斜阳外,古道边,spark与儿时老友相遇在桥头的酒家。几经流年,spark风流不减当年,仍然如往时那般多情,而kafka却变得深沉了许多,听kafka回忆到:“当年与Sprak streaming在一起的时光多么潇洒、快乐,而如今,人是故人,酒是老酒,谈吐间尽是忧愁。欲买桂花同载酒,终不似,少年游。成年的我们觉得压力无处不在,而快乐却显得那么珍贵。彼此漂泊在外,无处可依,无处可靠,只剩下眼前的苟且。提示:以下是本篇文章正文内容,下面案例可供参考。
2023-05-21 21:21:56
530
1
原创 Kafka集群部署与测试
聚散匆匆,云边孤雁,水上浮萍。Spark别了与之邂逅的HBase,又一个人孤独地走在了漂泊的路上。孤独的人习惯孤独,可是却不习惯别离,虽说只是几句寒暄,却也难下心头。Spark望着红日已经高高挂起,微风摇曳着路旁的细柳,已而不得已踏上了路在脚下的征程。斜阳外,古道边,一处酒家在一座石拱桥的尽头,依石而建,伊水而生。令他感到诧异的并不是如此优雅的酒家,而是那么熟悉的背影。一副模糊的轮廓勾起了儿时的回忆,心里忐忑着,难道真的是他?
2023-05-08 17:34:10
451
原创 Spark算子综合案例
安得广厦千万间,大庇天下寒士俱欢颜。wordCount.sortBy(_._2, false)对聚合之后的值进行降序排序。第1关:WordCount - 词频统计第2关:friend recommendation - 好友推荐
2023-05-04 21:58:12
2048
原创 centos6.9安装netcat
我们首先需要一个netcat,但是我的版本是6.9,自身并不带netcat需要自行下载,甚是头疼。CentOS 6.x 系统中默认没有安装,经过测试,如果通过 yum 直接安装,运行时会有 “nc: Protocol not available” 的错误,需要下载较低版本的 nc 才能正常使用。我们选择 Netcat 0.6.1 版本,在终端中运行如下命令进行安装:
2023-04-27 23:10:41
500
原创 HBase的集群部署
Spark是遥远东方的一个游士,与其说是一位游士,不如称其为一个侠客,一位万花丛中过,片叶不沾身的风流侠者。spark来无影、去无踪,在他心里不知道方向在哪儿,也不清楚在他心里,谁才是他真正的方向。他也曾经拥有一位柔情似水的姑娘,名曰Hive,他们也曾恩爱,或许现在也很恩爱,但毕竟spark多情于世,所到之处,遍地温柔。雨,是暮春的雨;夜,是孤独的夜。spark只身一人来到了分布式数据库,遇到了他曾经畅想过却又未曾相见过的女孩儿——hbase。
2023-04-22 21:57:53
693
5
原创 Hive分区之再述分区(增删改查)
大数据时代,就是我们现在生存的时代,我们的每一点一滴、一举一动如何能逃脱得出数据的束缚。有不少豪杰侠士引领着我们走向hive江湖,五大帮派与六大派别的利益纷争不断,战火不断蔓延,出于对整个数码武林的公平正义,少林(分区)和武当(分桶)受广大码农相邀,主持公道。今天让我们看看少林是如何用十八般武艺征服整个江湖。`提示:此文章仅代表张医师个人观点。
2023-04-20 17:59:00
605
原创 Hive分区表—hive江湖
书接上回,上回书说到六大门派(数据导出)相继树立门户在数码武林之中,门派愈多,冲突愈多。为了主持hive江湖门派之间的利益与纷争,少林派(分区表)与武当派(分桶表)应邀各大门派推举,惩恶扬善,主持公道。作为hive江湖中“泰山北斗”的名门正派,本着为天地立心,为生民立命的理念,让我们整个数码武林终于达成一个相对平衡的状态。而且分区表的增、删、改、查、函数定义十八般武艺样样精通,可谓天下武功出少林,大数据管理更是离不开我们的分区表,码农们通过分区表大大的减少了时间的花费,优化方案,重塑大数据世界的荣光。
2023-04-16 20:52:41
223
1
原创 Hive数据导出
书接上回,传闻昔日数据导入有五大派别,一时之间数码武林局势动荡,可怜的码农处于水深火热之中。乱世出英雄,打着劫富济贫,替天行道大旗的六大帮派(数据导出)横空出世。提示:以下是本篇文章正文内容,下面案例可供参考六大派别与五大帮派共同统治着数码武林,侠义精神深入人心,hive语句妇孺皆知。街头小巷上谈论着他们的英雄事迹,再一次掀起了学习hive秘籍的狂潮。或许现在人们学习的已经不再是傍身之计,更多的是对天下武功,为快不灭的热爱。有人的地方就会就有江湖,大数据时代亦是如此。
2023-04-13 21:32:16
1541
1
原创 DataFrame与Dataset基础
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考Spark SQL使用的数据抽象并非是RDD,而是DataFrame。在spark中,DataFrame是一种以RDD为基础的分布式数据集,可以与RDD相互转换。DataFrame的结构类似与传统数据库的二维表格,并且可以从很多数据源中创建,如结构化文件、外部数据库、hive表等数据源。Dataset从1.6版本引入的一个新的数据抽象结构。
2023-04-11 13:30:20
385
1
原创 Hive中load加载数据
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考五大门派各有千秋,其中最常见的便是load和insert,load加载的是文件,insert从其他表通过查询导入。
2023-04-09 17:11:15
611
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅