
大数据
文章平均质量分 90
大数据领域技术分享
华为云开发者联盟
生于云,长于云,让开发者成为决定性力量
展开
-
想提高查询性能,用GaussDB(DWS) in表达式还是or表达式?
在本文中,我将重点分析在各种通用场景下,IN 运算符和 OR 运算符查询的性能差异,并探索这些性能差异背后的原因,目的是为了帮助DWS用户最大化的提升其查询性能。原创 2024-12-13 16:23:10 · 1212 阅读 · 0 评论 -
中间件全球数据实时同步利器,EventGrid事件流重磅发布
一图了解它的6大特性,同时Kafka、RocketMQ云内数据同步火热公测中。原创 2024-11-07 11:14:36 · 644 阅读 · 0 评论 -
技术揭秘 DWS 实时数仓解决方案,如何深度融合 Flink 简化数据链路
摘要:DWS 实时数仓解决方案支持数仓模型的分层和增量加工,能够实现数据的实时入库、出库和查询,确保数据的新鲜度。原创 2024-09-12 11:23:47 · 1700 阅读 · 0 评论 -
最佳实践:解读GaussDB(DWS) 统计信息自动收集方案
现在商用优化器大多都是基于统计信息进行查询代价评估,因此统计信息是否实时且准确对查询影响很大,特别是分布式数据库场景。本文详细介绍GaussDB(DWS)如何实现了一种轻量、实时、准确的统计信息自动收集方案。原创 2024-08-07 14:51:57 · 3342 阅读 · 0 评论 -
数据库异常难定位?GaussDB(DWS)运维神器TopSQL来解决
TopSQL是GaussDB(DWS)数据库中内置的一款功能十分强大的性能分析工具。本文主要介绍TopSQL的基本原理、能力及典型应用场景,并讲解如何使用好TopSQL这把运维利刃。原创 2024-07-10 14:18:19 · 1816 阅读 · 0 评论 -
GaussDB(DWS)性能调优,解决DM区大内存占用问题
两个场景性能优化案例,带你了解维度表与主表关联时产生大内存占用问题如何解决。原创 2024-07-04 08:59:20 · 979 阅读 · 0 评论 -
14个Flink SQL性能优化实践分享
本文深入浅出地探讨Flink SQL的常见性能问题、调优方法、易错点及调优技巧,并提供代码示例。原创 2024-05-23 11:42:55 · 1380 阅读 · 0 评论 -
华为云FunctionGraph构建高可用系统的实践
本文将基于华为云FunctionGraph自身的实践,详细介绍如何构建高可用的Serverless计算平台,实现客户和平台双赢。原创 2024-04-28 18:18:34 · 1188 阅读 · 0 评论 -
解密数仓的SQL ON ANYWHERE技术
如果能在一个客户端中使用SQL语句操作不同的大数据组件,将极大提升使用各种大数据组件的效率。原创 2024-04-03 09:39:21 · 1873 阅读 · 1 评论 -
数仓调优实践丨多次关联发散导致数据爆炸案例分析改写
关联发散是开发常用的获取特定汇总数据的方法,但是使用这类方法意味着承担数据爆炸的风险。本篇通过一个典型案例,给出了“求所有值中大于本行值的最小值”的一个调优方案。原创 2023-12-12 17:55:01 · 590 阅读 · 0 评论 -
手把手带你玩转HetuEngine:资源规划与数据源对接
本篇文章将手把手带你进行资源规划和数据源对接,开启玩转HetuEngine。原创 2023-08-18 17:28:23 · 868 阅读 · 0 评论 -
云小课|MRS基础操作之集群健康检查
MapReduce服务为用户提供海量数据的管理及分析功能,快速从结构化和非结构化的海量数据中挖掘您所需要的价值数据。集群中的FusionInsight Manager将提供企业级的集群的统一管理平台。原创 2023-10-10 09:36:56 · 732 阅读 · 0 评论 -
FQS:一种神奇的数仓查询优化技术
如果您刚接触DWS那一定会好奇想要知道"REMOTE_FQS_QUERY" 到底代表什么意思?原创 2023-12-13 17:14:39 · 699 阅读 · 0 评论 -
GaussDB(DWS)网络调度与隔离管控能力
调度算法是调度器的核心,设计调度算法要充分考虑业务场景和用户需求,没有万能的调度算法,只有合适的调度算法。原创 2023-04-04 15:22:14 · 873 阅读 · 0 评论 -
云小课|MRS数据分析-通过Spark Streaming作业消费Kafka数据
Spark Streaming是一种构建在Spark上的实时计算框架,扩展了Spark处理大规模流式数据的能力。本文介绍如何使用MRS集群运行Spark Streaming作业消费Kafka数据。原创 2023-02-23 16:31:13 · 1074 阅读 · 0 评论 -
过亿云资源运维管控难?华为云CloudMap带你喝着咖啡做运维
华为云站点数字化平台CloudMap携手华为云图引擎GES打造云服务全栈拓扑,网络流量路径和云服务动态依赖等空间关系数据,支撑现网运行态风险识别和分钟级定位定界,构建业界领先的数字化能力。原创 2023-03-31 11:35:48 · 1322 阅读 · 1 评论 -
MRS大企业ERP流程实时数据湖加工最佳实践
本文将以ERP流程实践为例介绍MRS实时数据湖方案的演进。原创 2023-08-11 10:00:30 · 783 阅读 · 0 评论 -
云图说 | MSSI之应用业务模型ABM,搭建业务与技术的数据治理桥梁
应用业务模型ABM(Application Business Model)是MSSI为客户提供的统一模型管理服务。原创 2023-03-30 15:47:25 · 908 阅读 · 0 评论 -
聊聊简单又不简单的图上多跳过滤查询
多跳查询能力也是一个衡量产品性能非常重要的指标。原创 2023-04-13 15:24:48 · 997 阅读 · 0 评论 -
云小课|MRS基础原理之Hue组件介绍
Hue是一组WEB应用,用于和MRS大数据组件进行交互,能够帮助用户浏览HDFS,进行Hive查询,启动MapReduce任务等。它承载了与所有MRS大数据组件交互的应用。原创 2023-02-24 11:32:04 · 845 阅读 · 0 评论 -
MRS+LakeFormation:打造一站式湖仓,释放数据价值
华为LakeFormation是企业级的一站式湖仓构建服务原创 2023-02-14 16:51:35 · 840 阅读 · 0 评论 -
带你快速上手HetuEngine
HetuEngine是华为推出的高性能交互式SQL分析及数据虚拟化引擎。原创 2023-08-18 16:36:04 · 931 阅读 · 0 评论 -
一文详解数据仓库的物理细粒度备份恢复
华为云技术专家带你读懂数据仓库的物理细粒度备份恢复,包括它的优势、恢复的基本流程和具体使用实践。原创 2023-09-18 14:19:22 · 737 阅读 · 0 评论 -
云小课|MRS基础操作之配置DataNode容量均衡
当HDFS集群出现DataNode节点间磁盘利用率不平衡时,会导致MapReduce应用程序无法很好地利用本地计算的优势、数据节点之间无法达到更好的网络带宽使用率等问题。因此管理员需要定期检查并保持DataNode数据平衡。原创 2023-02-15 16:05:33 · 891 阅读 · 0 评论 -
数据高速公路:详解数仓集群通信技术
深入讲解GaussDB(DWS)集群通信技术,如何在大规模集群中承载高并发业务,如何实现高性能分布式通信系统。原创 2024-01-05 10:19:06 · 1082 阅读 · 1 评论 -
华为云HBase冷热分离最佳实践
冷热分离功能支持将冷热数据存储在不同的介质上,可以大大降低存储成本,HBase支持对同一张表的数据进行冷热分离存储。原创 2023-09-25 14:21:35 · 878 阅读 · 0 评论 -
详解MRS HBase全局二级索引
与结构化数据库相似,HBase二级索引就是为了提升此类条件查询场景性能:查询条件无法精确/模糊匹配rowkey(类似于DB主键),同时严格要求查询时延。原创 2023-12-27 09:02:30 · 2019 阅读 · 0 评论 -
实战指南,SpringBoot + Mybatis 如何对接多数据源
本文以一个单数据源的Demo为例,讲述将其改为多数据源项目的过程,希望大家能有所体会。原创 2023-09-28 10:56:53 · 985 阅读 · 0 评论 -
CSR格式如何更新? GES图计算引擎HyG揭秘之数据更新
HyG图计算引擎采用CSR格式来存储图的拓扑信息,CSR格式可以将稀疏矩阵的存储空间压缩,进而大大降低图的存储开销,同时具备访问效率高、格式易转化等优点。原创 2023-06-20 14:53:48 · 932 阅读 · 0 评论 -
云小课|MRS基础原理之Flink组件介绍
Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。原创 2023-02-21 14:51:03 · 1075 阅读 · 0 评论 -
华为云MRS支持lakeformation能力,打造一站式湖仓,释放数据价值
对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地“存”与“算”的管理,加快推进了数智融合进程,更大程度地释放业务数据价值。原创 2023-02-08 11:02:27 · 1091 阅读 · 0 评论 -
Trino容错模式深度测评与思考
Trino是一款开源的高性能、分布式SQL查询引擎,专门用于对各种异构数据源运行交互式分析查询,支持从GB到PB的数据量范围。原创 2023-10-13 17:47:04 · 1028 阅读 · 0 评论 -
GaussDB(DWS)中的分布式死锁问题实践
出现分布式死锁现象后,如果没有外部干预,通常是一方等待锁超时报错后,事务回滚清理持有锁资源,另一方可继续执行。原创 2023-12-27 09:01:08 · 1037 阅读 · 0 评论