
大数据
文章平均质量分 64
hadoop生态圈与各类关系型数据库
lucky_syq
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive函数大揭秘:从基础到实战的进阶之路
在大数据处理的广袤领域中,Hive 凭借其独特的优势占据着举足轻重的地位。它构建于 Hadoop 之上,作为一款卓越的数据仓库工具,能够将结构化的数据文件巧妙地映射为数据库表 ,并赋予用户类 SQL 的查询功能。这使得大数据的分析查询变得更加直观、高效,无需用户深入钻研复杂的 MapReduce 编程模型,就能轻松驾驭海量数据的处理。比如,在面对互联网公司每日产生的数以亿计的用户行为日志时,Hive 可以快速地对这些数据进行存储、查询和分析,帮助企业挖掘出有价值的信息,从而为决策提供有力支持。原创 2025-03-06 08:48:45 · 854 阅读 · 0 评论 -
深入探秘FlinkCDC:实时数据处理的新利器
FlinkCDC,即 Flink Change Data Capture,是基于 Apache Flink 开发的用于捕获数据源变更数据的工具。原创 2025-03-04 23:11:19 · 1215 阅读 · 0 评论 -
Flink 窗口:流处理的核心利器
在 Flink 中,窗口是一种将无界数据流切分为有限的、可管理的数据块的机制。它就像是一个 “数据收集器”,按照一定的规则收集数据流中的元素,当满足特定条件(如达到时间间隔或元素数量)时,对收集到的数据进行处理。窗口的主要作用在于对无界数据流进行分段处理,使得我们能够在流数据上执行基于时间或数据量的聚合、统计等操作。通过窗口,我们可以将连续的数据流按照时间维度(如每小时、每天)或数据量维度(如每 100 条数据)进行分组,从而对每个分组内的数据进行独立的计算和分析。原创 2025-03-01 20:30:46 · 790 阅读 · 0 评论 -
一文吃透数仓拉链表:原理、优势与实战
数仓拉链表,英文名为 Slowly Changing Dimension (SCD) Table ,是数据仓库中用于处理维度表中数据缓慢变化的一种数据存储和管理技术。简单来说,它就像是一个数据的时间记录仪,能够详细地记录下数据从开始到当前状态的所有变化信息。在传统的数据库表中,当数据发生变化时,通常是直接覆盖原有数据,这样虽然操作简单,但会导致历史数据丢失,无法追溯数据的变化过程。原创 2025-02-26 21:30:08 · 840 阅读 · 0 评论 -
Spark算子:大数据处理的魔法棒
在大数据处理的广袤宇宙中,Apache Spark 无疑是一颗璀璨的明星。它诞生于加州大学伯克利分校的 AMPLab 实验室,自开源以来,迅速在大数据领域崭露头角,成为了大数据处理框架中的佼佼者。Spark 以其快速、通用、可扩展的特性,改变了大数据处理的格局。与传统的 Hadoop MapReduce 相比,Spark 基于内存计算的模型,大大减少了数据在磁盘上的读写操作,使得数据处理速度得到了质的飞跃。这种基于内存的迭代计算模型,让 Spark 在数据挖掘、机器学习、实时流处理等多个领域都能游刃有余。原创 2025-02-19 21:18:59 · 1077 阅读 · 0 评论 -
一文吃透Flink:大数据处理的神兵利器
Flink 是一个开源的分布式流处理框架,由 Apache 软件基金会开发 ,使用 Java 和 Scala 编写。它的核心是一个分布式流数据引擎,能够以数据并行和流水线方式执行任意流数据程序。Flink 的设计目标是提供高吞吐量、低延迟的流数据处理能力,同时支持对有界和无界数据流进行有状态的计算。这里的有界数据流,就像是一个装满数据的固定大小的箱子,数据量是有限的,处理完这些数据任务就结束了,比如我们处理一份固定的历史订单数据报表。原创 2025-02-09 20:43:19 · 845 阅读 · 0 评论 -
SparkCore与FlinkCore的区别有哪些
【代码】SparkCore与FlinkCore的区别有哪些。原创 2024-10-07 12:04:27 · 1001 阅读 · 0 评论 -
维度建模的流程
例如:一个用户有一个身份证、一个籍贯、多个手机号、多个银行卡,此时与用户粒度相同的粒度属性为身份证粒度、籍贯粒度,因为用户和身份证、籍贯都是一一对应的。维度是事实表的基础,维度是通过不同的视角去看数据,把一堆数据进行分类,从而进行细分对比。这是数据建模过程中最重要的一步,如果在这一步出错,整个维度建模必将以失败告终,所以第一步一定要谨慎且细致的对业务进行描绘。同一事实表中,必须有相同的粒度。比如商城业务,整个商城流程分为商家端,用户端,平台端,运营需求是总订单量,订单人数,及用户的购买情况等。原创 2024-09-30 16:55:37 · 419 阅读 · 0 评论 -
Hadoop 生态圈中的组件是如何协同工作的?
例如,数据首先可以通过 Flume 收集并存储到 HDFS 中,然后使用 Hive 进行离线分析,或者使用 Spark 进行实时处理,处理结果可以存储在 HBase 中供快速查询,整个过程中的资源分配和任务调度由 YARN 负责管理,而 Zookeeper 则确保各个组件之间的协调一致。:建立在 HDFS 之上,可实现对大规模结构化数据的随机、实时读写访问。客户端将文件切分成数据块,namenode 管理文件系统的元数据,如数据块的位置信息等,而 datanode 则实际存储数据块及其副本。原创 2024-07-26 14:24:18 · 484 阅读 · 0 评论 -
hadoop重要组件有哪些
HDFS(Hadoop 分布式文件系统):用于大规模数据的分布式存储,具有高容错性和高可靠性。 MapReduce:一种分布式计算模型,用于处理大规模数据的并行计算。比如在数据分析中,对海量数据进行统计和汇总。 YARN(Yet Another Resource Negotiator):资源管理和任务调度框架。它能够有效地分配集群中的资源给不同的应用程序。 Hive:基于 Hadoop 的数据仓库工具,可以将结构化的数据映射为数据库表,并使用类似 SQL 的语言进行查询和分析。 HBase:分布式的原创 2024-07-26 14:21:46 · 164 阅读 · 0 评论 -
PG 数据库的备份
此外,pg_dump 和 pg_restore 命令还有许多其他选项,例如指定备份文件的格式、压缩备份文件、排除某些对象等。请注意,在恢复备份文件之前,确保你已经创建了目标数据库,并且与备份文件中的数据库具有相同的结构和权限。pg_restore 命令将读取备份文件中的内容,并将其恢复到指定的数据库中。命令来恢复备份文件。,其中包含了数据库的所有对象和数据。指定连接数据库的用户名,指定要备份的数据库名称,指定连接数据库的用户名,指定要恢复的数据库名称,指定备份文件的名称。指定备份文件的名称。原创 2024-03-08 16:09:18 · 3268 阅读 · 1 评论 -
PG数据库如何表示时间差
是要比较的两个时间戳。这个查询将返回一个表示时间差的数值。这样,返回的结果就是以分钟为单位的时间差。函数来计算两条记录的时间差。原创 2024-03-08 10:28:14 · 2223 阅读 · 1 评论 -
PG数据库如何进行递归查询
子句来创建递归查询。递归查询是一种查询结构,它可以在查询中自我引用,从而实现层次结构数据的遍历和查询。的员工),并将其作为根节点。然后,在递归步骤中,我们选择了每个员工及其下属的所有员工,通过。在递归查询的初始查询中,我们选择了没有上级经理的员工(即。然后,我们插入了一些示例数据,展示了一个简单的员工层次结构。请注意,递归查询的性能可能会受到数据量和层次深度的影响。中选择所有字段,从而获取整个员工层次结构的信息。在上述示例中,我们首先创建了一个名为。字段用于表示每个员工的上级经理的。原创 2024-03-05 17:48:02 · 884 阅读 · 1 评论 -
什么是第四范式的传递依赖
因为商店和商品共同决定了店铺的取值,而店铺又决定了经理的取值,所以商店和商品是经理的决定因素,但是经理并不是商店和商品的决定因素,这就产生了非主属性对主键的传递依赖。数据库范式是一组规则,用于设计关系型数据库的表结构,以确保数据的完整性、一致性和可维护性。第四范式(4NF)是数据库范式的一种,要求关系模式R(U,F)中的每一个非平凡多值依赖x->->y,x为超键。第四范式通过排除非主属性对候选键以外属性的多值依赖,减少了数据冗余并消除了异常(插入异常、删除异常、更新异常)。原创 2024-03-05 17:42:21 · 406 阅读 · 0 评论 -
oracle循环中打印1+2+3+4+5+6+7+8+9+10=55这个式子三种方法
loop循环declarev1int=1;v2int=0;beginloopv2=v2+v1;dbms_output.put(v1||'+');v1=v1+1;exitwhenv1=10;endloop;dbms_output.put_line('10='||(v1+v2));end;while循环declarev1int=1;v2int=0;beginwhilev1原创 2022-08-01 20:34:24 · 602 阅读 · 0 评论 -
oracle 中sql中的 case when 和 pl/sql中的 case when 有什么区别?
sql中的 case when 和 pl/sql中的 case when 有什么区别?原创 2022-08-01 20:31:24 · 382 阅读 · 0 评论