锵锵锵锵~蒋-优快云博客

原创 Python中numpy数组切片：print(a[0::2])、[::-1]、[::2]、[:,2]、[1:,-1:]、[ : ,: -1]，[:,-2:]、[ : n]、[m : ]等含义（详细）

numpy 一维、二维数组切片操作，附详细示例。数组切片用到的负数值怎么理解附了很多例子！a[:-1],a[::-1],a[-2:-1]，a[-2::-1]、X[ : , :-1]，X[ : ,-1: ]，x[:,-2:]，x[:,-2:-1]可以自己试一试就懂了。

2019-09-21 22:44:33 188619 20

原创实时数据开发|Flink状态类型

根据数据集==是否根据Key进行分区==，将状态分为==Keyed State== 和==OperatorState（Non-keyed ）State==两种类型。

2024-12-10 23:52:42 457

其代表允许延时的最大时间，Flink窗口算过程中会将 Window的 Endtime加上该时间，作为窗口最后被释放的结束时间§,当接人的数据中 EventTime未超过该时间§，但 Watermak 已经超过 Window 的 EndTim时直接触发窗口计算。相反，如果事件时间超过了最大延时时间§，则只能对数据进行丢弃处理。通常情况下用户虽然希望对迟到的数据进行窗口计算，但并不想将结果混入正常的计算流程中，例如用户大屏数据展示系统，即使正常的窗口中没有将迟到的数据进行统计，但为了。

2024-12-06 23:43:45 253

原创实时数据开发|Flink状态计算有状态VS无状态，区别和优劣

和状态计算不同的是，无状态计算不会存储计算过程中产生的结果，也不会将结果用于下一步计算过程中，程序只会在**当前的计算流程**中实行计算，计算完成就输出结果，然后下一条数据接人，然后再处理。

2024-12-06 23:42:08 748

原创实时数据开发|Flink异步IO--提升性能和吞吐量

异步IO可以提升性能和吞吐量，主要原因是在异步函数中可以尽可能异步并发地查询外部数据库。

2024-12-04 23:49:49 818

原创实时数据开发 | Flink的数据分区策略--物理分区操作

Flink数据分区操作

2024-12-03 01:55:54 1175

原创实时数据开发|Flink实现数据输出--DataSinks操作

Flink数据输出--DataSinks操作

2024-11-30 01:24:40 582

原创实时数据开发|Flink如何实现不同数据源输入--DataSource模块

Flink定义DataStream API让用户灵活且高效的编写流式应用。主要分为3部分：DataSource模块，Transformation模块以及DataSink模块。1. ==DataSource模块==，主要定义了数据接入功能，将外部数据接入至flink，并将接入数据转换成对应的datastream数据集。2. ==Transformation 模块==定义了对 DataStream 数据集的各种转换操作，例如进行 map、filter、windows等操作。3. 最后，将结果数据通过==D

2024-11-29 01:43:38 808

原创实时数据开发 | checkpoints监控和调优

checkpoints监控和调优

2024-11-27 23:21:46 425

原创实时数据开发 | Flink反压机制原因、影响及解决方案

实时数据开发 | Flink反压机制原因、影响及解决方案

2024-11-27 00:48:05 968

原创实时数据开发 | 一文理解Flink窗口机制

Flink引擎本质上是流式引擎，认为批处理是流处理的一个特例。因此，通过窗口将流数据划分为有限大小的集合，使得在这些有界的数据集上可以进行批处理风格的计算。通过配置窗口的参数，如==长度==和==滑动间隔==，可以精确地控制数据的聚合和计算频率，以满足各种业务需求。

2024-11-26 00:38:05 661

原创实时数据开发|简单理解Flink流计算中解决乱序的机制--水位线

一分钟看懂Flink水平线机制

2024-11-23 02:01:40 702

转载 SQL基础知识总结：DDL，DML，DCL，DQL

搬运文档，记录SQL超全基础

2024-11-22 01:03:17 198

原创实时数据开发 | 怎么通俗理解Flink容错机制，提到的checkpoint、barrier、Savepoint、sink都是什么

今天学Flink的关键技术--容错机制，用一些通俗的比喻来讲这个复杂的过程。

2024-11-22 00:19:37 1429

原创实时数据研发|Flink关键概念，什么是无界、有界数据集，流、批？

Flink的关键概念，入门必备

2024-11-20 23:09:00 453

原创实时数据研发 | Flink技术栈

上次的内容讲过流批一体，Flink就是在一套框架中同时支持批处理与流处理的一个计算平台（Spark也可以）。简单写一下Flink的技术栈。

2024-11-19 23:41:29 709

原创数据研发基础 | 数仓中需要主键吗

主键是传统关系型系统的产物，因为数仓的特性，需要酌情使用主键。应用中需要在便利性和性能、存储间找到一个平衡。通过合理设计表结构、选择合适的约束条件和优化性能，可以在不使用主键的情况下，确保数据的唯一性和完整性。

2024-11-18 23:56:35 546

原创数据研发基础 | 什么是流批一体

流批一体的概念是可能出现在大厂的面试题中的，可是就算大厂实习也有可能没机会实操这样的高级操作。不过学一点概念，面试多少是能说上一两句的。大致就是希望一套代码能同时在批处理和流处理中运行（同时做离线计算和实时计算）。

2024-11-17 00:10:52 944

原创数据研发基础| 什么是数据漂移

数仓ODS中发生的数据漂移现象的原因、场景和解决方案。

2024-11-15 23:38:21 510

原创数据研发基础 | ODS表设计方法

数据仓库中ODS表的设计方法，不同类型存储方式的使用场景

2024-11-14 23:28:22 344

原创 Hive 常见数据倾斜场景及解决方案(Map\Join\Reduce端)

Hive 中常见的数据倾斜场景及解决方法

2023-09-27 23:09:08 899

原创窗口函数-分组排序：row_number()、rank() 、dense_rank()、ntile()

select ROW_NUMBER()over(order by name) as 排序,* from temp— 排序，即使值一样，也不会重复排序。例如1,2,3,4,5select RANK()over(order by name) as 排序,* from temp— 排序，值一样，就重复排序，有间隙。例如1,1,3,4select DENSE_RANK()over(order by name) as 排序,* from temp— 排序，值一样，就重复排序，没有间隙。

2023-09-04 16:22:11 1068

原创两表union 如何保证group by 字段唯一

当要计算的指标可能来源多个表时，可能会使用到union all把不同的表中计算的指标合起来。写法一：group by之后union all ，之后再次group by保证分组字段的唯一。Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序；写法二：开始不分组，将查到的分组字段union all 之后group by。Union All：对两个结果集进行并集操作，包括重复行，不进行排序；另外，回顾union和union all的区别：union会自动。

2023-09-04 15:21:17 1943

原创数仓中的维度、度量、指标、事实、属性几个概念如何区分？有何异同？

数仓中维度、指标、度量等概念的区分

2023-08-31 11:39:51 2975

原创数仓数据建模中的概念总结（数据域、主题域、总线矩阵、指标...）

概念归纳业务分类：业务板块是某一大类业务的指标和维度的集合，如电商，文娱。数据域：数据域是指一个或多个业务过程或者维度的集合，如交易域，日志域。业务过程：业务过程指企业的业务活动事件，如下单，支付。数据集市：面向某个应用场景或者产品的数据组织，一般会依赖数据公共层。主题域：将数据集市按照分析视角进行切分，比如在电商行业，通常分为会员、交易、商品等。维度：维度是用于分析数据的一个角度，一方面对维度进行可控管理，另一方面指导维度表的设计，如地理维度，时间维度。维度属性：维度属性隶属于一

2023-08-31 11:17:53 2730 1

原创数仓建模之维度表&指标表

对数仓中的维度&指标进行解释

2023-08-31 10:57:24 1031

原创数仓中怎么做模型设计--关于分层建模（结合阿里OneData规范）

结合阿里OneData规范，对数仓的维度建模方法进行整理，关于分层建模的一些注意点。

2023-07-27 19:12:47 570

原创操作HDFS文件系统常用命令(启停、创建、查看、上传、下载、追加、删除.etc)

操作HDFS文件系统常用的命令行

2023-04-22 10:15:02 1945 1

原创 HDFS集群部署成功但网页无法打开如何解决（显示配置通过浏览器访问hdfs的端口）

HDFS集群部署成功（3台虚拟机）但是网页端无法打开，通过显示指定端口解决！！

2023-04-19 23:36:36 8213 2

原创【黑马2023大数据实战教程】VMWare虚拟机部署HDFS集群详细过程

【黑马2023大数据实战教程】VMWare虚拟机部署HDFS集群详细过程:包括1.配置workers:2.配置hadoop-env.sh文件3.配置core-site.xml文件4.配置hdfs-site.xml文件准备数据目录分发Hadoop文件夹配置环境变量授权为hadoop用户格式化文件系统错误排查方法!!

2023-04-19 21:19:11 3423 1

原创【黑马2023大数据实战教程】使用3台虚拟机搭建大数据集群详细步骤

2023新版黑马程序员大数据教程中的集群配置步骤记录

2023-04-17 21:54:45 2167 1

原创【大数据Hive3.x数仓开发】数仓中数据发生变化如何实现数据存储--拉链表详解

拉链表专门用于解决在数据仓库中==数据发生变化如何实现数据存储==的问题。拉链表的设计是==将更新的数据进行状态记录==，没有发生更新的数据不进行状态存储，用于存储所有数据在不同时间上的所有状态，==通过时间进行标记每个状态的生命周期==，查询时，根据需求可以获取==指定时间范围状态的数据==，默认用9999-12-31等最大值来表示最新状态。

2023-04-09 00:01:16 658

原创【大数据Hive3.x数仓开发】HiveSQL如何使用explode&lateral view实现单列转多行

列转行的应用案例，附重要函数explode的详细解释

2023-04-08 11:43:25 313

原创【大数据Hive3.x数仓开发】HiveSQL行转列应用-多行转多列case when&多行转单列concat_ws,collect

关于多行转多列，多行转单列的应用场景及实现，涉及case when,concat_ws，collect等函数。

2023-04-08 11:20:04 1072

原创 Neo4j初学者使用记录（在更）

打开Neo4jcmd+R 输入neo4j console浏览器中输入框中网址：http://localhost:7474/即可打开新建库服务器版需要更改配置文件，若neo4j服务正在运行，则按Ctrl+c，停止该服务。配置完后，再重新开启服务，刷新网页即可。桌面版直接界面上新建数据库即可。找到neo4j安装目录，编辑conf文件夹中的neo4j.conf然后再次启动neo4j,重新打开网页：http://localhost:7474/，可以看到新数据库被添加进neo4j了:

2023-04-05 23:24:26 386