mm_ren-优快云博客

转载 Hive数据库join操作雷区

基础操作测试首先准备两张表收入表 hive_join_gaap_test 和信息表 hive_join_pl_test，表内容如下：select * from hive_join_pl_...

2022-02-13 09:45:00 374

转载实时数据架构与实践（用户画像篇)

一、前言知乎业务中，随着各业务线业务的发展，逐渐对用户画像和实时数据这两部分的诉求越来越多。对用户画像方面，期望有更快、更准、更方便的人群筛选工具和方便的用户群体分析能力。对于实时数据方面...

2022-01-29 11:46:00 599

转载程序员必须掌握的 10 款开源工具

本文主要介绍Java程序员的一些基本和高级工具。如果你是一位经验丰富的Java开发人员，你可能对这些工具很熟悉，但如果不是，现在就是是开始学习这些工具的好时机。# JIRAAtlassia...

2022-01-28 11:46:00 780

转载爬虫或恶意攻击，如何动态屏蔽IP地址？

背景为了封禁某些爬虫或者恶意用户对服务器的请求，我们需要建立一个动态的 IP 黑名单。对于黑名单之内的 IP ，拒绝提供服务。架构实现 IP 黑名单的功能有很多途径：1、在操作系统层面，配...

2022-01-20 11:46:00 569

转载从0到1搭建数仓DWD层案例实践

一、DWD层结构DWD层是对用户的日志行为事实进行解析，以及对交易业务数据采用维度模型的方式重新建模（即维度退化）。1、回顾DWD层概念我们在来回顾一下对DWD层（Data Warehou...

2022-01-15 08:45:00 2417

转载 parquet嵌套数据结构

1.原文翻译原文 http://lastorder.me/tag/parquet.html英文原文https://blog.twitter.com/2013/dremel-made-si...

2022-01-13 11:22:10 723

转载 Hive - ORC 文件存储格式详细解析

前言：在之前的文章中，介绍过Parquet文件存储格式：《Parquet文件存储格式详细解析》，本篇将详细解析ORC。一、ORC File文件结构ORC的全称是(Optimized Row...

2022-01-11 08:45:00 1337

转载电商供应链数仓平台该如何建设？哪些点需要注意

导读：随着蜀海供应链业务的发展，供应链中各个环节角色的工作人员利用数据对业务进行增长分析的需求越来越迫切。在过去大数据分析平台架构1.0的实践中，存在数据生产链路太长，架构太复杂，开发运维...

2022-01-09 11:30:00 502

转载 52条SQL语句，性能优化，干货必收藏

SQL语句性能优化1，对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。2，应尽量避免在 where 子句中对字段进行 null 值...

2022-01-05 23:21:00 140

转载解惑“高深”的Kafka时间轮原理

【摘要】Kafka时间轮是Kafka实现高效的延时任务的基础，它模拟了现实生活中的钟表对时间的表示方式，同时，时间轮的方式并不仅限于Kafka，它是一种通用的时间表示方式，本文主要介绍K...

2021-10-09 22:23:26 225

转载 kafka存储结构以及Log清理机制

本文主要聚焦 kafka 的日志存储以及日志清理相关。日志存储结构首先我们来看一张 kafak 的存储结构图。如上图所示、kafka 中消息是以主题 topic 为基本单位进行归类的，这里...

2021-10-08 21:53:53 440

转载 Kafka 3.0重磅发布，弃用 Java 8 的支持！

Apache Kafka 是一个分布式开源流平台，被广泛应用于各大互联网公司。Kafka 设计之初被用于消息队列，自 2011 年由 LinkedIn 开源以来，Kafka 迅速从消息队列...

2021-10-04 09:00:00 1417

转载内存数据库的纠纷！！！

- 前言 -依靠内存来存储数据的数据库管理系统，也称为内存数据库，成为了解决高并发、低时延数据管理需求的技术路线。近年来，随着动态随机存储器（DRAM）容量的上升和单位价格的...

2021-10-03 21:48:15 195

转载 Kafka 事务的实现原理

- 前言 -Kafka 事务在流处理中应用很广泛，比如原子性的读取消息，立即处理和发送，如果中途出现错误，支持回滚操作。这篇文章来讲讲事务是如何实现的，首先来看看事务流程...

2021-09-27 22:21:38 1067

原创了解Spark RDD

RDD介绍RDD全称resilient distributed dataset（弹性分布式数据集）。他是一个弹性分布式数据集，是spark里面抽象的概念。代表的是一个不可变的，集合里面的元...

2021-09-25 21:59:13 116

转载消息被重复消费，怎么避免？有什么好的解决方案？

消息中间件是分布式系统常用的组件，无论是异步化、解耦、削峰等都有广泛的应用价值。我们通常会认为，消息中间件是一个可靠的组件——这里所谓的可靠是指，只要我把消息成功投递到了消息中间件，消息就...

2021-09-23 22:28:51 3124

转载数据仓库和数据集市建模体系化总结

前言数据仓库建模包含了几种数据建模技术，除了ER建模和关系建模，还包括专门针对数据仓库的维度建模技术。本文将详细介绍数据仓库维度建模技术，并重点讨论三种基于ER建模/关系建模/维度建模的数...

2021-09-19 22:16:00 416

转载 Flink深度学习流处理核心组件 Time&Window 深度解析

1. Window & Time 介绍Apache Flink（以下简称 Flink）是一个天然支持无限流数据处理的分布式计算框架，在 Flink 中 Window 可以将无限流...

2021-09-17 22:55:00 534

转载面试官问JDK7和JDK8的HashMap不一样在哪里？我懵了

相信大家在面试的时候，肯定很多人被问到HashMap，一般上来都是 HashMap 用过没有，说一下他的数据结构吧，但是阿粉的朋友去面试的时候，上来直接进入主题，HashMap 在 JDK...

2021-09-16 22:42:35 182

转载一些关于Spark的Broadcast你不知道的细节

顾名思义，broadcast 就是将数据从一个节点发送到其他各个节点上去。这样的场景很多，比如 driver 上有一张表，其他节点上运行的 task 需要 lookup 这张表，那么 dr...

2021-09-14 22:52:25 228

转载主数据项目实施方法与核心步骤

01 主数据定义与主数据项目先说说数据的层次模型，根据数据的特征、作用以及管理需求的不同，将数据分为6个层次，即：元数据、引用数据、企业结构数据、业务结构数据、业务活动数据、业务审计数据。...

2021-09-13 22:23:14 1773

转载详解 Spark Core 调优之数据倾斜调优（建议收藏

文章目录一、调优概述二、数据倾斜发生时的现象三、数据倾斜发生的原理四、如何定位导致数据倾斜的代码五、某个task执行特别慢的情况六、某个task莫名其妙内存溢出的情况七、查看导致数据倾斜的...

2021-09-12 22:21:00 235

转载 Flink 重点原理与机制 : 网络流控及反压机制

1 网络流控的概念与背景1.1 为什么需要网络流控首先我们可以看下这张最精简的网络流控的图，Producer 的吞吐率是 2MB/s，Consumer 是 1MB/s，这个时候我们就会发现...

2021-09-11 22:52:00 496

转载 Hive 中的排序和开窗函数

Hive 中的四种排序排序操作是一个比较常见的操作，尤其是在数据分析的时候，我们往往需要对数据进行排序，hive 中和排序相关的有四个关键字，今天我们就看一下，它们都是什么作用。数据准备下...

2021-09-07 22:44:36 1360

转载电商供应链数仓平台该如何建设？哪些点需要注意？

导读：随着蜀海供应链业务的发展，供应链中各个环节角色的工作人员利用数据对业务进行增长分析的需求越来越迫切。在过去大数据分析平台架构1.0的实践中，存在数据生产链路太长，架构太复杂，开发运...

2021-09-06 23:06:22 557

转载爱奇艺数据中台建设方案

数据中台的产生：数据工作的痛点、数据中台的产生、中台的实质爱奇艺数据中台的定义：理解数据中台、数据中台的发展历程、输出和定位爱奇艺数据中台的建设：中台建设、Pingback体系、数仓体系、...

2021-09-01 22:42:00 152

转载亿级流量架构之资源隔离思路与方法

为什么要资源隔离常见的资源,例如磁盘、网络、CPU等等,都会存在竞争的问题,在构建分布式架构时,可以将原本连接在一起的组件、模块、资源拆分开来,以便达到最大的利用效率或性能。资源隔离之后,...

2021-08-30 22:42:27 214

转载详解 Spark Core 调优之数据倾斜调优（建议收藏）

一、调优概述二、数据倾斜发生时的现象三、数据倾斜发生的原理四、如何定位导致数据倾斜的代码五、某个task执行特别慢的情况六、某个task莫名其妙内存溢出的情况七、查看导致数据倾斜的key的...

2021-08-29 22:51:09 193

原创 Hive SQL源码解析

Hive执行SQL的主要流程流程词法、语法解析: Antlr定义SQL的语法规则，完成SQL词法，语法解析，将SQL转化为抽象语法树AST Tree语义解析: 遍历AST Tree，抽象出...

2021-08-28 22:09:31 686 1

转载阿里巴巴数据中台12年建设与实践

编者按：从2016年诞生起，“中台”概念就一路火热至今，对互联网与传统行业数字化转型产生了极为深远的影响。作为“中台”概念的提出者和先行者，阿里巴巴用12年的实践探索了中台能力建设和数...

2021-08-28 22:09:31 515

转载 Spark处理的一些业务场景

Sparksql在处理一些具体的业务场景的时候，可以通过算子操作，或者RDD之间的转换来完成负责业务的数据处理，在日常做需求的时候，整理出来一下几个经典的业务场景的解决方案，供大家参考。1...

2021-08-26 22:28:53 283

转载大数据数据仓库建设

前言互联网行业，除了数据量大之外，业务时效性要求也很高，甚至很多是要求实时的，另外，互联网行业的业务变化非常快，不可能像传统行业一样，可以使用自顶向下的方法建立数据仓库，一劳永逸，它要求新...

2021-08-24 22:48:00 383

转载 JVM 性能调优监控工具选哪些

现实企业级Java应用开发、维护中，有时候我们会碰到下面这些问题：OutOfMemoryError，内存不足内存泄露线程死锁锁争用（Lock Contention）Java进程消耗CPU过...

2021-08-22 22:00:58 154

转载 Kafka 原理以及分区分配策略剖析

一、简介Apache Kafka 是一个分布式的流处理平台（分布式的基于发布/订阅模式的消息队列【Message Queue】）。流处理平台有以下3个特性：可以让你发布和订阅流式的记录。...

2021-08-21 22:53:58 153

原创如何编译Spark

1.安装环境软件准备spark-2.4.4.tgz源码jdk-8u144-linux-x64.tar.gzJDK1.8以上apache-maven-3.3.9-bin.tar...

2021-08-21 22:53:58 215

转载 SpringBoot+Kafka+ELK 完成海量日志收集（超详细）

整体流程大概如下：服务器准备在这先列出各服务器节点，方便同学们在下文中对照节点查看相应内容SpringBoot项目准备引入log4j2替换SpringBoot默认log，demo项目结构如...

2021-08-19 22:44:32 260

转载大数据分析平台搭建指南

01先来谈谈企业搭建大数据分析平台的背景1、搭建大数据平台离不开BI。在大数据之前，BI就已经存在很久了，简单把大数据等同于BI，明显是不恰当的。但两者又是紧密关联的，相辅相成的。BI是达...

2021-08-17 22:51:59 843

转载 Spark读写Hbase（用户画像）

背景依旧是公司用户画像项目，目前方案是将hive聚合之后的标签表全部倒入mysql，然后在ES建立索引，虽然限定了最大查询范围为90天的数据，但是面对千万级的用户量，90天的数据依旧是非常...

2021-08-16 22:50:42 380

转载理解Hbase 的sequenceId

HBase数据在写入的时候首先追加写入HLog，再写入Memstore，也就是说一份数据会以两种不同的形式存在于两个地方。那两个地方的同一份数据需不需要一种机制将两者关联起来?有的朋友要问...

2021-08-14 22:30:00 461

转载如何搭建指标体系

体系架构模型设计：以维度建模理论为基础，基于维度建模总线架构，构建一致性的维度和事实（进行规范定义）。同时，在落地数据模型时，基于自身业务特点设计出一整套数据模型规范命名体系。规范定义-...

2021-08-13 22:29:00 940

空空如也

空空如也