- 博客(35)
- 收藏
- 关注
原创 [超硬核]一文带你入门用户画像
用户画像用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌,如图1-1所示。用户画像可看作企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件,为数据驱动运营奠定了基础。由此看来,如何从海量数据中挖掘出有价值的信息越发重要。大数据已经兴起多年,其对于互联网公司的应用来说已经如水、电、空气对于人们的生活一样,成为不可或缺的重要组成部分。从基础设施建设到应用层面,主要有。
2023-10-19 18:26:05
259
原创 Data Warehouse 系列之构建业务总线矩阵
数据仓库总线矩阵(Data Warehouse Bus Matrix)是数据仓库设计中一个重要工具。它用于定义数据仓库中的业务过程和数据维度之间的关系,提供了数据模型的整体视图以及数据仓库中各个数据源之间的关系。总线矩阵通常是一个表格,其中每一行代表一个业务过程,每一列代表公共维度(一致性维度),还包括业务过程与维度间的联系,图中每个叉号表示该业务过程与维度具有关联关系,也就是我们通常说的外键。数据仓库总线矩阵通常由两个维度构成:业务过程和数据维度。业务过程包括数据分析。
2023-08-23 21:13:05
1540
原创 Flink窗口【我们不一样】
在大多数场景下,我们需要统计的数据流都是无界的,因此我们无法等待整个数据流终止后才进行统计。通常情况下,我们只需要对某个时间范围或者数量范围内的数据进行统计分析:如每隔五分钟统计一次过去一小时内所有商品的点击量;或者每发生1000次点击后,都去统计一下每个商品点击率的占比。在 Flink 中,我们使用窗口 (Window) 来实现这类功能。按照统计维度的不同,Flink 中的窗口可以分为 时间窗口 (Time Windows) 和 计数窗口 (Count Windows)。
2023-07-23 16:59:02
82
原创 Flink核心概念【我们不一样】
Apache Flink 诞生于柏林工业大学的一个研究性项目,原名 StratoSphere。2014 年,由 StratoSphere 项目孵化出 Flink,并于同年捐赠 Apache,之后成为 Apache 的顶级项目。2019 年 1 年,阿里巴巴收购了 Flink 的母公司 Data Artisans,并宣布开源内部的 Blink,Blink 是阿里巴巴基于 Flink 优化后的版本,增加了大量的新功能,并在性能和稳定性上进行了各种优化,经历过阿里内部多种复杂业务的挑战和检验。
2023-07-23 16:44:00
186
原创 Dataphin规范建模
Dataphin是基于阿里巴巴OneData数据治理方法论内部实践的云化输出, 一站式提供数据采,建,管,用全生命周期的大数据能力,来提升数据治理水平,构建质量可靠,消费便捷,生产安全经济的数据中台产品。数仓规划是基于Dataphin建设数据中台的第一步,同时也是数据体系的顶层设计中至关重要的的一步。OneData是阿里巴巴数据整合及管理体系,其方法论的核心在于:从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理,可追溯,可规避重复建设。即数据只建设一次。
2023-03-26 16:45:00
877
原创 玩转Linux安装MySQL5.7.36
MySQL简介MySQL 是最受欢迎的开源 SQL 数据库管理系统,由 Oracle Corporation 开发、分发和支持。MySQL 网站 ( mysql官网 ) 提供有关 MySQL 软件的最新信息。MySQL特点1、MySQL 是一个数据库管理系统。2、MySQL 数据库是关系型的。3、MySQL 软件是开源的。4、MySQL 数据库服务器非常快速、可靠、可扩展且易于使用。5、MySQL 服务器在客户端/服务器或嵌入式系统中工作。MySQL历史MySQL开始的目的是将 mSQ
2022-05-13 17:28:29
678
原创 【SQL优化技巧】
SQL查询中为了提高查询效率,我们常常会采取一些措施对查询语句进行sql优化,下面总结一些方法,仅供参考。01.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by涉及的列上建立索引。02.应尽量避免在where子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描。03.应尽量避免在 where子句中对字段进行null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null可以
2022-05-13 16:22:23
106
原创 SQL函数(持续更新)
SQL 函数1. group_concat() group_concat([DISTINCT] fieldA [Order BY fieldB ASC/DESC] [Separator '分隔符'])-- 根据价格进行分组,将相同价格的电影名称放在一列中,以逗号进行分割,默认就是逗号,可以省略。SELECT prices,group_concat(distinct movie order by date desc separator ',') as movies from movies_li
2022-05-13 14:45:41
166
原创 数仓的基本概念【精】
一、数仓基本概念1. 数据仓库概念英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因1) 基本特征数据仓库是面向主题的、集成的、非易失的和时变的数据集合,用以支持管理决策。面向主题:传统数据库中,
2022-05-12 17:03:11
1305
原创 【HADOOP面试指南】
HadoopHadoop中常问的就三块 第一:分布式存储(HDFS); 第二:分布式计算框架(MapReduce); 第三:资源调度框架(YARN)。1. 请说下HDFS读写流程这个问题虽然见过无数次,面试官问过无数次,还是有不少面试者不能完整的说出来,所以请务必记住。并且很多问题都是从HDFS读写流程中引申出来的。HDFS写流程:Client客户端发送上传请求,通过RPC与NameNode建立通信,NameNode检查该用户是否有上传权限,以及上传的文件是否在HDFS对应的目录下重名,如
2022-05-09 14:33:08
365
原创 Apache Sqoop详细教程
Apache Sqoop1. sqoop 介绍Apache Sqoop 是在Hadoop 生态体系和RDBMS 体系之间传送数据的一种工具。来自于Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括:HDFS、Hive、Hbase等RDBMS体系包括:Mysql、Oracle、DB2等Sqoop可以理解为:“SQL 到 Had.
2022-05-09 14:18:19
775
原创 Spring AOP详解
Spring AOP详解一、AOP—另一种编程思想1.1 什么是AOPAOP(Aspect Orient Programming),直译过来就是面向切面编程,AOP是一种思想,是面向对象编程(OOP)的一种补充,面向对象编程将程序抽象为各个层次的对象,而面向切面编程是将程序抽象成各个切面。所谓切面,相当于应用对象间的横切点,我们可以将其单独抽象为单独的模块1.2 为什么需要AOPOOP引入封装、继承、多态等概念来建立一种对象层次结构,用于模拟公共行为的一个集合。不过OOP允许开发者定义纵向的关
2021-03-13 13:49:19
269
原创 Spring 事务管理解析
Spring 事务管理事务管理一个数据库事务是一个被视为单一的工作单元的操作序列。这些操作应该要么完整地执行,要么完全不执行。事务管理是一个重要组成部分,RDBMS 面向企业应用程序,以确保数据完整性和一致性。事务的概念可以描述为具有以下四个关键属性说成是 ACID:**原子性:**事务应该当作一个单独单元的操作,这意味着整个序列操作要么是成功,要么是失败的。**一致性:**这表示数据库的引用完整性的一致性,表中唯一的主键等。**隔离性:**可能同时处理很多有相同的数据集的事务,每个事务应该与其
2021-03-05 15:54:30
161
1
原创 HTML+CSS+JS详解
Web概述Web三要素:浏览器,服务器,HTTP协议**HTML工作原理:**HTML是部署在服务器上的文本文件,根据HTTP协议浏览器发出请求给服务器,服务器做出响应给浏览器返回一个HTML,浏览器解释执行HTML,从而显示内容什么是HTML?HTML是超文本标记语言(Hyper Text Markup Language),一种纯文本类型的语言,用来设计网页的标记语言,用该语言编写的文件以.html或者.htm为后缀,由浏览器解释执行,在HTML的页面上可以嵌套脚本语言编写程序段,如JavaScr
2021-02-13 19:45:40
17590
1
原创 Servlet+JSP+EL+JSTL+监听器+过滤器总结
服务器web应用的演变俩层CS架构 特点:数据库作为server,使用其特定的编程语言,编写业务逻辑,客户端提供操作页面和少量的业务逻辑 缺点:移植性较差,更换数据库时需要重新编程,不适合大型应用三层CS架构 特点:数据库只负责数据的管理;应用服务器提供所有的业务逻辑处理;客户端只负责操作界面 优点:移植性好,适合大型应用 缺点:客户端需要单独安装(限制),开发复杂(需要自定义协议,编写客户端和服务器的通信模块)BS架构特点:数据库只负责数据管理;应用服务器提供所有的业务逻辑处
2021-02-12 13:06:24
2001
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人