数仓的知识学习

1.学习数仓的架构

在这里插入图片描述
数据的来源,以及流向
在这里插入图片描述
项目需求
*1.数据平台的搭建
*2.实现用户行为数据仓库的分层搭建
*3.实现业务数据仓库的分层搭建
*4.针对数据仓库中的数据进行留存,转化率,GMV,复购率,活跃等报表分析.
留存:日留存率/3日留存/7日留存
转化率:从浏览到下单的一系列的流程
GMV:订单金额(一天/一个月/一年)
GMV=下单金额
GMV=下单金额-(大额订单)
GMV=下单金额+预定金额

数据生成模板:
埋点日志的格式
示例日志

1540934156385|{
    "ap": "gmall", 
    "cm": {
        "uid": "1234", 
        "vc": "2", 
        "vn": "1.0", 
        "la": "EN", 
        "sr": "", 
        "os": "7.1.1", 
        "ar": "CN", 
        "md": "BBB100-1", 
        "ba": "blackberry", 
        "sv": "V2.2.1", 
        "g": "abc@gmail.com", 
        "hw": "1620x1080", 
        "t": "1506047606608", 
        "nw": "WIFI", 
        "ln": 0
    }, 
        "et": [
            {
                "ett": "1506047605364",  //客户端事件产生时间
                "en": "display",  //事件名称
                "kv": {  //事件结果,以key-value形式自行定义
                    "goodsid": "236",
                    "action": "1",
                    "extend1": "1",
"place": "2",
"category": "75"
                }
            },{
		        "ett": "1552352626835",
		        "en": "active_background",
		        "kv": {
			         "active_source": "1"
		        }
	        }
        ]
    }
}

事件日志数据

商品列表页
商品点击列
商品详情页
广告页
消息通知列
用户前台活跃
用户后台活跃
评论
收藏
点赞
错误日志

启动日志数据

复购率:

业务数据:

### 数仓开发工程师学习路线图 #### 1. 数据仓库基础知识 掌握数据仓库的概念及其重要性对于理解后续的技术细节至关重要。了解什么是数据仓库、它与操作型数据库的区别以及为何企业在决策支持方面依赖于数据仓库。 - **推荐书籍**:《构建高效的数据仓库》[^2] #### 2. SQL技能提升 SQL是访问和管理关系型数据库的核心工具之一,在数仓环境中更是如此。深入学习复杂的查询编写技巧,包括窗口函数、CTE(公用表表达式)、子查询优化等内容。 ```sql WITH Sales_CTE AS ( SELECT ProductID, OrderDate, SUM(Amount) as TotalSales FROM Orders GROUP BY ProductID, OrderDate ) SELECT * FROM Sales_CTE; ``` #### 3. ETL过程设计 ETL(Extract Transform Load) 是将原始业务系统的数据抽取出来经过清洗转换之后加载到目标端的过程。熟悉各种ETL框架如Apache NiFi 或 Talend Open Studio 的使用方法,并能独立完成简单的ETL作业开发。 #### 4. 大规模并行处理(MPP)架构原理 MPP是一种分布式计算模式,允许大规模集群上的快速数据分析。探索Greenplum Database 和 Amazon Redshift 这样的现代云服务是如何实现高性能查询性能的同时保持良好的可扩展性的。 #### 5. 维度建模理论 Kimball提出的星型/雪花模型为逻辑上组织事实表提供了指导方针;Inmon则强调规范化存储结构的重要性。对比这两种不同的设计理念可以帮助更好地适应特定应用场景下的需求。 #### 6. BI报表展示平台搭建 Tableau Server / PowerBI Service 等可视化软件可以用来创建交互式的仪表板视图,使非技术人员也能够轻松理解和利用复杂的数据集背后隐藏的信息价值。 #### 7. 测试与部署自动化 Jenkins Pipeline 结合 GitLab CI 可以为持续集成环境中的每一次提交触发一系列预设的任务流,从而提高版本迭代效率减少人为错误的发生几率。 ```groovy pipeline { agent any stages { stage('Build') { ... } stage('Test') { ... } stage('Deploy'){...} } post { always {...} } } ``` #### 8. 性能调优策略 当面对海量级联更新请求时,如何保证系统响应速度?这不仅涉及到索引的选择还要考虑分区机制的应用范围等问题。通过实际案例分析找出瓶颈所在进而采取针对性措施加以改进。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值