
数仓
文章平均质量分 90
Kevin_鹿
如果有一个柠檬,就做柠檬水
展开
-
数据分析平台在企业中的架构、应用、落地【包含整体数据流】
背景作为数据赋能的一部分,大数据整合的数据集、标签、特征如何在生产中完全铺开使用;如何满足不同部门人员使用;能够从数据源、数据联合、数据集结果、元数据、数据链路进行完整的赋能是一个比较大的难题;尤其是业务人员很多,业务形态多变,查询请求量大,查询复杂都是其中的挑战;目标满足公司所有分析需要,产品化服务;满足公司所有的BI服务;稳定、快速、易用;当前使用情况因为是内部平台,平台用户量200+,人员类型分别是数据分析师、建模分析师、算法工程师、产品等;很多情况是根据外部数据热原创 2022-03-03 20:06:34 · 2581 阅读 · 0 评论 -
大数据Spark、Mr、Impala使用parquet、textfile、snappy等不同数据存储编码和压缩的效率实测对比以及项目选型
整体说明会进行此次检测的背景介绍,通过官方以及自己的学习了解进行一些基础解释;使用具体的线上数据进行压缩比,查询性能的测试;查询性能的不同场景,大数据计算、用户查询性能等,包含Spark以及Impala的性能测试【这部分都是生产中会实际遇到的,希望能给大家阐述的清晰】;包含具体生产场景的项目选型;背景当前背景为生产中真是遇到的问题,并且进行测试和选型;当前数据层作为数据湖的上游,作为所有数据分析的基础,数据仓库的过程以及所有服务的数据来源,满足各种场景是实际生产中所需要的,包括数据仓库、原创 2022-02-15 15:54:29 · 2830 阅读 · 0 评论 -
项目中数据迁移实践(更)
项目中的数据迁移(更)需求数据服务的需求,除了公司集群现有的业务数仓表之外,还需要用户行为数据,因为主要是风控业务,所以大数据一直在做和规则机有关的数据处理和分析,由于定位问题,所以是有将行为数据回收自己开发的想法,为了完成这次关于用户行为的数据服务需求,并且未来方便起见,将所以行为有关的events迁移到自己的集群。字段500+,数据周期:半年,数据量TB。过程整体过程三方集群数...原创 2020-05-06 18:43:13 · 758 阅读 · 0 评论 -
实时数仓1
实时数仓离线→实时介绍从某种角度而言,实时数仓是针对基础实时应用的优化版,避免实时处理的烟囱式发展,分层管理,数仓思想,逻辑、性能优化,提高了代码的复用率和整体生产效率。从离线到实时的角度而言,实时性更强了,能够满足即时性的需求,数据本身的价值有所增加。抛出问题有离线数仓了,做实时数仓,是否能兼顾到以前的指标体系,是不是可以直接替代?类似于画像体系是否可以在此基础上进行构建?实...原创 2020-04-08 21:51:40 · 1208 阅读 · 0 评论 -
hive配置tez引擎(排除所有情况bug)
hive配置tez引擎(最管用直插)多次入坑最终总结出了经验tez相比MapReduce而言少了中间阶段向hdfs持久化的过程,多作业转化为单作业,只需要一次hdfs,提升计算性能。集群我的集群比较复杂,基本所有情况都涵盖了,所以大家放心大胆来吧。罗列一些相关的服务供参考组件服务masterslave1slave2slave3slave4...原创 2019-10-02 22:26:42 · 2575 阅读 · 0 评论