
数据中台
文章平均质量分 90
Kevin_鹿
如果有一个柠檬,就做柠檬水
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据分析平台在企业中的架构、应用、落地【包含整体数据流】
背景作为数据赋能的一部分,大数据整合的数据集、标签、特征如何在生产中完全铺开使用;如何满足不同部门人员使用;能够从数据源、数据联合、数据集结果、元数据、数据链路进行完整的赋能是一个比较大的难题;尤其是业务人员很多,业务形态多变,查询请求量大,查询复杂都是其中的挑战;目标满足公司所有分析需要,产品化服务;满足公司所有的BI服务;稳定、快速、易用;当前使用情况因为是内部平台,平台用户量200+,人员类型分别是数据分析师、建模分析师、算法工程师、产品等;很多情况是根据外部数据热原创 2022-03-03 20:06:34 · 2631 阅读 · 0 评论 -
大数据Spark、Mr、Impala使用parquet、textfile、snappy等不同数据存储编码和压缩的效率实测对比以及项目选型
整体说明会进行此次检测的背景介绍,通过官方以及自己的学习了解进行一些基础解释;使用具体的线上数据进行压缩比,查询性能的测试;查询性能的不同场景,大数据计算、用户查询性能等,包含Spark以及Impala的性能测试【这部分都是生产中会实际遇到的,希望能给大家阐述的清晰】;包含具体生产场景的项目选型;背景当前背景为生产中真是遇到的问题,并且进行测试和选型;当前数据层作为数据湖的上游,作为所有数据分析的基础,数据仓库的过程以及所有服务的数据来源,满足各种场景是实际生产中所需要的,包括数据仓库、原创 2022-02-15 15:54:29 · 2887 阅读 · 0 评论 -
Flink实战3-数据实时写入HBase的Sink方式
背景接入Kafka实时数据经过数据处理写入HBase,后续会应用于类似变量系统以及实时日志中,对于变量系统这类中间需要做实时缓存宽表可能使用HBase连接极其频繁,所以是使用客户端还是Sink的方式就看实际情况而定,具体数据处理后的落库Sink还是比较方便的;摘要关键字Flink,Sink,HBase,数据处理,数据流转设计使用的是Max Well数据源,将业务数据接入Kafka,Flink-Source接入Kafka,中间经过数据流转将数据存储到HBase作实时表;实现说明原创 2020-12-06 10:18:01 · 6405 阅读 · 3 评论 -
大数据集群迁移方案
背景当前集群满足不了日益增长的业务量级,并且需要一套全新集群,并且后续的扩充依据新集群展开,此次集群迁移是将所有数据,服务,业务线全部迁移,围绕着新老集群展开,老集群保证线上无误的情况下进行迁移,具体细则展开在下文以及后续;整体规划新集群重装,涉及的量比较大,优化等等;保证线上与新集群同时运行;数仓迁移,HBase数据迁移,部门之间调用配置修改等;中间件集群不变,但是机架更换只与服务有关;服务迁移;集群搭建按照原服务无改变,不包含中间件ES,Druid,Clickhouse,ne原创 2020-11-23 20:12:46 · 2190 阅读 · 1 评论 -
数据中台
数据中台基本介绍定义作为底层数据开发以API方式向上层提供各类数据应用的中间层。解决效率一点业务变更带来的数据开发变更很大,效率低下,开发速度和响应力跟不上。打通业务,进行更好地T+0+1打破冗余避免多个业务有联系但是各自用一套系统,避免重复造轮子,对业务、性能、开发的压力。仓库、平台、中台中台是企业级逻辑,企业的D2V能力,主要以数据API的方式为业...原创 2020-04-17 20:11:51 · 531 阅读 · 0 评论