
数据仓库
文章平均质量分 88
dazheng
从上大学就喜欢数据库,07年开始一直做数据仓库,期间做过一些大大小小的项目,也在五位数、个位数人数的公司打拼过,期间用过oralce、db2、hadoop,打算继续做大数据这块,希望能真正做出些有用的东西。坚信少即是多,一分耕耘一分收获。
展开
-
ETL SparkSQL实现
SparkETLSparkETL主要用SQL方式实现数据仓库ETL,并保持spark的原生多功能、灵活性。采用java对spark功能进行简单封装,对于数据源、目标都是关系型数据库的,从数据抽取、转换、加载完全采用SQL方式,对于SQL不满足的场景,再用spark相关功能实现。SparkETL是ETL的一个参考实现,实际使用时,需要根据业务需要及模型设计在此基础上增加、修改。实现背景Spa...原创 2020-04-07 18:09:00 · 3120 阅读 · 1 评论 -
数据仓库技术及其演变
原因精细化竞争 精准 用户精准定位 列表内容竞争对手、外部情报速度 客户需求产品开发市场投放可用 时间延长不可用时间减少强度加大数据增长 来源的多样化 人工操作PC、手机生成机器生成数据的多样化 结构化、半结构、非结构化数据数据量增长 每两年翻番数据单位:G->T->P->E软硬件技术进步,价格降价 需求带来供给供给带来新需求总体与OLTP共用原创 2015-07-21 22:28:13 · 1079 阅读 · 0 评论 -
数据仓库简介
是什么数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合。 面向主题的(subject-oriented): 数据仓库围绕一些主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。 集成的(integrated): 通常,构造数据仓库时将多个异种数据源,如关系数据库原创 2015-07-20 21:34:13 · 946 阅读 · 0 评论 -
数据湖介绍
数据湖介绍数据湖概念是2011年提出来的,数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的成本,细节数据丢失等问题出现的。 数据湖大多是相对于传统基于RDBMS系统的数据仓库,而从2011年前后,也就是数据湖概念出现的时候,很多数据仓库逐渐迁移到以Hadoop为基础的技术栈上,而且除了结构化数据,半结构化、非结构数据也逐渐的存储到数据仓库中,并提供此类服务原创 2017-06-20 16:02:21 · 22277 阅读 · 0 评论