自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

钱锋的数据仓库经验与思考

关于大数据行业、数据仓库内容与形式、数据资产价值变现的经验和思考

  • 博客(29)
  • 收藏
  • 关注

原创 数据文章目录(关于大数据概念、工具、工作、流程、问题、技术的见识和思考)

这些文章是我在点我达从事数据方面的工作时的见识、经验和思考。很多内容可能不够全面、不够准确、有特殊的限制条件,甚至是错误的。但我觉得这是正常的,我不传道,不授业,不解惑,只希望能有个契机交流、请教、学习。从输入、处理、输出的角度来看,如果我输出的结论是错误的,要么是输入的信息有误,要么是处理的逻辑有误。如果是因为我接受的信息缺失或错误,感谢好心人能帮忙补全。如果是我处理的逻辑有误,跪求各位大大指点,这是改变我人生的善举。如果只盯着错误的结论,说不出个所以然,哪儿凉快您哪儿呆着去吧。一.数据概

2020-10-11 13:56:38 668 2

原创 数据仓库怎么搭建?

数据仓库怎么搭建?点击 数据文章目录 查看更多注: 以上所有内容不确保正确准确, 仅是个人思考的结果, 欢迎交流沟通V1.0 2020年11月18日

2020-11-18 10:35:30 998

原创 任务耗时太长怎么办?(如何优化数据任务)

任务耗时太长怎么办?开发完需求之后,并不是万事大吉了。因为离线任务每天要运行,任务维护的工作,有时候比开发成本还高。比较常见的问题是任务占据大量资源,耗时太久,无法按时产出,或者直接因资源不足失败。如果只是个别任务占用过多资源,增加维护成本,还好解决。大不了拆分任务,或者直接下线任务。最怕的是开发任务的时候,没有考虑过任务运行效率,导致整体资源不足以维护任务稳定按时产出,各种意外频发,防不胜防。那就不是处理个别任务就能解决的问题了。而此时,要么财大气粗,直接加倍扩容。否则只能投入额外的人力对任务进

2020-10-21 09:49:18 2491

原创 工具-数据工具体总述

我觉得数据工具分两类。一类是生产工具,给数据开发人员使用,用来处理数据、管理数据、维护任务的。一类是消费工具,给业务人员使用,用来对数据进行监控、可视化、分析的。虽然工具很多时候不限制两方同时使用,但因主要的需求方目的和能力不同,工具在设计时的侧重点也各有不同。没有工具一样可以处理数据,不过有工具可以更有效率更简单的处理数据。工具的好处有以下几点1.将重复的操作自动化2.将复杂的操作简单化3.将脚本的配置可视化4.将高深的技术封装化另外还可以将操作流程统一到一个平台上,易学易用。可以保留操

2020-10-16 15:45:11 608

原创 概述-数据湖是什么?

数据湖是什么?早几年就听说过这个概念了,但资料太少,而且我的工作也没有类似的应用场景,很难理解到底是什么。今天看了《深入浅出亚马逊AWS数据湖》 又多了一些对数据湖具体是什么的理解。我个人觉得可以把数据湖简单的理解为数据仓库+各种非结构化数据仓库的组合。数据仓库只能储存、处理结构化数据,而数据湖可以存储、处理各种非结构化数据。既然是非结构化数据,虽然存储可以做到统一(最基础都是二进制),但收集和处理方式都不相同,可能每种非结构化数据都是一个收集和处理方式。数据湖 = 结构化数据仓库 + 非结构化

2020-10-16 09:29:29 441 1

原创 概述-数据集市是什么?

数据集市是什么?我基于自己的经验和理解,我个人觉得数据集市是 为满足某一类数据需求特殊的要求提供的一整套临时解决方案产出的表的合集。我觉得数据集市是相对数仓中间层才有的一个概念。数仓中间层是数据仓库最有价值,最能提高数据复用度和使用效率的一层。但因为要考虑复用度和开发维护成本,数据对某些具体需求的支持就不够。比如不会有某些使用较少的特殊维度的统计数据,口径经常变化的指标也不会有。而数据集市,就是为了在不影响数据仓库中间层的复用度和稳定性的情况下,为了某些重要的需求提供的专门的数据支持。数据集市最优

2020-10-16 09:24:14 3739

原创 概述-实时大屏是什么?

实时大屏是什么?在没有接触过实时大屏的时候,听到这个词我就会觉得有非常高级的科技感,还有个说法叫驾驶舱。搜索实时大屏就会出现一大批风格界面统一酷炫的大屏图表,各种动态特效,高级配色。我以为技术难度很高,一直没敢接触。后来做自助报表的时候,发现可以通过手动刷新,直接读取MYSQL里的最新数据,手工实现了实时大屏的效果。这才开始思考,实时大屏到底是什么。实时是指数据实时更新。离线数据按天更新,准实时数据最快能按15分钟更新,实时数据基本是按秒更新。大屏是指可视化的图表集合,为了全屏显示在布局上做了优化处

2020-10-15 10:06:49 765

原创 概述-用户画像是什么?

用户画像是什么?提到数据应用,必提用户画像。高端、大气、上档次。与之伴随的就是千人千面,精细化运营。概念大家都在提,但做好的不多。要么是不好用,使用成本高。要么是不好用,使用效果差。我觉得用户画像,本质是对用户群体进行划分。不同的画像,就是不同的划分标准。用户画像系统就是对用户群体分类的一种工具,并提供接口返回系统需要的某个画像对应的群体用户列表。群体分类的目的是为了针对性的做动作,为了用更少的投入获得更多的产出。因为不同的人有不同的特性,不同的需求。一视同仁操作是简单了,但投入产出比太低,没有竞争力

2020-10-15 09:54:04 376

原创 概念-数据域是什么?

数据域是什么?第一次接触这个概念,是看《大数据之路-阿里巴巴大数据实践》的第九章。可里面对数据域的描述内容个很少,在体系架构中却是个很重要的节点。我能大概的想像出它是什么样子,但因为信息太少,根本不知道为什么会存在数据域这个东西,没有它会有什么问题?划分了数据域又能带来什么好处?后来在实际工作中,慢慢的把数据域的划分当做数仓表分类来做,发现基于这样的定义,数据域还是很有价值的。也许跟原本真实的含义差别很大,但解决了我们很多真实存在的问题。数据仓库时间越久,数据内容越多。点我达表最多的时候,有5000张

2020-10-14 10:21:07 15567 4

原创 概述-数据服务是什么?

数据服务是什么?我以前认为,数据服务,就是通过数据接口提供数据的方式的统称。就是你调用一个接口,我传给你一些数据,数据处理逻辑接口内已经封装了,用这些数据你可以处理某些问题。直接查询数据的不是数据服务。后来看了《大数据之路-阿里巴巴大数据实践》的第六章,阿里服务架构演进,思路被打开了。最简单的数据服务,接口应该是直接调用,就返回结果。复杂的接口,应该还支持传参,可以从多个结果中选择一个结果。更复杂的接口,传入的参数还可以参与接口内的逻辑运算。那是否还可以设计个更复杂的结构,直接传入完整的计算逻辑,接口

2020-10-14 09:38:35 8501

原创 概述-元数据是什么?

元数据是什么?元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。—— 百度百科元数据就是描述数据的数据。按照百度百科的描述前一个数据应该是指数据仓库中的各种表里的数据,后一个数据应该是指表结构、表对应的HDFS里的文件信息,如果有自建的开发工具,应该还包括表字段的一系列配置属性,如描述、是否废弃、是否枚举字段、安全等级等等。提到元数据的人

2020-10-13 09:48:47 2850

原创 概述-数据治理是什么

数据治理是什么?有一个定义我特别喜欢,所有能提升数据价值的管理行为都是数据治理。提升数据价值我觉得有两种方式,一种是降低成本,一种是增加产出。降低成本指降低数据的生产、使用、维护成本,这些成本体现在硬件、软件、人力、时间成本上。增加产出是指提高数据的准确性、全面性,扩大数据的应用范围、提供更有洞察性的数据内容。硬件成本上,主要是计算成本和存储成本。存储比较便宜,我认为能用存储解决的问题都不是问题。可以避免保存无意义的重复数据,但一般情况下还是不要删除数据,这里抠不出多少成本,万一删错了损失就大了

2020-10-13 09:32:00 468

原创 概述-数据中台是什么

数据中台是什么?自从老马提出数据中台的概念以来,有太多的人进行了不同角度的解读。看多了,我慢慢明白了,没有标准答案。但大部分人说的时候有一点基本上是都认同的,就是大中台小前台。核心就是专业的人,做专业的事,可以降低成本,提升效率,更深入的去解决更复杂、更有技术性的问题,所以我觉得数据中台的本质还是分工。将原本很长的数据生产链条,原本由一个人去做全部的事情,变成多个人做其中的一部分事情,然后每一个人是其他人的上游和下游相互协作。分工协作的好处,大家都知道,不知道的搜一搜也就知道了。所以我觉得只要

2020-10-12 12:40:49 1021

原创 概述-数据建模是什么?

数据建模是什么?模型是指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式。——MBA智库百科数据模型是现实世界数据特征的抽象,用于描述一组数据的概念和定义。——MBA智库百科数据建模是指建立数据模型,模型是一种抽象化的表达方式,数据模型是用数据进行表达的抽象化的事物、规律。很长一段时间我对建模这个概念一直无法明确,搞数据的一天不说几次建模,感觉都像没做事一样。所以我很心虚、紧张,迫切的想知道建模到底是什么。看了那么多对建模和数据模型的解释,一直晕晕乎乎,似懂非懂。后来没办法,我只

2020-10-12 11:35:59 3472 1

原创 概述-大数据是什么

大数据是什么?前几年火的时候,是个公司,三句不离大数据。可到底啥是大数据?我觉得提大数据的时候,应该说的是大量数据和业务新的要求下,如何更好的处理的技术解决方案。大数据分两部分,一部分是数据形态上(大量、多样),一部分是支持这些数据满足业务要求的技术(Hadoop生态圈)是在新的要求之下传统数据仓库已经无法很好地满足需要,提出的新的解决方案。IBM的5V特点概括的还是很准确的。Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性

2020-10-11 14:18:09 271

原创 概述-数据仓库是什么

数据仓库是什么?我以前一直把数据库和数据仓库弄混,因为我根本无法区别两者之间到底是什么差异,什么关系。尤其是中文名上几乎是相同的含义。库不就是仓库吗?数据库不就是存放数据的仓库吗?那为什么数据库和数据仓库是两个东西呢?数据库的英文是database,数据仓库的英文是data warehouse,都是国外传过来的,英文上差异还是不小的,至少不会弄混。估计中文翻译database的时候讲求神似,翻译成了数据库,非常准确好理解。结果碰到data warehouse只能直译数据仓库了。后来随着对这块的接触,慢

2020-10-11 13:26:19 392

原创 概述-数据是什么

2020年10月10日

2020-10-10 18:27:38 953

原创 学习_011_Hive在大数据分析和大数据仓库中应用实战&玩转大数据之Hive应用实战

课程说明项内容课程类型视屏教程内容类型Hive课程名称Hive在大数据分析和大数据仓库中应用实战 / 玩转大数据之Hive应用实战地址https://edu.youkuaiyun.com/course/detail/25043 / https://edu.youkuaiyun.com/course/detail/8350分钟900 + 600费用199 + ...

2019-09-22 13:29:33 491

原创 学习_011_hive视屏教程(上)

课程说明项内容课程类型视屏教程内容类型Hive课程名称Hive视屏教程(上)地址https://edu.youkuaiyun.com/course/detail/20038分钟500费用免费学习心得课程目录和概要...

2019-09-17 17:57:34 183

原创 学习_010_Hadoop权威指南

课程说明项内容课程类型书籍内容类型Hadoop课程名称Hadoop权威指南地址https://item.jd.com/12109713.html页数700费用110学习心得课程目录和概要...

2019-09-08 12:43:05 279

原创 学习_009_Hadoop大数据实战开发

课程说明项内容课程类型视屏课程内容类型Hadoop课程名称Hadoop大数据实战开发地址https://edu.youkuaiyun.com/course/detail/24831时长2400费用免费学习心得课程目录和概要...

2019-09-01 12:01:36 257

原创 学习_008_Hadoop从初级到高手

课程说明项内容课程类型视屏课程内容类型Hadoop课程名称hadoop从初级到高手地址https://edu.youkuaiyun.com/course/detail/6841时长1500费用免费课程目录和概要学习心得...

2019-08-21 19:08:31 187

原创 学习_007_大数据零基础入门视频教程精品课程&项目管理

课程说明项内容课程类型视屏课程内容类型Hadoop课程名称大数据零基础入门视频教程精品课程+项目管理(四部分)地址https://edu.youkuaiyun.com/course/detail/24838 ---- https://edu.youkuaiyun.com/course/detail/5886 ---- https://edu.youkuaiyun.com/course/...

2019-08-19 19:03:48 379

原创 学习_006_Hadoop学习从零到一系列课程(3):YARN和MapReduce精讲

课程说明项内容课程类型视屏课程内容类型Hadoop课程名称Hadoop学习从零到一系列课程(3):YARN和MapReduce精讲地址https://edu.youkuaiyun.com/course/detail/2343时长86费用会员免费课程目录和概要学习心得...

2019-08-18 15:03:15 154

原创 学习_005_Hadoop学习从零到一系列课程(2)---HDFS精讲

课程说明项内容课程类型视屏课程内容类型通用课程名称Hadoop学习从零到一系列课程(1)地址https://edu.youkuaiyun.com/course/detail/2153时长75费用会员免费课程目录和概要学习心得...

2019-08-18 13:40:26 152

原创 学习_004_Hadoop学习从零到一系列课程(1)

课程说明项内容课程类型视屏课程内容类型通用课程名称Hadoop学习从零到一系列课程(1)地址https://edu.youkuaiyun.com/course/detail/2153时长80费用会员免费课程目录和概要学习心得...

2019-08-18 12:33:42 169

原创 学习_003_大数据的入门视频教程

课程说明列内容课程类型视屏课程内容类型通用课程名称大数据的入门视频教程地址https://edu.youkuaiyun.com/course/play/8957/185351时长80费用会员免费课程目录和概要学习心得...

2019-08-17 18:42:48 143

原创 学习_002_大数据行业概述及课程介绍

课程说明列内容课程类型视屏课程内容类型通用课程名称大数据行业概述及课程介绍地址https://edu.youkuaiyun.com/course/play/8090时长30费用免费课程目录和概要学习心得...

2019-08-17 17:46:14 165

原创 学习_001_大数据工程师学习指南

课程说明列内容课程类型视屏课程内容类型通用课程名称大数据工程师学习指南地址https://edu.youkuaiyun.com/course/detail/8215时长60费用免费重点内容摘抄课程内容再述学习心得...

2019-08-15 09:17:15 240

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除