目录
前言
唉,最近有点迷茫,本着迷茫就多看书、多学习的原则,于是就来学学【大数据】。说起【大数据】这玩意,我有点对自己感到无语。此话怎讲呢?且听我说。
此前,我一直在思考一个问题,那就是【我能用大数据给我公司做什么】。对啊,能做什么,这是个问题。但更大的问题是:我是一个大数据外行,只曾听闻过大数据3个字,却从未对它有过系统性了解,所以我连【大数据是什么】都不知道就去思考【能做什么】,这不是来搞笑的吗?
我不知道我有没有给大家描述清楚我的错误认知。对于临近30的我,发现自己做很多事情并没有什么章法,我想等到那天失业了我可能真就成一个xx了。幸好我也逐渐意识到了问题所在,现在正在尽可能地去改善这一点。
阅读对象
小白。我自己也是小白
阅读导航
标题 | 链接 | |
---|---|---|
系列上一篇 | 无 | 无 |
系列下一篇 | 无 | 无 |
前置知识
本文内容多选自《大数据 [ 百度百科 ] 》
笔记正文
一、什么是大数据
1.1 定义
- 麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征
- 我自己的定义:大数据是一门旨在研究如何在巨大的数据集中高效地存储、处理、分析和提取价值的学科
- 百度百科节选:大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作是一种产业,那么这种产业实现盈利的关键在于,提高对数据的加工能力,通过加工实现数据的增值
1.2 特点
用4个V
来表示:(案例建议联想微博、抖音、12306等场景)
- Volumn-大量(1V): 像现在的一些大电商、大的社交平台、自媒体平台等他们的数据都是海量的,数据量大到远超过当前传统数据库工具的处理能力。以我们最为常用的Mysql数据库为对比,HBase组件设计的目的是为了存储以及检索数百万行*数十万列 的巨量数据集。这样量级的数据集,对于MySQL数据库来说,就算是分库分表,也很难处理如此大的数据集
- Velocity-高速(2V)&#