浅谈大数据(一)

本文介绍了大数据的起源、定义以及关键组件如HDFS。大数据因其海量、多维和完备的特性,催生了分布式存储、数据资产管理等领域的创新。数据仓库、数据中台和数据湖作为数据管理的不同形态,各有特点。随着《个人信息保护法》的实施,大数据的合规使用也成为关注焦点。未来,数据管理将更加融合和智能,大数据将继续在各行各业发挥重要作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据之于网络时代,犹如石油之于工业时代。大数据即是在互联网时代,信息储存和处理能力飞跃发展之后的一个成果,蕴含着巨大的应用空间和商业价值。如今,随着大数据相关技术不断演进迭代,大数据技术已进入“后红海”时代,成了“水电煤”一样可以普惠人人的技术,并且成为各大企业公司攫取利益的重要工具。11月1日,已正式实施的《个人信息保护法》对“大数据杀熟”出重拳,大数据和算法再次成为行业内外讨论的热点。那么,我们今天就一起来盘一盘大数据。

什么是大数据?

21 世纪初 Web 2.0带来的互联网爆发性增长,当时 Google、雅虎等公司的数据量级已经远超单机可处理,并且其中大部分数据用传统的数据库基本无法处理,由此开始探索新型的数据存储和计算技术。在 2003-2006 年里,Google 发布了 GFS、MapReduce 和 Bigtable 内部研发成果论文,雅虎基于 GFS/MapReduce 论文建立了开源的 Hadoop 项目,为后续十多年大数据发展的奠定了基础。行业里通常以这个时期作为大数据的诞生。那么,究竟什么是大数据呢?

大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 

 ——百度百科

大数据(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 

——数据观

以上是两个较权威平台对于大数据的定义。此外,吴军在其《智能时代》中也表达了对于大数据的理解:所谓的大数据,一定要同时满足大量、多维和完备(相对来说)的特点,并在此基础上,最好具有“时效性”。

大数据的解决方案

近年来,云(Cloud)的兴起又使得大数据技术对于中小企业唾手可得,大数据技术得到迅猛发展,经过多年的发展,每个领域都有一定的进展和沉淀,各种大数据解决方案也应运而生。

大数据的技术体系介绍

· 分布式存储

分布式存储的典型代表是谷歌的GFS和Apache Hadoop的HDFS,均为支持多备份的Append-only文件系统。HDFS作为开源存储的奠基,其接口成为事实标准,同时HDFS又具备支持其他系统作为背后存储系统的插件化能力,本文以HDFS为例简要展开。

HDFS分布式储存架构

HDFS(Hadoop Distributed FileSystem)是一种专门为MapReduce这类框架下的大规模分布式数据处理而设计的文件系统。可以把一个大数据集(100TB)在HDFS中存储为单个文件,提供高吞吐量的数据存取。

NameNode:HDFS 元数据管理者,管理NameSpace(文件系统命名空间),记录文件是如何分割成数据块以及他们分别存储在集群中的哪些数据节点上。

DataNode :文件系统的工作节点。根据客户端或者NameNode 发送的管理指令,负责HDFS 的数据块的读写和检索操作。

Secondary Namenode:主要功能就是周期性将元数据节点的命名空间镜像文件和修改日志合并,以防日志文件过大。

Client: 用户与NameNode 或者DataNode 交互来访问整个文件系统的对象。

因HDFS早期NameNode在扩展性和容灾方面存在短板,各个公司也在这个基础上自研存储系统, 按照高吞吐、低成本、容灾、高可用是核心方向持续优化,推进了分布式存储的演进。当下,分布式存储向多层智能化演进。如何智能/透明的将数据存储分层,找到成本与性能的Trade-off,是多层存储系统的关键挑战。这领域起步不久,开源领域没有显著好的产品,最好的水平由几个大厂的自研数仓存储系统引领。欢迎感兴趣的朋友一起探讨。

· 数据资产管理

大数据技术的不断更迭带来更多的数据生产,数据量级的提升又催化了数据资产管理工具的不断升级。数据资产管理主要包含以下几个方面:

随着数据量的急剧攀升,也诞生一系列数据管理体系,数据仓库、数据湖、数据中台不绝于耳,它们之间到底有啥区别与关系呢?

数据仓库(Data Warehouse):是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和服务运营。数据仓库针对实时数据处理,非结构化数据处理能力较弱。

数据中台:通过对企业内外部多源异构的数据采集、治理、建模、分析和应用,使数据对内优化管理 提高业务价值 ,对外进行数据合作让业务价值得到释放,使之成为企业数据资产管理中枢。数据中台建立后,会形成数据API服务,为企业和客户提供高效各种数据服务。

数据湖(Data Lake):Pentaho的 CTO James Dixon提出来的,是一种数据存储理念——即在系统或存储库中以自然格式存储数据的方法。数据预先不进行定义,使用的时候按需定义。

关于数据仓库、数据中台以及数据湖的异同,可以通过如下表格简要对比:

对比

数据仓库

数据中台

数据湖

存储结构

面向主题

平面

平面

存储方式

结构化

结构化

非结构化

实施支持

一般不支持

支持

支持

预定义

需要

需要

不需要

安全性

一般

技术成熟度

成熟

成熟

不成熟

除了这三种近年来较火的数据管理规范,其特点及侧重点不尽相同,为了更好地发挥数据价值,未来数据管理趋于融合,同时也在不断创新。企业需根据自己的实际业务需求去选择哪种方案或融合方案。

数据的存储管理是大数据技术运用的核心和基础,本文暂且对数据存储及管理做简要阐述。下一期内容,我们将对数据应用分布式计算数据赋能推荐进一步分享。内容浅显,仅作抛砖引玉,希望和广大开发者共同探讨!

鼎道智联正在全力打造顾问式主动交互的操作系统,我们也真诚欢迎推荐算法工程师算法理论研究员大数据平台开发推荐策略产品经理等方面人才加入我们,一起建设Ding OS及鼎道生态。

简历投递邮箱:hiring@dingdao.com

(投递请注明岗位名称)

还有更多热招职位,如

系统研发工程师

桌面研发工程师

高级视觉设计师

ISV合作拓展商务经理

快快加入我们,一起共建新生态!


更多精彩内容推荐:

PWA能否成为未来?——探索构建面向未来的网络应用程序

浅谈大数据(一)

大数据,不只“懂数”,更要“懂行”

### 大数据分析理念与方法 #### 数据分析的理念 在大数据时代,数据分析的核心理念围绕着从海量数据中挖掘潜在的价值和洞察力展开。由于数据量的快速增长以及多样性的增加,传统的数据分析方式已无法满足需求[^1]。现代数据分析强调以下几个方面: - **以业务为导向**:数据分析不再仅仅是统计学的应用,而是紧密联系企业的实际运营目标,通过数据驱动决策支持企业战略发展。 - **实时性与动态调整**:鉴于数据更新速度快的特点,在大数据环境中,分析过程需要具备快速响应能力并能及时反馈结果以便于做出即时决策[^2]。 #### 常见的大数据分析方法 为了应对大数据带来的挑战,多种先进的技术和算法被引入到数据分析领域当中。以下是几种主要的方法及其应用场景描述: ##### 机器学习模型构建 利用监督学习、非监督学习或者强化学习等不同类型的机器学习技术建立预测模型或分类器。例如,随机森林(Random Forests)可用于客户流失预测;K-means聚类则适合发现市场细分中的隐含模式[^2]。 ```python from sklearn.cluster import KMeans import numpy as np X = np.array([[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]]) kmeans = KMeans(n_clusters=2).fit(X) print(kmeans.labels_) ``` ##### 文本挖掘与自然语言处理(NLP) 针对大量非结构化的文本资料(如社交媒体评论),采用NLP工具和技术进行语义理解和情感分析。这有助于品牌监测公众舆论趋势或是识别消费者偏好变化。 ##### 时间序列分析 对于金融交易记录或其他随时间连续产生的数值型变量集合,运用ARIMA(AutoRegressive Integrated Moving Average)之类的专门设计用于此类情况下的统计建模手段来进行未来走势预估[^1]。 ```r library(forecast) data <- ts(c(10, 20, 30), frequency = 12) model <- auto.arima(data) forecast(model, h = 5)$mean ``` ##### 可视化展示 借助专业的图表制作软件包比如Tableau 或者Python 的Matplotlib库把复杂抽象的结果转换成直观易懂的形式供相关人员解读参考。 ```python import matplotlib.pyplot as plt plt.plot([1, 2, 3, 4]) plt.ylabel('some numbers') plt.show() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鼎道开发者联盟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值