大数据相关基础知识

本文详细介绍Apache Hadoop项目的核心模块,包括Hadoop Common、HDFS、YARN和MapReduce,以及大数据处理的四大关键步骤:采集、导入预处理、统计分析和数据挖掘。文章深入探讨了各阶段的特点和挑战,为读者提供了全面的大数据处理流程概览。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Apache Hadoop项目包括以下四个主要模块

(1)Hadoop Common:Hadoop的通用工具集

(2)Hadoop Distributed File System (HDFS):分布式文件系统

(3)Hadoop YARN:任务调度、集群资源管理框架

(4)Hadoop MapReduce:基于YARN的并行处理编程模型

 

 

大数据处理流程

(1)采集

利用多个数据库接受客户端(web、app、传感器等)的数据。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,需要在采集端部署大量数据库才能支撑,且如何在这些数据库之间进行负载均衡和分片是需要深入的思考和设计的。

(2)导入和预处理

将采集的数据统一的集中起来,并作出简单的处理与预处理结果。导人与预处理过程的特点和挑战主要是导人的数据量大,每秒的导人量经常会达到百兆,甚至千兆级别
(3)统计分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

(4)挖掘

与统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测( Predict )的效果,以便实现一些高级别数据分析的需求。比较典型算法有用于聚类的K 一Means 、用于统计学习的SVM 和用于分类的Naive Bayes ,主要使用的工具有Hadoop 的Mahout 等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,另外,常用数据挖掘算法都以单线程为主。数据来自各个方面,在面对庞大而复杂的大数据,选择一个合适的处理工具显得很有必要。工欲善其事,必先利其器,一个好的工其不仅可以使工作事半功倍,也可
以让人们在竞争日益激烈的云计算时代,挖掘大数据价值,及时调整战略方向。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值