新人必须了解的大数据应用17个知识点汇总

本文总结了大数据应用的17个关键知识点,包括数据仓库和Mpp数据库选型、实时推荐实现、数据治理方法、日志分析框架选型、大数据平台运维监控、性能保障策略、数据预处理、数仓迁移规划、大数据与传统数仓对比、数据一致性、灾备方案、硬件要求、人才培养、用户画像构建、项目实施注意事项、企业级平台选型以及实时计算框架对比。内容覆盖了大数据的全链条,从基础到高级,适合大数据初学者和从业者参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

新人必须了解的大数据应用17个知识点汇总

 

一、大数据中的数据仓库和Mpp数据库如何选型?

在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto。Mpp架构的数据库主要用于即席查询场景,暨对数据查询效率有较高要求的场景,而对数据仓库的查询效率要求无法做大MPP那样,所以更多地适用与离线分析场景。

Hadoop已经是大数据平台的实时标准,其中Hadoop生态中有数据仓库Hive,可以作为大数据平台的标准数据仓库,

对于面向应用的MPP数据库,可以选择MYCAT(mySql的分布式架构)或是impala(基于Hive和Hbase),包括对称式和非对称式两种分布式模式

二、大数据分析中的实时推荐是如何实现的?

实时推荐需要使用实时处理框架结合推荐算法,从而做到对数据的实时处理和推荐。实时处理框架有Storm、Flink、SparkStreaming,组件可以对接Kafka,获取实时流数据,在实时框架内部实现对数据的处理过程。

1、实时推荐需要借助实时计算框架例如Spark或是Strom技术,

2、数据采集采用Flume+Kafka作为数据缓存和分发作用

3、同时还需要有非常适合的实时推荐算法,例如基于用户画像的实时推荐,或是基于用户行为的实施推荐、或是对商品相识度的实施推荐等不同的算法

新人必须了解的大数据应用17个知识点汇总

 

今天为大家整理了部分大数据学习教程与大家共享,每个人可以根据自己的需要来选择,需要的小伙伴可以+下学习资料分享裙 199加上427最后是210数字连起来就是了。

 

三、数据治理有何高效的处理方法或工具?

数据治理没有具体的工具和方法,这是一项浩大的工程,可能牵扯到每个部门,既有技术人员参与,又要有业务人员参与,关键时刻还要有领导进行决策。每个公司的数据情况不同,处理方法也不尽相同,基本的方法是有的,暨通过对数据的梳理(元数据、主数据),发现数据质量问题,再通过质量标准或组织协调的方式,对数据进行标准化处理的。

数据治理是一项人力和辛苦活,没有捷径和什么有效的工具,而且在一个大数据项目中,数据治理是非常重要的一个环节,因为只有数据质量满足前端应用需求,才有可能挖掘和分析出准确的结果。

具体数据处理方法还需要看实际业务情况,例如数据库、数据类型、数据规模等

数据治理的过程是一个对业务系统数据梳理的过程,过程中发现的问题会反馈给业务部门,同时还要制定统一的质量和稽核标准,就好比给每个业务系统数据生成线上增加一个质量监管员。

对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学关注猿学,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。

新人必须了解的大数据应用17个知识点汇总

 

四、大数据分析中针对日志分析的框架如何选型?

elk 常用组件, 上层业务封装还需要求其他组件完成

日志分析 elk + redi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值