大数据
文章平均质量分 71
prince wong
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据7、数据仓库开发
本系列为大数据学习个人笔记,如有错误,欢迎指正,也欢迎各路朋友交流讨论。数据仓库数据库和数据仓库对比数据中心数据平台数据湖引用维基百科的解释:数据湖(英语:Data Lake),是指使用大型二进制对象或文件这样的自然格式储存数据的系统[1] 。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV,日志,XML, JSON),非结构化数据 (电子邮件、文件、P原创 2022-06-10 20:00:00 · 913 阅读 · 0 评论 -
大数据6、Apache Sqoop及ZooKeeper简介
本系列为大数据学习个人笔记,如有错误,欢迎指正,也欢迎各路朋友交流讨论。What is Sqoop?Sqoop 导入导出的原理剖析从RDB导入数据到HDFS导出数据从HDFS到RDBZooKeeper介绍ZooKeeper典型应用场景ZooKeeper的数据结构...原创 2022-06-08 20:00:00 · 370 阅读 · 0 评论 -
大数据5、NoSQL综述和Apache HBase基础
本系列为大数据学习个人笔记,如有错误,欢迎指正,也欢迎各路朋友交流讨论。What is NoSQL?Relational vs. NoSQLWhat Are Tradeoffs from NoSQL?(什么是NoSQL的权衡)CAP Theory(理论)Eventually Consistency(最终的一致性)Key-Value StoresDocument StoresWhat is Apache HBaseApache HBase Use CaseHBase数据的写入过程:HBase Architec原创 2022-06-06 20:00:00 · 253 阅读 · 0 评论 -
大数据4、Apache Hive基础实战
数据仓库数据仓库解决的问题What is Hive ?Hive 的优势和特点Hive DatabaseHive Tables对Hive表的三联问!!!原创 2022-06-02 20:00:00 · 267 阅读 · 0 评论 -
大数据3、MapReduce 编程模型基础和实战
本系列为大数据学习个人笔记,如有错误,欢迎指正,也欢迎各路朋友交流讨论。MapReduce是啥?MapReduce是一种计算模型,它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务用于大规模数据处理每个节点处理存储在该节点上的数据每个MapReduce作业都包含两个阶段MapReduce几点解释map阶段就是将原数据(存储在HDFS上的)按照处理的业务逻辑转换为key-value数据格式。reduce阶段,对map阶段处理完的数据进行汇总,然后按照需求进行处理原创 2022-06-01 22:00:00 · 622 阅读 · 0 评论 -
大数据2、Apache Hadoop 分布式文件系统
本系列为大数据学习个人笔记,如有错误,欢迎指正,也欢迎各路朋友交流讨论。NameNode:管理文件系统命名空间/元数据/文件块保存文件和数据块之间的映射关系一个文件对应多少个数据块,几乎不会发生变化保存每个 数据块 存储在 哪个 机器列表 DataNode上DataNode (DN):DN存储HDFS上的block文件块,在一个HDFS分布式文件系统里有多个DN存储和处理数据报告给NameNode,HDFS启动时会把DN的数据块汇报给NN在许多机器上运行Secondar原创 2022-05-27 17:25:19 · 201 阅读 · 0 评论 -
大数据1、大数据概况及Hadoop生态系统
本系列为大数据学习个人笔记,如有错误,欢迎指正,也欢迎各路朋友交流讨论。大数据特点:体量巨大,种类繁多,价值密度低,处理速度快。另外有两个固有特征:Time-based,时间属性。Immutable,数据真实性不变。数据分析:基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程。数据分析的四个步骤:需求分析,明确目标。收据收集,加工处理。数据分析,数据展现。分析报告,提炼价值。 一般大数据工程师工作重点在第二步,第三、四步是数据分析师、数据挖掘工程师的工作原创 2022-05-27 09:49:20 · 251 阅读 · 0 评论
分享