大数据入门指南（GitHub开源项目）

最新推荐文章于 2025-04-18 08:05:11 发布

weixin_34236869

最新推荐文章于 2025-04-18 08:05:11 发布

阅读量933

点赞数

文章标签：大数据 java shell

原文链接：http://blog.51cto.com/14183932/2410709

版权

项目GitHub地址：https://github.com/heibaiying/BigData-Notes

前言

大数据技术栈思维导图
大数据常用软件安装指南

一、Hadoop

分布式文件存储系统——HDFS
分布式计算框架——MapReduce
集群资源管理器——YARN
Hadoop单机伪集群环境搭建
Hadoop集群环境搭建
HDFS常用Shell命令
HDFS Java API的使用
基于Zookeeper搭建Hadoop高可用集群

二、Hive

Hive简介及核心概念
Linux环境下Hive的安装部署
Hive CLI和Beeline命令行的基本使用
Hive 常用DDL操作
Hive 分区表和分桶表
Hive 视图和索引
Hive常用DML操作
Hive 数据查询详解

三、Spark

Spark Core :

Spark简介
Spark开发环境搭建
弹性式数据集RDD
RDD常用算子详解
Spark运行模式与作业提交
Spark累加器与广播变量
基于Zookeeper搭建Spark高可用集群

Spark SQL :

DateFrame 和 DataSet
Structured API的基本使用
Spark SQL外部数据源
Spark SQL常用聚合函数
Spark SQL JOIN 操作

Spark Streaming ：

Spark Streaming 简介
Spark Streaming 基本操作
Spark Streaming 整合 Flume
Spark Streaming 整合 Kafka

四、Storm

Storm和流处理简介
Storm核心概念详解
Storm单机环境搭建
Storm集群环境搭建
Storm编程模型详解
Storm项目三种打包方式对比分析
Storm集成Redis详解
Storm集成HDFS/HBase
Storm集成Kafka

五、Flink

TODO

六、HBase

Hbase 简介
HBase系统架构及数据结构
HBase基本环境搭建(Standalone /pseudo-distributed mode)
HBase集群环境搭建
HBase常用Shell命令
HBase Java API
Hbase 过滤器详解
HBase 协处理器详解
HBase 容灾与备份
HBase的SQL中间层——Phoenix
Spring/Spring Boot 整合 Mybatis + Phoenix

七、Kafka

Kafka 简介
基于Zookeeper搭建Kafka高可用集群
Kafka 生产者详解
Kafka 消费者详解
深入理解Kafka副本机制

八、Zookeeper

Zookeeper 简介及核心概念
Zookeeper单机环境和集群环境搭建
Zookeeper常用Shell命令
Zookeeper Java 客户端——Apache Curator
Zookeeper ACL权限控制

九、Flume

Flume简介及基本使用
Linux环境下Flume的安装部署
Flume整合Kafka

十、Sqoop

Sqoop简介与安装
Sqoop的基本使用

十一、Azkaban

Azkaban简介
Azkaban3.x 编译及部署
Azkaban Flow 1.0 的使用
Azkaban Flow 2.0 的使用

十二、Scala

Scala简介及开发环境配置
基本数据类型和运算符
流程控制语句
数组——Array
集合类型综述
常用集合类型之——List & Set
常用集合类型之——Map & Tuple
类和对象
继承和特质
函数 & 闭包 & 柯里化
模式匹配
类型参数
隐式转换和隐式参数

十三、公共内容

大数据应用常用打包方式

后记

资料分享与开发工具推荐

项目GitHub地址：https://github.com/heibaiying/BigData-Notes

转载于:https://blog.51cto.com/14183932/2410709

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34236869

关注关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大数据学习指南从入门到精通

Lansonli（蓝深李）的博客

05-21

2万+

利用框架的力量，看懂游戏规则，才是入行的前提大多数人不懂，不会，不做，才是你的机会，你得行动，不能畏首畏尾选择才是拉差距关键，风向，比你流的汗水重要一万倍，逆风划船要累死人的为什么选择学习大数据开发，不选择Java开发？借棋弈做比喻，智商高的不要选择五子琪，要选择围棋，它能长久地吸引你。不都是在棋盘上一颗黑子一颗白子地下吗?因为围棋更复杂，能够掌握如此复杂的技艺、产生稳定输出的棋手、让我们更佩服。选择学习大数据开发也如此，能让你的职业生涯走得更远，少走弯路。

大数据入门指南

weixin_45417821的博客

08-06

782

这是分享gitee 上的一份大数据入门指南，上面详细介绍了，从大数据入门到各项技术的应用对于初学大数据的小伙伴，非常有帮助，建议收藏起来慢慢查看 https://gitee.com/open-resource/BigData-Notes/

参与评论您还未登录，请先登录后发表或查看评论

资源list：Github上关于大数据的开源项目、论文等合集

weixin_33946020的博客

01-04

448

Awesome Big Data A curated list of awesome big data frameworks, resources and other awesomeness. Inspired byawesome-php, awesome-python, awesome-ruby, hadoopecosystemtable & big-data. Your contr...

大数据入门学习必备指南

qq_43615134的博客

11-24

1474

大数据方向的工作目前分为三个主要方向: 01.大数据工程师 02.数据分析师 03.大数据科学家 04.其他（数据挖掘本质算是机器学习，不过和数据相关，也可以理解为大数据的一个方向吧）一、大数据工程师的技能要求二、大数据学习路径三、学习资源推荐（书籍、博客、网站）一、大数据工程师的技能要求推荐一个大数据学习群 142973723每天晚上20:10都有一节【免费的】大数据...

大数据入门成长指南

kuai_jiaochuan的博客

04-03

244

1、Java编程技术 Java编程技术是大数据学习的基础，Java是一种强类型语言，拥有极高的跨平台能力，可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等，是大数据工程师最喜欢的编程工具，因此，想学好大数据，掌握Java基础是必不可少的。 2、Linux命令对于大数据开发通常是在Linux环境下进行的，相比Linux操作系统，Windows操作系统是封闭的操作系统，开...

【GitHub项目推荐--大数据】【转载】

j8267643的博客

01-28

775

这个标星 12.5K 的大数据入门指南，由开发者 @heibaiying 开源，该指南涉及 13 个章节，包括 Hadoop、Hive、Spark、Flink 等热门大数据技术栈。开源地址：https://github.com/heibaiying/BigData-Notes。

大数据学习必备 | 推荐几个牛X 的 github 项目，助你事半功倍

最新发布

老孙正经胡说

04-18

798

Github 2024-08-16Java开源项目日报 Top10

老孙正经胡说

08-16

852

hadoopecosystemtable.github.io：该页面是一个摘要，用于跟踪Hadoop相关项目以及大数据领域的相关项目，这些项目侧重于开源，自由软件环境

02-28

Hadoop生态系统表该页面是一个摘要，用于跟踪Hadoop相关项目以及大数据领域的相关项目，重点是开放源代码，免费软件环境。

大数据超全面入门干货知识，看这一篇就够了！

xiaobaiyanghaowa的博客

02-26

6342

它是一个开源的分布式计算框架，让数据分散储存在多台计算机上，然后使用 MapReduce 的方法，将数据分成小块一块一块地处理，最后把结果汇总起来。有了 Hive，我们不需要学习新的编程语言，只需使用熟悉的 SQL，就能轻松地查询和分析海量的数据。大数据是当今社会的瑰宝，它让我们能够洞悉未知世界，做出更明智的决策。就像一个默契的团队一样，大数据组件们一起工作，使得数据处理变得更加高效、可靠，帮助我们揭开数据的神秘面纱。在大数据的世界里，有许多神奇的组，它们像齐心协力的小伙伴，一起为我们揭开数据的奥秘。

github入门教程（非常详细）从零基础入门到精通，看完这一篇就够了

logic1001的博客

11-25

1万+

如果你是一枚Coder，但是你不知道Github，那么我觉的你就不是一个菜鸟级别的Coder，因为你压根不是真正Coder，你只是一个Code搬运工。说明你根本不善于突破自己！为什么这么说原因很简单，很多优秀的代码以及各种框架源码都存放于github当中！

卜算子·大数据简介一个开源、成体系的大数据学习教程

王小雷-多面手

06-29

2577

第1章卜算子·大数据简介 “卜算子·大数据”，是一个开源、成体系的大数据学习教程。从基础数据采集到顶层架构设计。最新梳理出大数据知识体系共计12个部分，42个章节。每周日更新，金九银十际，助你上青天！本章主要内容: 特点 “卜算子·大数据”架构项目更新写作目的原创声明 1.1 特点 * 关于 * ——“卜算子·大数据”，其中“卜算子”是中国诗词中唯一包含计算、占卜、...

Hadoop详细入门知识

githubcurry

10-17

6139

现在的我们，生活在数据大爆炸的年代。2020年，全球的数据总量达到44ZB，经过单位换算后，至少在440亿TB以上，也就是说，全球每人一块1TB的硬盘都存储不下。扩展: 数据大小单位，从小到大分别是: byte、kb、mb、Gb、Tb、PB、EB、ZB、DB、NB...单位之间的转换都是满足1024一些数据集的大小更远远超过了1TB，也就是说，数据的存储是一个要解决的问题。同时，硬盘技术也面临一个技术瓶颈，就是硬盘的传输速度(读数据的速度)的提升远远低于硬盘容量的提升。

大数据平台搭建——hadoop集群，2024年最新毕业设计 github

2401_84185145的博客

04-08

1016

数同学面临毕业设计项目选题时，很多人都会感到无从下手，尤其是对于计算机专业的学生来说，选择一个合适的题目尤为重要。因为毕业设计不仅是我们在大学四年学习的一个总结，更是展示自己能力的重要机会。**

HDFS原理与代码实例讲解

AI智能涌现深度研究

06-12

217

背景介绍随着大数据时代的到来，海量数据处理成为现代计算系统的核心挑战。分布式文件系统(Hadoop Distributed File System, HDFS)应运而生，旨在提供高容错性、可扩展性和高性能的数据存储解决方案。本文将深入探讨HDFS的基本原理、核心概念及其代码实例，同时展示如何在实际场景中应用HDFS。

Hadoop生态圈（四）- HDFS数据存储与数据管理

程序园@大Null

01-13

5928

Hadoop常用文件存储格式，Hadoop支持的压缩算法，HDFS压缩如何抉择，压缩算法比较，HDFS存储类型和存储策略，冷热温三阶段数据存储，HDFS中的内存存储支持，HDFS存储策略命令，HDFS使用懒持久化存储策略，BigData File Viewer介绍、安装及功能，Hadoop丰富的存储格式，Text File，Sequence File，Avro File，RCFile，ORC File，Parquet File，ProtoBuf和Thrift，Arrow是如何提升数据移动性能的

8天大数据真实项目Spark电商离线和实时分析系统

02-06

项目一Spark离线处理本项目来源于企业级电商网站的大数据统计分析平台，该平台以 Spark 框架为核心，对电商网站的日志进行离线和实时分析。该大数据分析平台对电商网站的各种用户行为（访问行为、购物行为、广告点击行为等）进行分析，根据平台统计出来的数据，辅助公司中的 PM（产品经理）、数据分析师以及管理人员分析现有产品的情况，并根据用户行为分析结果持续改进产品的设计，以及调整公司的战略和业务。最终达到用大数据技术来帮助提升公司的业绩、营业额以及市场占有率的目标。本项目使用了 Spark 技术生态栈中最常用的三个技术框架，Spark Core、Spark SQL 和 Spark Streaming，进行离线计算和实时计算业务模块的开发。实现了包括用户访问 session 分析、页面单跳转化率统计、热门商品离线统计、广告流量实时统计 4 个业务模块。通过合理的将实际业务模块进行技术整合与改造，该项目几乎完全涵盖了 Spark Core、Spark SQL 和 Spark Streaming 这三个技术框架中大部分的功能点、知识点，学员对于 Spark 技术框架的理解将会在本项目中得到很大的提高。项目二Spark实时处理项目简介对于实时性要求高的应用，如用户即时详单查询，业务量监控等，需要应用实时处理架构项目场景对于实时要求高的应用、有对数据进行实时展示和查询需求时项目技术分别使用canal和kafka搭建各自针对业务数据库和用户行为数据的实时数据采集系统，使用SparkStreaming搭建高吞吐的数据实时处理模块，选用ES作为最终的实时数据处理结果的存储位置，并从中获取数据进行展示，进一步降低响应时间。

SpringBoot开源项目DrivingAgency快速入门指南

8. **文档**: 开源项目通常包含详细的文档，如README文件、开发指南、API文档等，以便其他开发者能够理解和使用该项目。 9. **单元测试和集成测试**: 为了保证代码质量，Spring Boot项目通常会包含单元测试和集成...