大数据博客，资源汇总

原创已于 2022-04-26 15:28:34 修改 · 988 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#数据可视化 #数据库 #云计算

于 2016-11-03 20:06:43 首次发布

热门技术专栏收录该内容

18 篇文章

订阅专栏

博客

HDFS、Mapreduce、HBase、Hive、HUE、Pig、Sqoop、Flume、Zookeeper

网站

五分钟学大数据

Hadoop

HDFS+MapReduce+Yarn 。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算条件。
HDFS的shell操作（常用命令和参数）
HDFS的Java应用开发（数据采集、存储、文件）
MapReduce编程（规范、运行、调试）
MapReduce计算程序（排序、分区、优化）

围绕Hadoop数据库开发的一系列重要工具，比如HBase、Hive、Flume等，主要是训练数据的清洗、处理、分析的技能。
HBase数据操作（读、写、更新）、基本架构
Hive数据存储与计算（表搭建、分区、查询、函数）
Flume&Sqoop采集、导出系统实现
Pig进行数据处理与数据分析

Hadoop中Text类型与 String的区别

Spark

HBase

JavaAPI操作

Hive

查询、函数、视图

Storm

其他

Sqoop&Flume（数据采集），Pig、HUE、HA。
HUE可视化管理（与HBase、Hive集成）
HA集群：Zookeeper搭建高可用的集群环境

Community

数据挖掘

公开数据集

CRAWDAD
UCI Machine Learning Repository
Stanford Large Network Dataset Collection
SIGKDD - KDD Cup （这个是目前数据挖掘领域最有影响力、最高水平的国际顶级赛事）
NYC Open Data
Lending Club Statistics | LendingClub
Citi Bike System Data | Citi Bike NYC
Stack Exchange Data Explorer
阿里天池大赛
Kaggle有数据，有比赛，还有奖金