本文为内容聚合页面, 汇聚了个人工作学习过程中, 遇到的一些核心技术点, 感谢原博主的无私分享.
一. 运维篇
1、Linux
2、zabbix、ansible、nginx
朱双印个人日志
3、nginx
Nginx高性能Web服务器
4、docker系列
5、charles抓包(pc抓取app的接口请求)
6、终端复用器Tmux
7、Prometheus
8、CDH集群安装
9、Terraform
9、CDH集群运维专栏
10、git 使用
二. 大数据篇
2.0 大数据面试题汇总
0、综合面试题
1、大数据中关于Java这块的面试总结
2、Hadoop
2.1 Hadoop Core
1、Hadoop知识体系
2、Hadoop架构&docker中运维hadoop
3、Hadoop调优
- yarn资源调优的几个参数
- YARN ResourceManager重启作业保留机制
- YARN 内存参数详解
- CDH集群调优:内存、Vcores和DRF
- HDFS中的集中缓存(Centralized Cache Management in HDFS)
- hadoop 调优措施 调优参数
2.2 Hive 数据仓库
1、大数据数仓结构体系&构建流程
- 数仓1.1 | 概述| 集群环境搭建
- 数仓1.2 分层| ODS& DWD& DWS& ADS| 行为数仓
- 数仓1.2-1大数据(0b)离线数据仓库
- 数仓1.3 行为数据| 业务数据需求
- 数仓1.4 |业务数仓搭建| 拉链表| Presto
》!企业【数据仓库构建】专题
》维度建模专题
- 数据仓库(二)之kimball维度建模篇
- 星型模型和雪花型模型比较
- 宽表和窄表的区别
- 维度表,实体表,事实表之间的关系
- 数据仓库中维度建模
- 漫谈数据仓库之维度建模
- 什么是全量表,增量表,快照表,拉链表?
- 漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
- !!!Hive之数仓的分层及建模理论
》Hive语法使用
- hive中的lateral view 与 explode函数的使用
- Hive:Alter Table/Partition/Column
- hive正则表达式的用法
- hive 表中加载数据、hive表中的数据导出
》数据库建模专题
一般有PowerDesigner、DataModeler、Excel、Visio等工具
将业务数据表间的关系直观的设计、并进行显示,和数据库反向工程开发。
》ETL专题
》数据治理-1
元数据管理 (全局数据视图 + 血缘分析)
- Wherehows调研总结(其他同类:Apache Atlas、 Cloudera Navigator Data Management )
- 大数据平台-元数据管理系统解析-蘑菇街实践过程分析
- Apache Atlas精讲:由浅入深,从概念,原理,使用,到自定义数据模型,生成血缘关系,带你玩转Atlas
》数据治理-2
元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、生命周期、数据安全9大体系
》数据治理-3
数据安全访问、行级分角色访问
》Hive调优专题
---------------------------------------------------
2、Hive SQL应用
3、Hive数据倾斜&解决方案
4、Hive 语法
5、Hive 原理层面
6、Hive / Hive on Spark / SparkSQL 区别
2.3 Spark
1、Spark系列
1 Spark教程
2 Spark的运行流程解读
3 Spark配置参数&submit调优
3 Spark 重要算子
4 Spark 重要流程底层原理剖析
- idea构建spark
- spark
2.4 Flink
环境 & 配置篇:
0、源码解读专题
- 通过Flink 程序模板来学习StreamExecutionEnvironment 、DataStream 、StreamTransformation类
- Flink window窗口机制探究–以tumbling windows为例(一)
1、Flink系列
1.1 Windows窗口处理专题
1.2 水印专题
- Flink assignAscendingTimestamps 生成水印的三个重载方法
- Flink WaterMark的生成以及获取
- 一文带你搞懂Flink Watermark
- Flink Time和Watermark的理解
1.3 各种场景的Sink
1.4 流应用场景
1.5. 综合
2、Flink1.13代码实现与笔记记录
2.5 数据湖
1、hudi
系列
2.6 分布式MQ - Kafka
1、Kafka系列
2、Kafka相关
3、如何保证kafka不丢数据?
2.7 Flume
1、数据重复、断点续传问题
2.8 智能推荐(AI-Rec)
1、Spark实时算法推荐
1.1 推荐
- 基于Spark机器学习和实时流计算的智能推荐系统
1.2 聚类 - Spark机器学习之-实时聚类算法调用
1.3 逻辑回归 - 基于spark_streaming的logistic流式机器学习
1.4 分类 - sparkMLib机器学习之分类算法
2.8 大数据生态-ETL
1-实时MySQL BinLog
1、MySQL binlog 基础操作
2、mysqlbinlog 工具分析binlog日志
3、MySQL Binlog解析
2-Sqoop1.x
2.9 Redis
1、Redis详解
三. Java
3.0 Java在线诊断工具
Arthas>>
3.1 Java Core Points
JUC高并发系列
多线程系列
- java多线程中sleep和wait的4个区别,你知道几个?
- 轻松学习java可重入锁(ReentrantLock)的实现原理
- 一文彻底理解ReentrantLock可重入锁的使用
- 一个线程执行synchronized同步代码时,再次重入该锁过程中,如果抛出异常,会释放锁吗?
- Java8中GC收集器详解
>java中的强/软/弱/虚引用
>HttpClient系列
- 后台发送请求,HttpClient的post,get各种请求,带header的请求
- HttpClient发送Post请求————StringEntity 和 UrlEncodedFormEntity 的区别
3.2 SpringCloud 微服务
1、SpringCloud
3.3 Java Interview
1、求职面试
- Java面试题全集(上)
- Java面试题全集(中)
- Java面试题全集(下)
- 《吊打面试官》系列-Redis常见面试题(带答案)
- 2019最全BAT资深Java面试题答案合集
- 【剑指offer】Java版代码(完整版)
- 廖志伟java小站
四. Scala
4.1 Scala Core Points
4.2 Scala基础专题
index.html 页:
Scala 基础
明细页:
- (1)Scala-简介,在windows上配置环境,在java上配置项目环境并创建项目
- (2)Scala之基本语法,流程控制
- (3)Scala之方法和函数的定义和调用
- (4)Scala之Array / List 数组和 Set 集合的定义,方法,遍历
- (5)Scala之元组和 Map 集合的定义 ,方法 ,遍历
- (6)Scala之集合中常用的方法
- (7)Scala之面向对象-类和对象(构造器/成员变量,方法,函数/apply方法),权限修饰符,特质和抽象类,样例类
- (8)Scala之高级语法-高阶函数,偏函数,匹配模式,柯里化详解,隐式详解,泛型(视图界定/上下文界定),比较器(Ordered/Ordering)
五. 数据结构
5.1 > 数据结构专题
5.2 > 排序算法专题
5.3 > HashMap专题
六. 编程语言
1、Python老猿Python博客文章目录索引
- 老猿Python博客文章目录索引
2、Python进阶系列 - py3study
七. 软件&工具
7.1 > JSON解析专题
7.2 > IDEA配置与插件安装
八. DB
8.1 > MySQL专题
- mysql中各种常见join连表查询实例总结
- MySQL里默认的几个库是干啥的?
- 【mysql元数据库】使用information_schema.tables查询数据库和数据表信息
- 缓冲池(buffer pool),这次彻底懂了!!!
- mysql采坑之count distinct多列
- MySQL
8.2 > ClickHouse
九. 数据安全
1、KMS
十. 人工智能
1、个人著作
十一. 程序人生
1、学习榜样