
大数据知识总结
文章平均质量分 94
面试知识总结
TUJC
这个作者很懒,什么都没留下…
展开
-
Redis/Mysql知识概述
Redis是完全开源免费的,是一个高性能的key-value数据库。原创 2022-07-24 18:31:06 · 488 阅读 · 1 评论 -
大数据调优总结
基于输出键的背景知识,进行自定义分区。例如,如果map输出键的单词来源于一本书。其中大部分必然是省略词(stopword)。那么就可以将自定义分区将这部分省略词发送给固定的一部分reduce实例。而将其他的都发送给剩余的reduce实例。.........原创 2022-08-12 15:59:26 · 2605 阅读 · 0 评论 -
Java知识点概要
java原创 2022-07-06 16:23:49 · 1203 阅读 · 0 评论 -
Hadoop知识概要
hdfs/mapredce/yarn/zookeeper原创 2022-07-07 19:49:51 · 2824 阅读 · 0 评论 -
Hbase/Hive知识概要
hbase,hive原创 2022-07-07 21:59:23 · 3171 阅读 · 0 评论 -
Kafka/flume知识概要
Kafka/flume概要原创 2022-07-08 08:55:18 · 1933 阅读 · 0 评论 -
Spark知识点概要
spark core/sql/streaing原创 2022-07-07 20:05:36 · 847 阅读 · 0 评论 -
Flink知识概要
Flink 是分布式实时和离线计算引擎,原创 2022-07-06 13:31:03 · 4483 阅读 · 0 评论 -
数据仓库知识概要
数据仓库原创 2020-03-17 14:57:37 · 2004 阅读 · 0 评论 -
HDFS--HBase
一、HDFS1、hdfs概述HDFS (全称Hadoop Distributed File System),即hadoop的分布式文件系统高容错(数据库blcok备份),可扩展, 适合存大文件,一次写入、多次读写 不能并发写入,不适合小文件,不能修改文件,不适合处理低延时的数据(HBase更好),hdfs dfs -put localpath hdfspath 上传文件常用命令hdfs dfs-help/-ls/-put/-get/-cat/-rm/-cp/-mkdir/-t...原创 2020-05-08 21:27:56 · 501 阅读 · 0 评论 -
HBase_总结
文章目录1、HBase的核心概念2、HBase的特点3、HBase的架构4、HBase存储数据结构5、HBase的安装部署6、HBase shell命令基本操作7、HBase的 Java API 操作8、HBase过滤器查询9、Hbase在实际场景中的应用10、Hbase读数据11、Hbase写数据12、region 拆分机制13、region预分区14、region 合并15、HBase集成Ma...原创 2020-04-06 11:36:40 · 600 阅读 · 0 评论 -
YARN总结
YARN资源调度系统hadoop:hadoop-2.6.0-cdh5.14.2 CDH版本文章目录YARN资源调度系统1. YARN概述2. YARN架构2.1 **ResourceManager**2.2 **NodeManager**2.3 Container2.4 **ApplicationMaster**2.5 Resource Request2.6 JobHistoryServe...原创 2020-02-24 08:58:45 · 332 阅读 · 0 评论 -
Spark数据倾斜调优总结
文章目录Spark数据倾斜调优1. 数据倾斜原理和现象分析2. spark中数据倾斜的解决方案2.1、方案一:使用Hive ETL预处理数据2.2、方案二:过滤少数导致倾斜的key2.3、方案三:提高shuffle操作的并行度(效果差)2.4、方案四:两阶段聚合(局部聚合+全局聚合)2.5、方案五:将reduce join转为map join2.6、方案六:采样倾斜key并分拆join操作2.7...原创 2020-02-24 07:23:18 · 554 阅读 · 0 评论 -
flink总结
文章目录0、flink是什么1、Flink特性2、flink部署运行模式3、获取source的方式4、 常见Transformation操作5、常见sink操作6、dataSet当中的广播变量7、累加器8、Flink的Table以及SQL9、Flink架构概述10、并行度、Slot、Task11、数据传输的方式12、Operator Chain的条件13、state状态14、checkpoint概...原创 2020-02-23 13:56:02 · 771 阅读 · 0 评论 -
ZooKeeper总结
文章目录1、ZooKeeper 是什么?2、ZooKeeper 提供了什么?**3、Zookeeper 文件系统****4、什么是ZNode**5、ZooKeeper事务6、zookeeper 是如何保证事务的顺序一致性的?7、ZooKeeper原子广播协议9、Watcher监视与通知10、Zookeeper 对节点的 watch 监听通知是永久的吗?为什么不是永久的?11、Hdfs HA 高可用...原创 2020-02-23 12:05:31 · 730 阅读 · 0 评论 -
Spark调优总结
Spark调优文章目录Spark调优1. 分配更多的资源2. 提高并行度3. RDD的重用和持久化4. 广播变量的使用5. 尽量避免使用shuffle类算子6. 使用高性能的算子7. 使用Kryo优化序列化性能8. 使用fastutil优化数据格式9. 调节数据本地化等待时长10. 基于Spark内存模型调优1. 分配更多的资源1.1 分配哪些资源executor-memory、exec...原创 2020-02-23 12:01:57 · 496 阅读 · 0 评论 -
spark总结
文章目录spark第一次课1、spark是什么2、spark四大特性3、简述spark与mapreduce的区别?3、spark集群的架构4、spark集群安装部署5、spark-shell(★★★★★)6、通过IDEA开发工具开发spark程序(★★★★★)spark第二次课1、rdd的概念2、rdd的五大属性(★★★★★)3、rdd的创建方式4、rdd的算子操作分类5、RDD常见的算子操作说明...原创 2020-02-23 10:43:41 · 1149 阅读 · 0 评论 -
hive总结
文章目录1、数据仓库的基本概念2、数据仓库与数据库区别3、数据仓库分层架构4、为什么要对数据仓库分层?5、Hive是什么6、hive简述8、用户接口:Client9、SQL语言的分类10、hive的几种表11、hive的底层执行引擎有3种12、分桶表13、导入导出数据14、having 与 where 不同点15、4个By区别5、cluster by = distribute by + so...原创 2020-02-22 16:21:46 · 935 阅读 · 0 评论 -
kafka总结
文章目录0、消息系统1、Kafka核心概念2、Kafka的特性3、 Kafka的使用场景4、Kafka集群架构5、Zookeeper对于Kafka的作用是什么?6、kafka的命令行的管理使用7、kafka的生产者和消费者api代码开发8、kafka分区策略9、如何保证同一分区一定有序10、kafka的文件存储机制11、Segment file是什么12、kafka如何保证消息消费的有序性呢?13...原创 2020-02-23 12:03:45 · 662 阅读 · 0 评论 -
1、HDFS总结
HDFS知识1、hdfs特点Hadoop中的分布式文件系统HDFS高容错(数据库blcok备份)可扩展,集群上,成本低适合存储大文件,不适合存储小文件,不适合处理低延时的数据(HBase更好),一次写入、多次读写,不支持多用户写入及任意修改文件2、HDFS命令hadoop fs -put localpath hdfspath 上传文件hado...原创 2020-02-23 12:12:38 · 343 阅读 · 0 评论 -
scala五种数据类型
类型 说明 默认定义 获取 导包,不定长 运算 遍历 1、 数组 Array 一组相同类型的值 val a=new Array[Int](10) valb=Array("h","s") a(0) : Int = 0 scala.collection.mut...原创 2020-02-23 12:17:56 · 447 阅读 · 0 评论