- 博客(6)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 Spark RDD详解与优化
Spark RDD详解与优化Spark的特性RDD的五大属性Spark的运行模式Spark提交模式RDD的shuffleRDD的广播变量RDD的stage及宽窄依赖和血统RDD的persist、cache与checkpointSpark分布执行时的序列化问题Spark常见JDBChbase on Spark和Spark on hbaseCassandra on SparkSpark on hive和hive on SparkRDD的常用算子转换算子(其返回值为另一个RDD的算子)action算子(返回值非R
2020-09-03 06:59:18
762
原创 从应用场景谈HBase的框架、用法、结构与优化
从应用场景谈HBase的框架、用法、结构与优化目录从应用场景谈HBase的框架、用法、结构与优化基本的读写与检索基本读写API的操作Flush机制Compact机制Split机制检索布隆过滤器查询过滤器HBase操作的幂等性作为数据仓库的数据源(与hive整合)中文无法显示复杂查询大量数据直接加载HBase元数据存储难以保持一致大量中等大小文件存储提高RT(响应速度)开启in memory compaction实现细粒度的写添加ssd作为BucketCache的堆外内存异步化设计提高查询速度关闭Block
2020-08-26 04:43:57
477
1
原创 hive的框架及配置(参数传递、优化)
hive的框架及配置(参数传递、优化)目录hive的框架及配置(参数传递、优化)hive的框架用户接口层元数据Metastoredriver(hive核心驱动层)hive的RABChive的利用sentry进行权限管理hive的参数传递配置参数传递变量参数传递hive的优化配置hive的框架如图,hive的框架分为三部分:用户接口层包含CLI、thrift(用以连接JDBC)以及该图未显示的不常用接口web uiCLI可以直接通过命令行的行式对hive进行操作以及数据的DDL、DML操作th
2020-08-21 02:34:20
583
1
原创 Zookeeper进阶讲解
目录Zookeeper进阶讲解DataTree与znode什么是znodeDataTreeznode存的是什么znode的创建/查看/修改/删除znode种类(5种)Zookeeper集群的运行模式什么是SessionZookeeper的读写操作读操作(ls、get等)写操作(create、delete、set等)数据一致性znode的四种状态什么是observerZookeeper进阶讲解Zookeeper是Apache的一个开源分布式应用程序协调服务,主要用来在分布式环境下将协同服务封装并简单应用(
2020-08-19 08:48:50
272
原创 Hadoop安装及详解配置(附优化)
Hadoop安装及详解配置(附优化)目录Hadoop安装及详解配置(附优化)Hadoop的历史及版本选择Hadoop的安装Unix系统前置安装工作Hadoop安装Hadoop配置详解hadoop-env.shcore-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xmlHadoop的历史及版本选择由Hadoop之父Doug Cutting独立开发的Nutch为基础,结合了Google公司早期大数据三论文gfs/nfs/mapreduce发展而来目前包含原
2020-08-17 06:06:36
1153
原创 Hadoop客户端指令大全
Hadoop客户端指令大全目录Hadoop客户端指令大全指令风格说明hadoop fshdfs dfshadoop dfs基本格式说明指令详情fs开头1.x指令catchecksumchgrpchmodchowncopyFromLocalcopyFromLocalcopyFromLocaldudusexpungegetgetmergehelplslsrmkdirmovefromLocalmvputrmrmrsetrepstattailtesttexttouchz2.x指令appendToFilecount
2020-08-16 07:37:12
645
BP神经网络的预测Matlab程序
2018-12-26
【探讨】对于一个需要输入参数但从来没直接调用的方法,输入参数有什么可能的用途
2021-04-15
TA创建的收藏夹 TA关注的收藏夹
TA关注的人