
大数据基础
Pennhhe
对时间有耐心
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
1. Spark 调优
Tuning Spark 1. 数据序列化 1.1 Java 序列化 优点: 默认设置。 使用场景广。无需特殊设置。 缺点 慢 1.2 Kycro 序列化 优点 快 压缩性高 缺点 并不是支持所有的序列化类型 需要手工设置 2. 内存调优 2.1 内存调优的关注点 对象使用的内存 访问对象的代价 垃圾回收 2.2 Java对象占用空间大的原因 对象头占有空间 ...原创 2019-05-02 12:35:54 · 141 阅读 · 0 评论 -
【Spark】2. RDD编程指南
1. 基本概念 RDD:分布式弹性数据集,能够并行处理,支持容错。 2. RDD的数据来源 2.1 并行集合 并行集合的元素会被拷贝到分布数据集中,能够被并行处理。 val data = Array(1, 2, 3, 4, 5) val distData = sc.parallelize(data) partions 分区数,把一个RDD分成多块 2.2 外部数据集 本地文件系统, HDFS ...原创 2019-05-24 16:06:23 · 205 阅读 · 0 评论 -
【Spark】RDD核心
1. RDD A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, partitioned collection of elements that can be operated on in parallel. This class contains the ...原创 2019-06-03 09:44:56 · 186 阅读 · 0 评论 -
【Spark】Spark集群模式
1. 组件 Spark applications 是在运行在集群上一系列独立的进程集合,由SparkContext进行调度。 SparkContext 能够连接以下几种集群管理:standlone cluster manafer,Mesos,Yarn。这些集群管理负责资源的分配。 一旦SparkContex连接上集群管理,Spark要求集群中的节点分配executors,executors 是...翻译 2019-06-03 10:38:48 · 239 阅读 · 0 评论 -
【大数据基础】1. Dataset
1. 简介 Dataset 是强类型的objects的集合,能够使用函数式和关系式并行的操作。Dataset还有一个名为DataFrame的无类型视图,DataFrame是Row的集合。 Dataset中的操作分为两种:transformation 和 action。transformation 是用于产生新的Dataset,action 触发计算并返回结果。 Dataset是懒加载的,只用act...原创 2019-07-11 13:19:25 · 1164 阅读 · 0 评论 -
【大数据基础】Datanode
Datanode 的实现 1. 数据块存储 1.1 数据节点的磁盘目录文件结构 ${dfs.data.dir} 数据目录 blocksBeingWritten 正在写的数据块,由客户端发起 current 已经写入的数据块 detach 配合升级的临时路径 tmp 数据块复制引发的,保存正在写的数据块 ${dfs.data.dir}/current HDFS数据块 met...原创 2019-07-18 15:13:30 · 290 阅读 · 0 评论 -
【大数据基础】HDFS
1. HDFS 1.1 特性 支持超大文件 检测和快速应对硬件故障 流式数据访问 简化的一致性模型 低延迟数据访问 大量潇的文件 多用户写入、修改文件 1.2 体系结构 namenode: 分布式文件系统中的管理者,负责管理文件系统命名空间,集群配置和数据块复制。 datanode: 文件存储的基本单元,以数据块的形式保存HDFS中文件的内容和数据块的数据校验信息 客户端和namenode...原创 2019-07-16 18:22:20 · 201 阅读 · 0 评论 -
【大数据基础】HBase
HBase 1. 概念 1.1 数据模型 表由行和列组成。表的单元格是行和列坐标的交集,他们有版本号。版本号是自动分配的时间戳。表的行键,表的主键,对表中的行进行排序。默认情况下,以字节为序,所有的表都通过主键进行访问。 每行的列被分组,形成列族。所有的列族成员有相同的前缀。temperature:air 和 temperature:dew_point 都是temperature列族的成员。 表的...原创 2019-07-19 14:22:02 · 199 阅读 · 0 评论