小胖墩儿686-优快云博客

转载 Spark任务中spark分区数、task数目、core个数、worker节点个数、excutor数量的确定

每一个过程的任务数，对应一个inputSplit1, Partition输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为InputSplit，注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。随后这些具体的Task每个都会被分配到集群上的某个节点的某.

2020-11-03 10:53:30 1395

原创 sqoop全量和增量导入数据实操

前言在Sqoop中，“导入”指：从非大数据集群（RDBMS）向大数据集群（HDFS，HIVE，HBASE）中传输数据，使用import关键字.这里采用mysql和hdfs.1.全量导入1.1在mysql中创建需要的表:CREATE TABLE order_table(order_id INT,buyer VARCHAR(20),mod_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP);这里的mod_

2020-10-29 11:43:36 1544 1

原创 kafka分区数量的确定和分区分配策略

1.分区数确定创建一个只有 1 个分区的 topic测试这个 topic 的 producer 吞吐量和consumer 吞吐量。假设他们的值分别是 Tp 和 Tc，单位可以是 MB/s。然后假设总的目标吞吐量是Tt，那么分区数=Tt / min（Tp，Tc）例如：producer 吞吐量=20m/s；consumer 吞吐量=50m/s，期望吞吐量 100m/s；分区数=100 / 20 =5 分区https://blog.youkuaiyun.com/weixin_42641909/article/d

2020-10-12 22:36:04 3424

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人