- 博客(3)
- 收藏
- 关注
转载 Spark任务中spark分区数、task数目、core个数、worker节点个数、excutor数量的确定
每一个过程的任务数,对应一个inputSplit1, Partition输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。随后这些具体的Task每个都会被分配到集群上的某个节点的某.
2020-11-03 10:53:30
1395
原创 sqoop全量和增量导入数据实操
前言在Sqoop中,“导入”指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,使用import关键字.这里采用mysql和hdfs.1.全量导入1.1在mysql中创建需要的表:CREATE TABLE order_table(order_id INT,buyer VARCHAR(20),mod_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP);这里的mod_
2020-10-29 11:43:36
1544
1
原创 kafka分区数量的确定和分区分配策略
1.分区数确定创建一个只有 1 个分区的 topic测试这个 topic 的 producer 吞吐量和consumer 吞吐量。假设他们的值分别是 Tp 和 Tc,单位可以是 MB/s。然后假设总的目标吞吐量是Tt,那么分区数=Tt / min(Tp,Tc)例如:producer 吞吐量=20m/s;consumer 吞吐量=50m/s,期望吞吐量 100m/s;分区数=100 / 20 =5 分区https://blog.youkuaiyun.com/weixin_42641909/article/d
2020-10-12 22:36:04
3424
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅