自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

转载 Spark任务中spark分区数、task数目、core个数、worker节点个数、excutor数量的确定

每一个过程的任务数,对应一个inputSplit1, Partition输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。随后这些具体的Task每个都会被分配到集群上的某个节点的某.

2020-11-03 10:53:30 1395

原创 sqoop全量和增量导入数据实操

前言在Sqoop中,“导入”指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,使用import关键字.这里采用mysql和hdfs.1.全量导入1.1在mysql中创建需要的表:CREATE TABLE order_table(order_id INT,buyer VARCHAR(20),mod_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP);这里的mod_

2020-10-29 11:43:36 1544 1

原创 kafka分区数量的确定和分区分配策略

1.分区数确定创建一个只有 1 个分区的 topic测试这个 topic 的 producer 吞吐量和consumer 吞吐量。假设他们的值分别是 Tp 和 Tc,单位可以是 MB/s。然后假设总的目标吞吐量是Tt,那么分区数=Tt / min(Tp,Tc)例如:producer 吞吐量=20m/s;consumer 吞吐量=50m/s,期望吞吐量 100m/s;分区数=100 / 20 =5 分区https://blog.youkuaiyun.com/weixin_42641909/article/d

2020-10-12 22:36:04 3424

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除