- 博客(5)
- 收藏
- 关注
原创 记一次Spark Job碰到的问题
shuffle read的时候数据的分区数则是由spark提供的一些参数控制。可以想到的是,如果这个参数值设置的很小,同时shuffle read的量很大,那么将会导致一个task需要处理的数据非常大。shuffle write的分区数由上一阶段的RDD分区数控制,shuffle read的分区数则是由Spark提供的一些参数控制。数据倾斜,导致某个分区数据量巨大(因为要做分区器,所以数据倾斜也没有办法),解决办法就是给大的Key加前缀,随机发到不同的分区。的错误,也就是executor lost的意思。
2022-09-23 19:15:44
416
原创 表锁和行锁
所以加过排他锁的数据行在其他事务种是不能修改数据的,也不能通过forupdate和lockinsharemode锁的方式查询数据,但可以直接通过select…响应的行上的,要是对应的SQL语句没有走索引,则会全表扫描,行锁则无法实现,取而代之的是表锁,此时其它事务无法对当前表进行更新或插入操作。如果用户A在进行了上述操作后,事务还未提交,则B无法对2~6之间的记录进行更新或插入记录,会阻塞,当A将事务提交后,B的更新操作会执行。,其它事务可以读取,但不能进行更新和插入操作。其他进程会堵塞读和写。...
2022-07-23 16:55:19
212
原创 在使用 shell脚本,结果hadoop命令没找到
在写DataX的全量更新的脚本,结果报的错误,后面发现原因是将系统变量$PATH作为变量传入,导致的错误即将改成即可。
2022-07-06 13:55:12
604
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人