可以清楚看到,df.write().jdbc其实最后就是在foreachPartition里进行批量的insert。如果我们是往postgresql库里写的话,copy明显是比批量insert快的,所以写成
foreachPartition{
copy in
}
其实是比直接调用df.write.jdbc要快速的。
本文探讨了如何通过使用copy方法替代批量insert操作来提高PostgreSQL数据库的数据写入效率。对于Spark DataFrame写入PostgreSQL场景,采用foreachPartition配合copyin的方法能够显著提升性能。
可以清楚看到,df.write().jdbc其实最后就是在foreachPartition里进行批量的insert。如果我们是往postgresql库里写的话,copy明显是比批量insert快的,所以写成
foreachPartition{
copy in
}
其实是比直接调用df.write.jdbc要快速的。
725
386

被折叠的 条评论
为什么被折叠?