
大数据
猫头姐姐
知名互联网高级菜鸟全栈程序媛
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【scala】dataframe中增加一列自增id
import org.apache.spark.sql.functions._import org.apache.spark.sql.types._import org.apache.spark.sql._import org.apache.spark.rdd.RDD val schema: StructType = dataframeA.schema.add(StructField("id", LongType)) // DataFrame转RDD 然后调用 zipWithInde原创 2020-11-27 14:47:47 · 1827 阅读 · 0 评论 -
【scala】dataframe中增加一列
df中想增加一列数据import org.apache.spark.sql.functions._df.withColumn("column_name", lit("content"))原创 2020-11-20 12:01:22 · 2507 阅读 · 0 评论 -
【数据库】大数据量下优化on duplicate key update造成的性能问题
insert into xxx on duplicate key update xxx=xxx语句可以优秀地解决插入数据时产生的重复主键问题,前提是设置了正确的unique key。但在大数据量情况下(超过1w条),在duplicate key较少的情况下仍表现良好,遇到duplicate key较多的场景下,执行效率出现断崖式降低。为了解决此问题,优化点1:可采用先update再进行in...原创 2020-03-05 15:33:38 · 18061 阅读 · 1 评论