Pyspark
sisiel
厚积薄发
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
pyspark join 出现重复列的问题
设有两个dataframe:df1,df2 如果df3=df1.join(df2,df1.device_number=df2.device_number,"inner") df3就会出现两个相同列 device_number 此时改成df3=df1.join(df2,“device_number”,"inner") 就只有一个device_number了 如果想多列key则 df.j...原创 2020-02-27 10:34:35 · 3800 阅读 · 1 评论 -
VectorAssembler:java.lang.IllegalArgumentException: Data type string of column xx is not supported
使用pyspark 中的VectorAssembler出现报错 vectorAssembler = ft.VectorAssembler(inputCols=['cust_sex','cust_age'],outputCol='features') 查看输入数据类型 df1.printSchema() 发现输入的inputCols的字段类型是string,而这个函数只接受flo...原创 2020-01-03 17:42:49 · 3433 阅读 · 0 评论
分享