-Love-Coding-
ACL/NAACL/EMNLP/COLING审稿人,github.com/guotong1988
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark计算两列的编辑距离,先collect()一个列,再broadcast的方法,加速
【代码】Spark计算两列的编辑距离,先collect()一个列,再broadcast的方法,加速。原创 2025-02-21 09:18:57 · 63 阅读 · 0 评论 -
Spark报错,Task not serializable
objectA调用了objectB里面的一个方法methodB。objectB也调了objectA里面的一个方法methodA。可能是有两个Object:objectA,objectB。原创 2024-07-23 15:02:59 · 164 阅读 · 0 评论 -
Spark报错 No Encoder found for AnyVal
比如 这列的值有int也有float,就会报这个错。原创 2024-07-01 19:37:39 · 132 阅读 · 0 评论 -
【Spark】对array<bigint>类型的列里的null值填充
【代码】【Spark】对array<bigint>类型的列里的null值填充。原创 2024-06-05 07:07:27 · 394 阅读 · 1 评论 -
【Spark】直接从DataFrame的schema创建表
然后insert数据。原创 2024-06-04 16:20:41 · 637 阅读 · 2 评论 -
【Spark加速】加大hive表在HDFS存的分片文件大小
配置参数:spark.hadoop.hive.exec.orc.default.stripe.size=78643200spark.hadoop.orc.stripe.size=78643200spark.hadoopRDD.targetBytesInPartition=78643200spark.hadoop.hive.exec.dynamic.partition.mode=nonstrictspark.sql.sources.partitionOverwriteMode=dynamicspa原创 2024-05-26 10:22:22 · 188 阅读 · 0 评论 -
【Spark】调整hive表在HDFS存的每个文件的大小
【代码】hive表在HDFS的每个文件的大小。原创 2024-05-24 11:27:47 · 322 阅读 · 0 评论 -
【hive-SQL】多个column转成一个array<>类型的column
【代码】【hive-SQL】多个column转成一个array_column。原创 2024-05-09 14:47:23 · 233 阅读 · 0 评论 -
【hive-SQL】string 转成 map<>
【代码】【hive-SQL】string 转成 map<>原创 2024-05-09 14:38:38 · 470 阅读 · 1 评论 -
【hive-SQL】string 转成 array<>
【代码】【hive SQL】string 转成 array<bigint>原创 2024-05-09 14:27:18 · 1247 阅读 · 1 评论 -
pyspark drop_duplicates 报错 py4j.Py4JException: Method toSeq([class java.lang.String]) does not exist
【代码】pyspark drop_duplicates 报错 py4j.Py4JException: Method toSeq([class java.lang.String]) does not exist。原创 2024-03-15 14:32:52 · 280 阅读 · 0 评论 -
Spark, import java in scala, 报错 NoClassDefFoundError: Could not initialize class
在scala文件里import一个java文件,报错。很可能是import的这个java文件里的。里的代码的初始化问题。原创 2024-02-28 14:03:48 · 371 阅读 · 0 评论 -
报错 lambda expressions are not supported in -source (use -source to enable lambda expressions)
【代码】lambda expressions are not supported in -source 1.5 (use -source 8 to enable lambda expressions)原创 2024-02-28 11:19:59 · 178 阅读 · 0 评论 -
Spark,Scala,collect成一个string
【代码】Spark,Scala,collect成一个string。原创 2024-02-02 10:49:38 · 116 阅读 · 0 评论 -
Spark 读excel报错,scala.MatchError
【代码】Spark 读excel报错,scala.MatchError。原创 2024-01-12 08:59:39 · 330 阅读 · 0 评论 -
Spark 报错, Failed to find data source: com.crealytics.spark.excel
Spark3需引入jar包。原创 2024-01-11 16:20:12 · 473 阅读 · 0 评论 -
Spark orderBy OOM / 执行时间超长
排序的列里有NaN值(极大值),可能是 有除法里分母为0导致的。原创 2023-12-23 13:19:54 · 483 阅读 · 0 评论 -
Spark count() OOM
【代码】Spark Count() OOM。原创 2023-12-21 14:31:47 · 481 阅读 · 0 评论 -
spark报错,Could not execute broadcast in 7200 secs
【代码】spark报错,Could not execute broadcast in 7200 secs。原创 2023-11-01 11:42:29 · 290 阅读 · 0 评论 -
pyspark报错,gzip: stdin: unexpected end of file
要打的jar包太大了,打包失败了。原创 2023-10-23 15:37:05 · 554 阅读 · 0 评论 -
spark scala 训练 LogisticRegression
【代码】spark scala 训练 LogisticRegression。原创 2023-09-26 15:02:59 · 142 阅读 · 0 评论 -
spark scala 训练 XGBoost
【代码】spark scala 训练 XGBoost。原创 2023-09-26 14:59:03 · 209 阅读 · 0 评论 -
Spark,Scala, 取列里最小/最大的10%
rate列里最大10%rate列里最小10%原创 2023-09-22 11:23:59 · 142 阅读 · 0 评论 -
spark group by sum
【代码】spark group by sum。原创 2023-08-21 14:20:52 · 145 阅读 · 0 评论 -
pyspark报错,gzip: stdin: unexpected end of file
原因:整个jar包文件太大了。原创 2023-06-28 09:48:33 · 404 阅读 · 0 评论 -
java/scala 保留 中英文 数字 标点 空格
【代码】原创 2023-06-21 09:50:41 · 187 阅读 · 0 评论 -
pyspark报错,Executor heartbeat timed out
注意这几个参数的大小要一个比一个大,是spark内部的限制。原创 2023-06-15 09:12:27 · 593 阅读 · 0 评论 -
pyspark,把list转为dataframe
【代码】pyspark把list转为dataframe。原创 2023-06-13 16:50:29 · 507 阅读 · 0 评论 -
pyspark报错,An error occurred while calling o123.saveAsTable
内存溢出,OOM了。原创 2023-05-12 15:42:32 · 671 阅读 · 0 评论 -
Spark,union指定列名,否则可能串列!
【代码】Spark,union指定列名。原创 2023-05-09 10:34:15 · 166 阅读 · 0 评论 -
spark编译时 StackOverflowError at scala.tools.nsc.transform.Erasure$Eraser.adaptMember
存在import嵌套的问题。原创 2023-04-29 17:40:17 · 196 阅读 · 0 评论 -
pyspark 读tsv文件
【代码】pyspark 读tsv文件。原创 2023-04-27 11:36:20 · 158 阅读 · 0 评论 -
Spark 对每个groupby的每个group的string进行concat
concat_ws and collect_set原创 2022-11-24 11:02:19 · 1185 阅读 · 0 评论 -
Spark 报错 no Java class corresponding to Product with Serializable found
spark原创 2022-11-22 14:54:43 · 805 阅读 · 0 评论 -
Spark关于.rdd的速度优化
.rdd原创 2022-11-17 11:13:09 · 512 阅读 · 0 评论 -
Spark,控制输入 group by 的每个group的row数量
limit rows feed for each group原创 2022-11-03 19:49:39 · 587 阅读 · 0 评论 -
pyspark 报错 StructType can not accept object
pyspark原创 2022-10-27 10:11:54 · 466 阅读 · 0 评论 -
pyspark 报错 Can not infer schema for type
pyspark原创 2022-10-26 20:05:36 · 202 阅读 · 0 评论 -
pyspark 报错 Input row doesn‘t have expected number of values required by the schema
pyspark原创 2022-10-26 19:27:09 · 339 阅读 · 0 评论 -
spark报错:ClassCastException: cannot assign instance of SerializedLambda to field
spark3原创 2022-10-20 15:09:54 · 1589 阅读 · 0 评论