
Scala
Scala
_沧海桑田_
ACL/NAACL/EMNLP/COLING审稿人,
MOD大侠梦/MOD禾下霸业作者。
github.com/guotong1988
展开
-
Spark计算两列的编辑距离,先collect()一个列,再broadcast的方法,加速
【代码】Spark计算两列的编辑距离,先collect()一个列,再broadcast的方法,加速。原创 2025-02-21 09:18:57 · 36 阅读 · 0 评论 -
fastjson,toJSONString代码实例
【代码】fastjson,toJSONString代码实例。原创 2024-07-18 17:09:03 · 114 阅读 · 0 评论 -
Java/Scala,去掉括号里的内容
【代码】Scala,去掉括号里的内容。原创 2024-07-15 16:43:55 · 152 阅读 · 0 评论 -
scala 编辑距离
【代码】scala 编辑距离。原创 2024-06-24 09:17:04 · 332 阅读 · 0 评论 -
【java/scala】regex/正则,保留英文/空格/中文/数字
【代码】【java/scala】regex/正则,保留英文和空格。原创 2024-06-20 11:37:12 · 244 阅读 · 0 评论 -
Spark, import java in scala, 报错 NoClassDefFoundError: Could not initialize class
在scala文件里import一个java文件,报错。很可能是import的这个java文件里的。里的代码的初始化问题。原创 2024-02-28 14:03:48 · 275 阅读 · 0 评论 -
spark scala 训练 LogisticRegression
【代码】spark scala 训练 LogisticRegression。原创 2023-09-26 15:02:59 · 119 阅读 · 0 评论 -
spark scala 训练 XGBoost
【代码】spark scala 训练 XGBoost。原创 2023-09-26 14:59:03 · 180 阅读 · 0 评论 -
Spark,Scala, 取列里最小/最大的10%
rate列里最大10%rate列里最小10%原创 2023-09-22 11:23:59 · 119 阅读 · 0 评论 -
java/scala 保留 中英文 数字 标点 空格
【代码】原创 2023-06-21 09:50:41 · 159 阅读 · 0 评论 -
scala 去除过滤掉emoji表情
(源码)原创 2023-03-21 09:42:29 · 114 阅读 · 0 评论 -
IDEA的maven配置不生效,还是很多不能import,刷新pom使生效
重新让pom文件刷新生效原创 2023-01-01 17:49:09 · 649 阅读 · 0 评论 -
Spark 对每个groupby的每个group的string进行concat
concat_ws and collect_set原创 2022-11-24 11:02:19 · 1122 阅读 · 0 评论 -
Spark 报错 no Java class corresponding to Product with Serializable found
spark原创 2022-11-22 14:54:43 · 768 阅读 · 0 评论 -
Spark关于.rdd的速度优化
.rdd原创 2022-11-17 11:13:09 · 493 阅读 · 0 评论 -
Spark,控制输入 group by 的每个group的row数量
limit rows feed for each group原创 2022-11-03 19:49:39 · 574 阅读 · 0 评论 -
scala 删除首字符 删除尾字符
注意String和Char不能判断是否相等原创 2022-10-26 14:15:03 · 97 阅读 · 0 评论 -
spark报错:ClassCastException: cannot assign instance of SerializedLambda to field
spark3原创 2022-10-20 15:09:54 · 1471 阅读 · 0 评论 -
spark, group by 同时 concat 其他字段,两种实现
group by concat原创 2022-09-23 17:17:50 · 729 阅读 · 0 评论 -
Spark,groupby之后加上repartition可以显著加快速度
dataDF.rdd.groupBy(row => row.getAs[Long]("the_key")) .repartition(2000).flatMap(pair => {原创 2022-08-26 10:28:43 · 519 阅读 · 0 评论 -
spark的两种groupby,一种不易OOM
spark不易OOM的groupby原创 2022-07-20 15:01:59 · 969 阅读 · 0 评论 -
spark,scala调用java代码,报错 NoClassDefFoundError + ClassNotFoundException
在pom.xml文件的<build>里要加上<sourceDirectory>src/main/scala</sourceDirectory><testSourceDirectory>src/test/scala</testSourceDirectory>原创 2022-05-18 09:09:47 · 611 阅读 · 0 评论 -
java/scala contains 英文
val pattern = new Regex(".*[A-Za-z]+.*") val result: Regex.MatchIterator = pattern findAllIn theInputString if(result.nonEmpty){ //contains }else{ // not contains }原创 2022-05-07 11:58:45 · 475 阅读 · 0 评论 -
Spark join 不等于 逻辑的坑
=!= 要和 === 一起加上 && 使用,否则相当于遍历所有row来判断 不等于,速度卡死。原创 2022-03-16 18:12:11 · 1816 阅读 · 0 评论 -
Spark 优化加速
把map之前的repartition()调大,感觉屡试不爽~~原创 2022-03-03 14:55:49 · 2013 阅读 · 0 评论 -
KL divergence 的 Scala 实现
val log2: Double = Math.log(2); val EPS = 1e-10 def klDivergence(p11: Array[Double], p22: Array[Double]): Double = { var klDiv: Double = 0.0; val p1 = p11.map(one => (one + EPS)) val p2 = p22.map(one => (one + EPS)) for (i <..原创 2022-02-19 09:25:19 · 153 阅读 · 0 评论 -
Spark,Scala,保存tensorflow-TfRecord到HDFS,示例
import org.tensorflow.example.Featuresimport org.tensorflow.example.Featureimport org.tensorflow.example.Exampleimport org.tensorflow.example.FloatList import org.tensorflow.example.Int64Listimport org.apache.hadoop.io.{BytesWritable, NullWritable}im原创 2022-01-15 20:30:17 · 820 阅读 · 0 评论 -
Spark,union无效
val df1 = hiveContext.sql( s""" |select | * | from tableName |""".stripMargin)df2.union(df1) // 无效,因为上面的select*不行,要具体指定select的列名原创 2022-01-06 19:53:52 · 908 阅读 · 0 评论 -
Spark,大规模jaccard距离join,笛卡尔积的复杂度,的速度优化逼近算法
有jaccard距离udf函数:def jaccardDistance = udf { (string1: String, string2: String) => var result = false val set1: Set[Char] = string1.toSet val set2: Set[Char] = string2.toSet val intersectSize = set1.intersect(set2).size.toFloat原创 2021-09-08 19:24:27 · 392 阅读 · 0 评论 -
Spark,大规模jaccard距离join,笛卡尔积的复杂度,的近似速度优化算法
有jaccard距离udf函数: def jaccardDistance = udf { (string1: String, string2: String) => var result = false val set1: Set[Char] = string1.toSet val set2: Set[Char] = string2.toSet val intersectSize = set1.intersect(set2).size.toFlo原创 2021-09-07 15:09:08 · 342 阅读 · 0 评论 -
Spark,Scala,saveAsTable存成orc格式的hive表
dataFrame.write.mode(SaveMode.Overwrite).format(“orc”).saveAsTable(“table_name”)原创 2021-08-23 11:08:42 · 843 阅读 · 0 评论 -
Spark超大规模wordcount,因group-by的有些key后面的values数量太大而OOM的解决方案
首先用mapPartitions统计每个partition里的word2count,相当于这时先把数据量切分成了500份:inputDF.rdd.repartition(500).mapPartitions然后再groupBymiddleDF.rdd.groupBy(row => row.getAs[String]("one_character")) .map( pair => { val oneCharacter = pair._1原创 2021-07-22 12:08:49 · 567 阅读 · 0 评论 -
scala 把一句话切成N-gram
"程序员的自我修养".sliding(2).foreach((one: String) => println(one))print结果:程序序员员的的自自我我修修养原创 2021-07-09 15:28:52 · 159 阅读 · 0 评论 -
Spark OOM 可能的内存溢出参数
spark.default.parallelism=6000 spark.sql.shuffle.partitions=6000时OOM,改为spark.default.parallelism=2000 spark.sql.shuffle.partitions=2000问题解决原创 2021-06-02 21:57:45 · 150 阅读 · 2 评论 -
Spark OOM 反而会内存溢出的参数设置
val hadoopConf = sparkContext.hadoopConfigurationhadoopConf.set("mapreduce.job.maps", 5000.toString)hadoopConf.set("mapreduce.job.reduces", 5000.toString)加上这三句反而容易内存溢出OOM原创 2021-06-02 20:00:14 · 176 阅读 · 0 评论 -
spark 代码只有join操作,最后只剩1个worker在跑
因为有很多次 大表和小表join,将小表broadcast即import org.apache.spark.sql.functions.broadcast原创 2021-05-25 16:34:16 · 303 阅读 · 0 评论 -
spark 将hive表保存为HDFS文件
object HiveTable2HdfsFile { def main(args: Array[String]): Unit = { val sparkSession = SparkSession .builder .appName("HiveTable2HdfsFile") .enableHiveSupport() .getOrCreate() sparkSession.sql( """ select * fr原创 2021-05-24 10:11:54 · 452 阅读 · 0 评论 -
spark scala 在worker出错处打印信息
try { // 出错处 } catch { case e: Exception => { println("信息!!!") System.out.flush() "ERROR".toInt } }原创 2021-05-14 09:33:59 · 247 阅读 · 0 评论 -
在spark往HDFS写string
val thePath = new Path(theHdfsPath) val hdfs = org.apache.hadoop.fs.FileSystem.get( new java.net.URI(THE_MASTER_URI), new org.apache.hadoop.conf.Configuration()) val writer = new PrintWriter(hdfs.create(thePath)) writer.println...原创 2021-05-13 11:40:48 · 247 阅读 · 0 评论 -
java scala print不输出 / 刷print缓存
println("!!!")System.out.flush() // NEW"STOP".toInt原创 2021-05-11 16:55:28 · 341 阅读 · 0 评论