文章目录 1、极简样例代码 2、完整代码 2.1、下载链接 2.2、代码架构图(Maven工程) 2.3、效果打印 2.4、核心代码 2.4.1、Corpus:读取分词模型 2.4.2、Token:分词器 2.4.3、SparkToken:把SparkML和自写的中文分词器结合 2.4.4、LoadData:读取语料 2.4.5、NLP:文本分类 1、极简样例代码 Scala手写中文分词算法 继承org.apache.spark.ml.feature.Tokenizer,重写createTransformFunc 中文分词+TFIDF编码+逻辑回归 => 实现文本分类 import org.apache.spark.ml.feature.Tokenizer class Jieba(var w2f: Map[String<