TD-IDF在spark中的使用(ml方式)

最新推荐文章于 2025-06-06 12:39:06 发布

原创

最新推荐文章于 2025-06-06 12:39:06 发布 · 4.2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#spark

本文通过一个完整示例，展示了如何在Spark中使用ml库实现TD-IDF，包括数据导入、处理和结果导出，最终获取Top3高权重关键词。

上一篇文章提到了TD-IDF的原理和大致使用方式, 现在我写了一个比较完整的例子来展示一下, 该例子包含了数据导入(为了统一, 将文件导入了数据库),处理, 以及结果导出功能.

import org.apache.spark.mllib.linalg.Vector
import com.zte.bigdata.vmax.machinelearning.common.{LogSupport, CreateSparkContext}
import org.apache.spark.ml.feature.{IDF, HashingTF, Tokenizer}
import org.apache.spark.sql.DataFrame
import org.apache.spark.sql.functions.{col, udf}
import scala.collection.mutable.ArrayBuffer
import org.apache.spark.mllib.feature.{HashingTF => MllibHashingTF}
import scala.util.Try
/*
* table_tf_idf表是输入表, 其结构为theme+content, content表示主题theme下的某一篇文章,
* 下图显示了一个主题, 其实有很多.
* 
* +--------------+--------------------+
* |         theme|             content|
* +--------------+--------------------+
* |comp.windows.x|From: chongo@toad...|
* |comp.windows.x|From: chongo@toad...|
* |comp.windows.x|From: steve@ecf.t...|
* |comp.windows.x|From: ware@cis.oh...|
* |comp.windows.x|From: stevevr@tt7...|
* ...
*/

class TFIDFModel extends CreateSparkContext {
   
   
// CreateSparkContext中包含sc, hc(sqlContext)的创建

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阳光洒落你窗前

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

大数据实战电商推荐系统（5）- 基于内容的相似商品推荐（TF-IDF算法）

qq_42754919的博客

08-13

1786

文章目录1.TD-IDF介绍2. 算法数据获取和处理以及环境的配置详见上一篇文章： https://blog.youkuaiyun.com/qq_42754919/article/details/119606604?spm=1001.2014.3001.5501 每个商品都有标签，标签可以大致的概括商品的特征，但是并不是所有的标签对商品的特征影响性大。因此本文首先使用TD-IDF算法计算每个标签对商品的权重，将最终计算出的特征值转化为稀疏向量，利用余弦相似度计算两个商品之间的相似程度，用于推荐相似的商品。 1.TD-

简单实现根据Td-idf实现语句相似度

Jipon

04-28

1275

假设两个语句已经分好词，计算两个向量的余弦相似度 public class Similar { public static String string; public static String str; public static double d; public static double getSimilarity(Vector T1, Vector T2) throws

3 条评论您还未登录，请先登录后发表或查看评论

1 条评论

qq_38875605 2019.02.19
请问一下，你有没有TF-IDF模型座进一步的应用，比如ALS推荐，kmeans聚类，高斯聚类什么的？

qq_30713201 2017.08.28
你好，这篇文章给我很多帮助！我还是想问一下，如何从HashingTF ID 获取原始词条～你能给多一点的提示和帮助吗？万分感谢！！！
- 阳光洒落你窗前回复qq_30713201 2017.09.04
  [reply]qq_30713201[/reply] 代码45-49行就是干这个事情的, 你可以自己实践下