【hadoop 03】mapreduce-TF-IDF案例

一、TF-IDF介绍

   TF-IDF全称为term frequency inverse document frequency 词频逆文本指数,是一种用于信息检索与数据挖掘的常用加权技术。

TF_IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级

公式: T F − I D F ( 词 汇 ) = T F ∗ D F = t n ∗ log ⁡ D d TF-IDF(词汇) = TF*DF = \frac{t}{n} *\log \frac{D}{d} TFIDF()=TFDF=ntlogdD
t: 某词汇在一个文本中出现的次数
n: 文本中词汇的总数量
D: 语料库中所有文本的数量
d: 语料库中对应词汇出现过的文本数量

二、实现

1.输入数据
提供的数据格式:微博id  微博内容
例子:
   3823890239358658 	继续支持
2.设计mapreduce计算流程
Created with Raphaël 2.2.0 开始 firstjob secondJob lastJob 结束

第一步:计算微博总数和词汇在某个微博中出现的次数

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值