TF-IDF特征优缺点

最新推荐文章于 2025-03-19 22:01:13 发布

cyz0202

最新推荐文章于 2025-03-19 22:01:13 发布

阅读量1w

点赞数 8

分类专栏：技术问题 # MachineLearning 文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/cyz0202/article/details/105509503

版权

技术问题同时被 2 个专栏收录

56 篇文章

订阅专栏

MachineLearning

5 篇文章

订阅专栏

本文为优缺点分析，算法的详细内容不做具体介绍；参考自该blog

标准的TF-IDF公式如下（—后的文字表示说明）：
优点：简单、快速
缺点：
- 仅以“词频”度量词的重要性，后续构成文档的特征值序列，词之间各自独立，无法反映序列信息；
- 易受数据集偏斜的影响，如某一类别的文档偏多，会导致IDF低估；处理方法如下公式所示，增加类别权重（注：最后 $CF(t_j, c_k)应为CF(t_j)）$ ；
- 没有考虑类内、类间分布偏差（被用于特征选择时）
  - 比如只有2类数据，文档总数200，类1类2各100个文档；term1只出现在类1的所有100个文档，在类1出现总次数500；term2在类1出现次数也是500，但是类1和类2各有50个文档出现term2；此时对类1，计算两个term得到的TF-IDF结果是一样的；无法反映term1对类1的重要性
  - 改进：在IDF中添加当前类别包含term1的文档数权重，如下m
来自知乎的一个问题：文本分类中，为什么要用卡方检验提取特征词而用TFIDF计算特征词权重（以下引用大佬回答，侵删）

博客等级

码龄7年

59
原创

109
点赞

279
收藏

12
粉丝

关注

私信

热门文章

分类专栏

技术问题 56篇
CUDA 4篇
计算机系统与网络 1篇
数据库 2篇
python 3篇
paper 4篇
工具 5篇
编程小技巧 1篇
算法 10篇
MachineLearning 5篇
深度学习 28篇
spark 2篇
量化 8篇
maven

最新评论

RealFormer
Last炫神丶丶: 我有个疑问，论文说的是当前层加上前一层的注意力分数。但是图片看起来是将前面所有层的注意力分数进行累加。
RealFormer
@小明月: 请问作者有只用RealFormer的代码吗
CUDA实现focal_loss
杰哥亡命天涯: 膜拜，原来这玩意还要跳到C++
Intel Distiller工具包-量化实现1
weixin_44717709: 不能自动回调收集器中定义的那些更新统计数据的方法
Intel Distiller工具包-量化实现1
weixin_44717709: if not os.path.isfile(stats_file): man_model = torch.load( 'D:\\Users\\mengy\\PycharmProjects\\audio-separation-localization\\Cone_of_Silence\\checkpoints\\lstm_from_pretrained_10000_man_model.pt') distiller.utils.assign_layer_fq_names(man_model) collector = QuantCalibrationStatsCollector(man_model) stats_file = './acts2.yaml' test_dir = "D:\\Users\\mengy\\PycharmProjects\\audio-separation-localization\\Cone_of_Silence\\generate\\my_test" def eval_for_stats(model): evaluate(test_dir, model, use_cuda=False, moving=False, debug=False, mic_radius=0.03231, n_workers=8, n_voices=2, prec_recall=True, oracle_position=False, sr=44100, n_channels=4) collect_quant_stats(man_model, eval_for_stats, save_dir='.')我是这样使用的

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。