13、自然语言处理中的特征工程与算法

最新推荐文章于 2025-12-18 18:58:19 发布

flink9streamer

最新推荐文章于 2025-12-18 18:58:19 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏：解锁NLP：从入门到精通文章标签：自然语言处理特征工程 TF-IDF

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/flink9streamer/article/details/154667680

解锁NLP：从入门到精通专栏收录该内容

33 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自然语言处理中的特征工程与算法

1. 概率基础与超参数调优

在概率计算中，我们可以通过已知的概率值来计算条件概率。例如，已知 (P(B) = 0.5) 和 (P(A|B) = 0.7)，可以计算出 (P(A \text{ and } B) = 0.5 \times 0.7 = 0.35)，进而得出 (P(B|A) = P(A \text{ and } B) / P(A) = 0.35 / 0.6 = 0.5833)，这就是相关事件的条件概率计算。

在机器学习中，像 scikit - learn、TensorFlow、SparkML 等库已经实现了主要的概率计算，并提供了高级 API。同时，这些库中的一些参数被称为超参数，为这些参数找到最合适的值的过程叫做超参数调优，该过程有助于优化系统。

2. TF - IDF 概念

2.1 TF - IDF 简介

TF - IDF 即词频 - 逆文档频率，属于数值统计领域，用于判断一个词对于给定文档在当前数据集或语料库中的重要性。

2.2 理解 TF - IDF 的直觉

以学生写关于 “My Car” 的作文数据集为例，“a” 这个词出现频率高，但相比 “car”、“shopping” 等出现频率低的词，携带的信息更少。这就是 TF - IDF 的直觉所在。

2.3 TF - IDF 的数学原理

TF - IDF 由两部分组成：
- 词频（TF） ：表示文档或数据集中每个词的出现频率，计算公式为 (TF(t) = \frac{\text{词 }t\text{ 在文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。