- 博客(4)
- 收藏
- 关注
原创 TF-IDF算法
TF-IDF的目的是为了评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。它的主要思想是:如果一个词在某个文档中出现的频率高,而在其他文档中出现的频率低,那么这个词对于这个文档来说就越重要。TF(t,d)=词t在文档d中出现的次数文档d中词的总数TF(t,d)=文档d中词的总数词t在文档d中出现的次数。:主要的思想是:如果包含词条t的文档越少,则IDF越大,说明词条t具有很好的区分能力。IDF(t)=log总文档数包含词t的文档数+1IDF(t)=log包含词t的文档数+1总文档数。
2024-09-13 12:25:12
585
原创 简单的PL/0词法分析器
如果识别的首个数字是0,则判断它下一个字符是否是字母,若是,则报错,否则输出0;识别数字时,要区分0和其它数字。0不能做其他数字的开头。其它的数字和NUM转态一致。可将NUM这个状态拆分。
2024-06-25 10:15:53
696
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1