- 博客(6)
- 收藏
- 关注
原创 文本挖掘与分析实验四:基于lda模型的邮件分类
LDA通过多次迭代,利用每个词的主题概率分布来调整主题的归属。每次迭代中,LDA会基于词频和文档主题分布更新每个词的主题,并调整文档的主题比例。经过足够多的迭代,LDA会收敛,并最终得到每个文档的主题分布以及每个主题的词汇分布。这个过程的核心是推断:LDA并不是直接给每个词分配一个主题,而是通过反复的推理和调整,逐渐找到每个词和主题之间的最优关系。
2025-03-31 16:42:03
721
原创 文本挖掘与分析实验三:计算文本相似度
通过提取文本的关键词,默认使用TF-IDF算法。你可以通过加载自定义词典、设置停用词表和使用自定义 IDF 文件来优化 TF-IDF 的效果,特别是在处理专业领域的文本时(如小说或特定行业的文档)。你可以通过参数获取每个关键词的权重,帮助你了解其重要性。文档预处理:对文本进行分词。BOW 生成:创建词汇字典并将文档转化为 BOW 向量。TF-IDF 计算:利用TfidfModel对 BOW 向量进行处理,计算每个词汇的 TF-IDF 值。
2025-03-12 19:04:40
810
原创 算法:二分
没有系统地去学习学习,平时做二分时细节总是处理不好。什么时候需要 ? 这里 始终向 逼近,并确保不会卡在 的情况下死循环。 这取决于 二分查找的逻辑: / / 这个问题直接决定最终 停在哪个位置。 而:
2025-03-01 16:52:40
267
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人