
文本分类
Miracle42
这个作者很懒,什么都没留下…
展开
-
tf-idf 算法中idf为何使用对数?直接用比值或者其他函数不行吗?
首先介绍一下什么是TF-IDF,然后我们再对问题解答。已经对TF-IDF有一定了解的同学可以直接跳到最后阅读。TF-IDF是什么TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术,一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,主要用于文本分类的特征选择。在TF-IDF统计中,字词的重要性随着它在一种文件中出现的次数成正比增加,但同时会随着它在语料库中出...原创 2020-11-22 15:11:59 · 909 阅读 · 0 评论 -
数据挖掘 文本分类 知乎问题单分类(四):分类
数据挖掘 文本分类 知乎问题单分类(四):分类朴素贝叶斯贝叶斯定理[^1]贝叶斯分类朴素贝叶斯分类器(Naive Bayes)朴素贝叶斯文本分类例子朴素贝叶斯文本分类算法朴素贝叶斯如何利用向量空间模型进行分类计算?代码实现SVM参考经过前几部分的准备,现在我们终于要到最后使用模型分类的时刻了。这里我们使用了多项式朴素贝叶斯分类器和SVM分类器进行分类。朴素贝叶斯贝叶斯定理1贝叶斯定理是关...原创 2020-01-07 15:50:54 · 851 阅读 · 0 评论 -
数据挖掘 文本分类 知乎问题单分类(三):数据预处理
数据挖掘 文本分类 知乎问题单分类(三):数据预处理从数据库导出(选)读取与去噪分词构建词向量TF-IDF是什么TF(词频 term frequency)IDF(逆向文件频率Inverse Document Frequency)TF-IDF参考上节我们讲到那杰洛特啊, 在对抗迪精的过程中与叶奈法建立了灵魂绑定,哦,不好意思串戏了。今天我们接着来说文本分类中的另外一个重要问题:如何进行数据预处理。...原创 2020-01-06 23:08:25 · 1344 阅读 · 0 评论 -
数据挖掘 文本分类 知乎问题单分类(一):背景介绍和需求分析
数据挖掘 文本分类 知乎问题单分类(一):背景介绍和需求分析背景介绍和需求分析题目实验要求实验内容):背景介绍和需求分析)背景介绍和需求分析这学期选修了王晓茹老师的数据挖掘课程,老师让我们组队完成一个基于机器学习文本分类的项目。我打算用此系列博客来记录项目实践过程中的一些收获,问题,想法。希望以此来提升和巩固自己技术。题目我们要做的是对知乎问题进行分类。数据获取的主要思想是爬取知乎某些...原创 2020-01-06 22:02:52 · 1257 阅读 · 0 评论 -
数据挖掘 文本分类 知乎问题单分类(二):爬取知乎某话题下的问题(数据爬取)
数据挖掘 文本分类 知乎问题单分类(二):爬取知乎某话题下的问题(数据爬取)爬虫目标Scrapy框架介绍Scrapy框架原理 [^1]Scrapy工作流程 [^2]具体实现安装Scrapy创建项目定义item编写存储MySQL的Pipelinespider编写总结反反爬(选修)[^4]参考爬虫目标由于我们打算对知乎某些话题下的问题和问题描述中的文按话题进行分类,所以使用了Python的Scra...原创 2020-01-06 16:29:20 · 1874 阅读 · 0 评论