利用文本分析算法探索20个新闻组数据集
1. 相关工具介绍
在文本分析领域,有许多实用的工具和库。Gensim除了强大的语义建模方法外,还提供了以下功能:
- 相似性查询:可检索与给定查询对象相似的对象。
- 词向量化:一种创新的词表示方式,能保留词共现特征。
- 分布式计算:使从数百万文档中高效学习成为可能。
TextBlob是基于NLTK构建的较新库,它通过易于使用的内置函数和方法以及常见任务的包装器简化了自然语言处理(NLP)和文本分析。可以在终端运行 pip install -U textblob 命令来安装TextBlob。此外,TextBlob还有一些NLTK目前没有的有用功能,如拼写检查和纠正、语言检测和翻译。
而scikit - learn是进行文本处理和机器学习的重要工具,它提供了我们所需的所有文本处理功能,如分词,还有全面的机器学习功能。并且,它带有20个新闻组数据集的内置加载器。
2. 20个新闻组数据集介绍
2.1 数据集概述
20个新闻组数据集包含大约20,000篇来自20个在线新闻组的文档。新闻组是互联网上可以就特定主题提问和回答的地方。该数据集已分为训练集和测试集,划分点基于某个特定日期。原始数据来自 http://qwone.com/~jason/20Newsgroups/ 。20个不同的新闻组如下:
- comp.graphics
- comp.os.ms - windows.misc
- comp.sys.ibm.pc.hardware
- comp
超级会员免费看
订阅专栏 解锁全文
7116

被折叠的 条评论
为什么被折叠?



