
数据挖掘
文章平均质量分 86
卡布奇诺小勇
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘之文本分类的数据预处理
文本分类的数据预处理 在进行文本分类时,毫无疑问会涉及到对文本数据进行预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。下面就这几方面作一个概括性的介绍,具体的实现还有待慢慢的研究。 1. 文档切分 文档切分这个操作是可选的,取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的,那么这原创 2013-10-05 15:44:52 · 4296 阅读 · 0 评论 -
数据挖掘之分类
分类(classifier)——监督学习 1. 类型与分类过程 类型: l 归类:针对离散数据的分类; l 预测:针对连续数据的分类,其也叫回归分析; 训练集:有数据库元组和与它们相关联的类标号组成; 分类步骤: 1. 构造模型,利用训练数据集训练分类器; 2. 利用建好的分类器模型对测试数据进行分类; 2. 分类方法原创 2013-10-07 19:58:48 · 1597 阅读 · 0 评论