
文本处理
文章平均质量分 71
1313123131312
这个作者很懒,什么都没留下…
展开
-
文本聚类总结
016年09月28日 09:23:45阅读数:9414摘要:文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后...转载 2018-05-17 21:43:51 · 1402 阅读 · 0 评论 -
基于 K-Means 算法的文本聚类
K-Means 算法的文本聚类阅读数:7571、 能够从社交媒体或网上给定的数据集(数据集已给定),从中挖掘出新闻话题,如在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到若干个新闻话题。 2、 给定一个新闻信息或报道作为测试样本,测试其所属的报道分类。 3、 最终要求有训练集,测试集,聚类模型和相关源码及简要说明。 4、 系统实现包含预处理,特征提取,训练时采用的聚类模型,测试时采用...转载 2018-05-17 21:49:43 · 2511 阅读 · 1 评论 -
K-means算法及文本聚类实践
K-Means是常用的聚类算法,与其他聚类算法相比,其时间复杂度低,聚类的效果也还不错,这里简单介绍一下k-means算法,下图是一个手写体数据集聚类的结果。 基本思想 k-means算法需要事先指定簇的个数k,算法开始随机选择k个记录点作为中心点,然后遍历整个数据集的各条记录,将每条记录归到离它最近的中心点所在的簇中,之后以各个簇的记录的均值中心点取代之前的中心点,然后不断迭代,直到收敛,算法描...转载 2018-05-17 21:58:48 · 1206 阅读 · 0 评论 -
聚类
前面做过一个神经网络的分类器 现在有一些数据需要做聚类处理。 那什么叫做聚类呢 跟分类有什么区别。分类:明确知道类别,然后把数据归类。聚类:你不知道类别,但你想把这些数据分成N类,根据某种算法把数据进行分组,相似或相近的自动归到一组中。(一般用k均值聚类算法)聚类与分类相比较:分类:实例式学习,分类前明确各个类别的信息,并可以直接断言每个元素映射到一个类别;聚类:无监督学习,在聚类前不知道类别甚至...转载 2018-05-17 22:14:08 · 795 阅读 · 0 评论 -
朴素贝叶斯的优缺点
朴素贝叶斯的主要优点有:1)朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。2)对小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。3)对缺失数据不太敏感,算法也比较简单,常用于文本分类。朴素贝叶斯的主要缺点有:1) 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相...转载 2018-05-14 16:34:08 · 28007 阅读 · 1 评论 -
K-means聚类算法初探
数据聚类是对于静态数据分析的一门技术,在许多领域内都被广泛地应用,包括机器学习、数据挖掘、模式识别、图像分析、信息检索以及生物信息等。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。我们拿2维特征的实例作为例子。我们以这个2维特征向量作为坐标,在一个2维空间中用点标注出这些实例,如图1所示,...转载 2018-05-16 20:43:22 · 493 阅读 · 0 评论