
分词分类
tiny丶
这个作者很懒,什么都没留下…
展开
-
mmseg分词算法及实现
一、分词方法关于中文分词 参考之前写的jieba分词源码分析 jieba中文分词。 中文分词算法大概分为两大类:一是基于字符串匹配,即扫描字符串,使用如正向/逆向最大匹配,最小切分等策略(俗称基于词典的) 基于词典的分词算法比较常见,比如正向/逆向最大匹配,最小切分(使一句话中的词语数量最少)等。具体使用的时候,通常是多种算法合用,或者一种为主、多种为辅,同时还会加转载 2016-06-30 11:23:13 · 840 阅读 · 1 评论 -
使用libsvm实现文本分类
文本分类,首先它是分类问题,应该对应着分类过程的两个重要的步骤,一个是使用训练数据集训练分类器,另一个就是使用测试数据集来评价分类器的分类精度。然而,作为文本分类,它还具有文本这样的约束,所以对于文本来说,需要额外的处理过程,我们结合使用libsvm从宏观上总结一下,基于libsvm实现文本分类实现的基本过程,如下所示:选择文本训练数据集和测试数据集:训练集和测试集都是类标签已知的;转载 2016-06-30 15:29:10 · 1678 阅读 · 0 评论 -
基于libsvm的中文文本分类原型
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本 、非线性 及高维模式识别 中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小 原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误转载 2016-06-30 15:20:56 · 2763 阅读 · 2 评论 -
计算所汉语词性标记集
Version3.0制订人:刘群 张华平 张浩计算所汉语词性标记集... 10. 说明... 11. 名词 (1个一类,7个二类,5个三类)22. 时间词(1个一类,1个二类)23. 处所词(1个一类)34. 方位词(1个一类)35. 动词(1个一类,9个二类)36. 形容词(1个一类,4个二类)37. 区别词(1个一类,2个二类)38. 状...转载 2018-02-24 11:30:12 · 482 阅读 · 0 评论