结果评价:
常用的有[color=red]准确率(P-precision)[/color]、[color=red]召回率(R-recall)[/color]和它俩的调和平均。
其中准确率表示返回结果中正确的比例,召回率表示所有正确结果中返回的比例。
用图表示就是
[table]
| 正确 不正确|
| 返回的结果 A B |
| 未返回的结果 C D |
[/table]
准确率:A/(A+B)
召回率:A/(A+C)
文本聚类的5个步骤:
(1)模式表示,包括特征抽取与选择,把文本表示成可计算的形式;
(2)根据领域知识定义模式之间的距离测度公式;
(3)聚类或者分组
(4)数据抽象表达
(5)评价输出结果
-------------------------------------------------------------------------------
作者提出图表示模型(GSM:Graph-based Space Model),采用一种简化的方法来刻画序关系。 按照如下方法来构造:
(1)原始文本:一个term序列t1,t2,t3...tn(term可以是一个字、词,或者短语、句子等) (2)图表示:graph={N,E,W},其中N为结点集,E为边集,W是边的权重。
(3)构图方法:将每个term作为一个结点,每条边表示的term与term之间的邻接共现关系,边的权重表示两个term共现的频率(体现该边的重要程度),这样就把文本的语义信息附加到其边上了。
常用的有[color=red]准确率(P-precision)[/color]、[color=red]召回率(R-recall)[/color]和它俩的调和平均。
其中准确率表示返回结果中正确的比例,召回率表示所有正确结果中返回的比例。
用图表示就是
[table]
| 正确 不正确|
| 返回的结果 A B |
| 未返回的结果 C D |
[/table]
准确率:A/(A+B)
召回率:A/(A+C)
文本聚类的5个步骤:
(1)模式表示,包括特征抽取与选择,把文本表示成可计算的形式;
(2)根据领域知识定义模式之间的距离测度公式;
(3)聚类或者分组
(4)数据抽象表达
(5)评价输出结果
-------------------------------------------------------------------------------
作者提出图表示模型(GSM:Graph-based Space Model),采用一种简化的方法来刻画序关系。 按照如下方法来构造:
(1)原始文本:一个term序列t1,t2,t3...tn(term可以是一个字、词,或者短语、句子等) (2)图表示:graph={N,E,W},其中N为结点集,E为边集,W是边的权重。
(3)构图方法:将每个term作为一个结点,每条边表示的term与term之间的邻接共现关系,边的权重表示两个term共现的频率(体现该边的重要程度),这样就把文本的语义信息附加到其边上了。