新闻文档关系质量探索
在新闻信息处理领域,准确发现新闻文档之间的关系至关重要。本文围绕新闻关系的类型、评估数据集、评估标准展开研究,并通过实验探索不同因素对发现新闻关系质量的影响。
1. 新闻关系类型
根据新闻事件的相关性,新闻关系主要分为以下三种类型:
-
完全相关(CR)
:两篇新闻文章报道的是同一事件。由于新闻记者都会报道每日重要事件,同一事件常被多家出版商同时发布,但可能标题或写作风格不同。这种关系多见于发布时间相同或相近的不同新闻出版商之间。
-
某种程度相关(SH)
:两篇新闻文章的事件有一定关联,可能主题相似、构成事件的时间序列,或部分内容相同,但并非报道同一故事。
-
不相关(UR)
:新闻文章之间毫无关联,可视为不相关的故事。
2. 评估数据集
由于缺乏泰语新闻关系的标准数据集,研究人员构建了自己的数据集。该数据集从2007年8月14 - 31日的811篇泰语新闻文章中挖掘出约1100个新闻关系,这些文章来自三个在线新闻源(Dailynews、Komchadluek和Manager online),涵盖政治、经济和犯罪三个类别。
数据集的构建基于人工评估,由三位喜欢阅读新闻的评估者对预定义的关系类型(CR、SH和UR)进行判断。评估者在接受如何识别两篇新闻文章相关性的指导后,通过比较两篇文章的内容,为它们的关系指定一种类型。每个新闻关系都由三位评估者进行判断,若意见不同,则通过投票得出最佳判断。若投票无法达成多数一致,则要求评估者重复考虑,直至做出最终决定。最终,数据集包含了人工判断确定的新闻关系记录及其类型(65个CR关系、571个SH关系和496个UR关系)。
3. 评估标准
通过将24种组合发现新闻关系的结果与人工判断的结果进行比较,来评估这些组合的质量。评估方法采用成对比较技术,具体步骤如下:
1. 为每个组合创建一个按关联度量排序的关系排名列表。
2. 将人工判断的结果映射到列表中的每个关系。
3. 计算两者之间的不匹配分数。
4. 使用排名顺序不匹配(ROM)标准比较24种组合的质量。
ROM值的计算公式为:
[ROM(A, B) = \frac{2 \times M(A, B)}{N(N - 1)} \times 100]
其中,(M(A, B))是不匹配分数,计算公式为:
[M(A, B) = \sum_{i = 1}^{N} \sum_{j = i + 1}^{N} |\delta(r_A(i), r_A(j)) - \delta(r_B(i), r_B(j))|]
不匹配函数(\delta(a, b))在(a < b)时返回1,否则返回0。
由于CONF和CONV是有方向的,而LIFT是无方向的,在处理CONF和CONV时,使用min()函数将其视为无方向,公式如下:
[conf(X, Y) = min(conf(X \to Y), conf(Y \to X))]
[conv(X, Y) = min(conv(X \to Y), conv(Y \to X))]
使用min()函数的原因是,较小的值更符合人工判断,因为评估者忽略了新闻关系的方向。例如,当两篇新闻文章的出现频率差异很大时,如果(news1 \to news2)的置信度为90%,而(news2 \to news1)的置信度为10%,评估者会判断为UR关系,而非CR关系。
4. 实验设置
为了研究三个因素对发现新闻关系质量的影响,进行了三个实验:
1.
单因素影响实验
:关注每个单一因素对关系质量的影响,包括三个比较研究(UG vs. BG、BF vs. BFIDF vs. TF vs. TFIDF、CONF vs. CONV vs. LIFT)。通过计算每个因素的两个可能替代方案的ROM值差异来进行比较。如果方法A的ROM值高于方法B,则方法A的不匹配更多,方法B的结果更接近人工答案。
2.
关系类型比例可视化实验
:对于24种方法中的每一种,可视化每个关联度量在top - k区间内CR、SH和UR关系的比例,以研究CR关系是否能排在较高位置,SH关系次之,UR关系排在较低位置。
3.
组合性能探索实验
:探索在top - k排名中表现良好的组合的详细性能(ROM值)。
5. 实验结果
5.1 成对比较研究
- 术语表示基础 :通过比较UG和BG在CONF、CONV和LIFT下的ROM差异发现,除了LIFT在top - 500排名下的情况外,BG在大多数情况下优于UG。这表明在所有排名中,使用BG与CONF或CONV结合是有效的;在较高排名(< 500)中,使用BG与LIFT结合有效;在较低排名(> 500)中,使用UG与LIFT结合更有效。
- 术语加权 :比较BF、TF、BFIDF和TFIDF的ROM值发现,TFIDF在大多数情况下给出的ROM值最低,表现最为有效。
- 关联度量 :比较CONF、CONV和LIFT的ROM差异发现,在较高排名(< 300)中,CONF和CONV的ROM值高于LIFT;在较低排名(> 300)中,LIFT的ROM值较低。且CONV的表现优于CONF。这表明在较高排名中使用CONV有效,在较低排名中使用LIFT更有效。
5.2 新闻关系类型排名分析
通过对CONF、CONV和LIFT三种关联度量下不同24种组合和不同top - k排名区间内三种关系类型数量的分析,发现:
- CR关系位于较高排名(如50 - 100)。
- SH关系位于中间排名(如100 - 350)。
- UR关系位于较低排名(如> 350)。
CONF和CONV有助于预测CR关系,而LIFT有助于区分SH类型和UR类型。
5.3 三因素组合分析
通过观察24种方法在每个top - k排名中的ROM值,发现对于top - 50挖掘的关系,BG、TFIDF和CONF(BG - TFIDF - CONF)以及BG、TFIDF和CONV(BG - TFIDF - CONV)的组合最为有效,ROM值最低(0.41%);对于top - 1100排名,UG、TFIDF和LIFT(UG - TFIDF - LIFT)的组合表现最佳,ROM值最低(9.63%)。
这些结果可以分为两种情况:
-
较高排名
:BG - TFIDF - CONF或BG - TFIDF - CONV组合最佳。原因是BG能有效解决上下文歧义,在处理较高排名的相关关系时表现良好。
-
较低排名
:UG - TFIDF - LIFT组合更有效。因为在较低排名中,关系的相关性较低,UG的计数模式更适用;而且当应用LIFT度量处理CR关系时,可能会因文档大小差异将CR关系推到较低排名,而CONF和CONV不受此影响;但在处理UR关系时,LIFT能有效区分不相关关系和相关关系,使UR关系位于较低的合适排名。
以下是24种组合在不同top - k排名下的ROM值表格:
| Combinations | top - k | 50 | 100 | 200 | 300 | 400 | 500 | 600 | 700 | 800 | 900 | 1000 | 1100 |
| — | — | — | — | — | — | — | — | — | — | — | — | — | — |
| UG - BF - CONF | | 0.65 | 4.08 | 7.97 | 10.35 | 11.41 | 12.79 | 13.47 | 14.27 | 16.87 | 17.98 | 18.15 | 17.55 |
| UG - TF - CONF | | 1.14 | 3.07 | 5.78 | 7.95 | 10.29 | 12.37 | 13.63 | 14.78 | 15.91 | 16.38 | 16.36 | 15.60 |
| UG - BFIDF - CONF | | 1.63 | 5.45 | 4.98 | 5.54 | 6.77 | 8.80 | 10.26 | 10.79 | 14.42 | 14.92 | 15.36 | 15.17 |
| UG - TFIDF - CONF | | 0.49 | 4.06 | 4.64 | 5.90 | 6.82 | 8.73 | 10.21 | 12.12 | 12.74 | 13.27 | 13.66 | 13.21 |
| UG - BF - CONV | | 0.82 | 3.96 | 7.95 | 9.95 | 11.25 | 12.57 | 13.39 | 14.59 | 16.74 | 17.99 | 17.84 | 17.00 |
| UG - TF - CONV | | 1.14 | 3.01 | 5.68 | 8.17 | 9.99 | 12.43 | 13.46 | 14.30 | 15.97 | 16.22 | 15.98 | 15.41 |
| UG - BFIDF - CONV | | 1.63 | 5.47 | 4.90 | 5.56 | 6.52 | 8.62 | 10.11 | 10.67 | 14.44 | 14.77 | 14.97 | 14.77 |
| UG - TFIDF - CONV | | 0.49 | 4.00 | 4.53 | 6.12 | 6.96 | 8.99 | 10.27 | 12.00 | 12.62 | 13.30 | 13.29 | 13.02 |
| UG - BF - LIFT | | 14.86 | 10.81 | 10.69 | 7.90 | 8.02 | 8.97 | 9.58 | 11.12 | 12.06 | 12.38 | 12.51 | 12.22 |
| UG - TF - LIFT | | 12.33 | 12.28 | 11.97 | 9.11 | 8.56 | 9.15 | 9.85 | 11.46 | 12.14 | 12.99 | 13.01 | 11.70 |
| UG - BFIDF - LIFT | | 12.24 | 10.99 | 9.65 | 6.85 | 6.95 | 7.69 | 8.07 | 8.83 | 9.96 | 10.35 | 10.53 | 10.50 |
| UG - TFIDF - LIFT | | 10.69 | 9.21 | 10.23 | 8.11 | 7.21 | 7.49 | 8.28 | 9.45 | 10.09 | 10.12 | 10.58 | 9.63 |
| BG - BF - CONF | | 1.14 | 4.12 | 8.35 | 8.49 | 9.82 | 11.47 | 12.42 | 13.79 | 15.66 | 16.52 | 16.42 | 16.09 |
| BG - TF - CONF | | 0.82 | 5.03 | 5.44 | 6.83 | 8.88 | 10.86 | 11.83 | 13.00 | 14.62 | 15.22 | 15.27 | 14.47 |
| BG - BFIDF - CONF | | 1.22 | 6.51 | 6.08 | 6.17 | 6.69 | 8.99 | 11.04 | 12.19 | 13.64 | 15.02 | 14.98 | 14.72 |
| BG - TFIDF - CONF | | 0.41 | 5.45 | 5.87 | 6.28 | 7.31 | 8.84 | 9.88 | 11.00 | 12.48 | 13.58 | 13.76 | 13.21 |
| BG - BF - CONV | | 1.14 | 4.10 | 8.28 | 8.39 | 9.70 | 11.57 | 12.68 | 13.94 | 15.69 | 16.51 | 16.40 | 15.93 |
| BG - TF - CONV | | 0.82 | 4.99 | 5.42 | 6.85 | 9.22 | 10.98 | 11.85 | 12.75 | 14.64 | 15.37 | 15.17 | 14.31 |
| BG - BFIDF - CONV | | 1.22 | 6.59 | 6.10 | 6.08 | 6.60 | 9.15 | 10.93 | 12.29 | 13.63 | 14.97 | 14.99 | 14.58 |
| BG - TFIDF - CONV | | 0.41 | 5.49 | 5.80 | 6.30 | 7.31 | 8.65 | 9.92 | 11.05 | 12.38 | 13.71 | 13.64 | 13.01 |
| BG - BF - LIFT | | 12.98 | 10.97 | 8.40 | 7.63 | 7.50 | 8.64 | 10.06 | 11.60 | 12.25 | 13.50 | 13.22 | 12.56 |
| BG - TF - LIFT | | 12.41 | 12.38 | 8.45 | 7.50 | 6.96 | 8.45 | 9.23 | 10.85 | 11.73 | 12.40 | 12.68 | 11.45 |
| BG - BFIDF - LIFT | | 11.35 | 8.89 | 7.24 | 6.05 | 7.15 | 7.53 | 8.63 | 10.24 | 11.63 | 12.68 | 12.74 | 12.16 |
| BG - TFIDF - LIFT | | 11.51 | 9.94 | 7.69 | 5.90 | 6.32 | 7.03 | 8.63 | 9.61 | 10.30 | 11.36 | 11.53 | 10.77 |
以下是实验流程的mermaid流程图:
graph LR
A[构建数据集] --> B[确定评估标准]
B --> C[进行实验]
C --> C1[单因素影响实验]
C --> C2[关系类型比例可视化实验]
C --> C3[组合性能探索实验]
C1 --> D1[术语表示基础比较]
C1 --> D2[术语加权比较]
C1 --> D3[关联度量比较]
C2 --> E[可视化关系类型比例]
C3 --> F[分析组合性能]
D1 --> G1[得出BG和UG结论]
D2 --> G2[得出TFIDF结论]
D3 --> G3[得出CONF、CONV和LIFT结论]
E --> G4[得出关系类型排名结论]
F --> G5[得出最佳组合结论]
新闻文档关系质量探索
6. 讨论与错误分析
尽管实验取得了一定的成果,但所提出的方法仍存在一些误分类的情况。部分被人工判定为CR的关系,在方法中被关联度量值判定为其他类型。具体原因可归结为以下两种与文档大小相关的情况:
-
文档大小差异较大
:当两篇相关新闻文档(如news1和news2)的大小差异很大时,发现其中一篇新闻文章(如news1)可能是另一篇(如news2)的摘要。由于两篇文章内容重叠的频率较低,导致度量值较低,从而使方法将其误分类为SH关系而非CR关系。为了解决这个问题,计划在未来的工作中,对新闻文章的标题赋予更多权重,因为标题通常包含许多相同的词汇。此外,还会考虑新闻文章的发布时间,因为CR关系往往在同一时间或相近时间发布。
-
文档大小差异不大
:即使文档大小比例差异不大,仍可能出现误分类。主要原因包括:
-
写作风格不同
:尽管关系是完全相关的,但由于不同的出版商可能使用不同的词汇来表达相同的意思,两篇新闻文章可能采用不同的写作风格。可以采用同义词检测方法来纠正此类错误。
-
内容差异
:不同的出版商可能会为同一事件提供不同的内容,可能存在事实不相等或细节对比的情况。对于事实不相等的情况,计划对新闻标题和新闻文档第一段的内容赋予更高的权重,因为出版商通常会在这些位置呈现相似的内容。对于细节对比的情况,需要在使用方法之前去除不同的数据,并将新闻差异问题作为另一个研究课题进行深入探讨。
一个有趣的发现是,支持 - 提升框架在较低排名中表现良好。这将作为未来进一步研究的方向,分析混合方法,因为它考虑了多个定性标准。
7. 结论
本文围绕新闻关系的发现展开了深入研究,探讨了两个术语表示基础、四种术语加权和三种关联度量对发现新闻关系质量的影响。主要结论如下:
-
新闻关系类型分类
:根据新闻事件的相关性,将新闻关系分为完全相关(CR)、某种程度相关(SH)和不相关(UR)三种类型,为后续研究提供了清晰的分类框架。
-
评估数据集构建
:由于缺乏泰语新闻关系的标准数据集,通过人工评估构建了自己的数据集,确保了研究的可靠性和有效性。
-
评估标准确定
:采用成对比较技术和排名顺序不匹配(ROM)标准,对24种组合发现新闻关系的质量进行评估,为方法的比较提供了科学的依据。
-
实验结果分析
:
-
单因素影响
:在术语表示基础方面,BG在大多数情况下优于UG;在术语加权方面,TFIDF表现最为有效;在关联度量方面,CONF和CONV在较高排名中表现较好,LIFT在较低排名中表现更优。
-
关系类型排名
:CR关系位于较高排名,SH关系位于中间排名,UR关系位于较低排名。CONF和CONV有助于预测CR关系,LIFT有助于区分SH类型和UR类型。
-
最佳组合
:在较高排名中,BG - TFIDF - CONF或BG - TFIDF - CONV组合最佳;在较低排名中,UG - TFIDF - LIFT组合更有效。
综上所述,这些研究结果为新闻关系发现方法的优化提供了有价值的参考。在未来的研究中,可以进一步改进方法,解决误分类问题,提高新闻关系发现的准确性和可靠性。同时,深入研究支持 - 提升框架在混合方法中的应用,以更好地处理不同类型的新闻关系。
以下是误分类原因及解决建议的表格:
|误分类原因|具体情况|解决建议|
| — | — | — |
|文档大小差异较大|一篇是另一篇摘要,内容重叠频率低|对标题赋予更多权重,考虑发布时间|
|文档大小差异不大|写作风格不同|采用同义词检测方法|
|文档大小差异不大|内容差异(事实不相等)|对标题和首段内容赋予更高权重|
|文档大小差异不大|内容差异(细节对比)|去除不同数据,研究新闻差异问题|
以下是未来研究方向的mermaid流程图:
graph LR
A[解决误分类问题] --> B[改进方法]
B --> B1[标题加权]
B --> B2[考虑发布时间]
B --> B3[同义词检测]
B --> B4[内容处理]
A --> C[支持 - 提升框架研究]
C --> D[混合方法应用]
D --> E[提高关系发现准确性]
超级会员免费看
1760

被折叠的 条评论
为什么被折叠?



