刑事判决书与新闻文章文本挖掘技术探索
在信息爆炸的时代,文本挖掘技术在处理大量文本数据方面发挥着重要作用。本文将探讨刑事判决书的分类聚类技术以及新闻文章关系发现的相关内容。
刑事判决书文本挖掘
-
聚类结果
- 由于模型 2 具有最高的精度,我们将其加权输入向量作为自组织映射(SOM)的输入。聚类结果以地图形式呈现,地图中的每个网格代表一个神经元。从地图左上角的神经元 1 开始,神经元索引逐行增加至右下角。
-
我们可以观察到,被标记到同一聚类的文档在上下文方面具有相似性。例如:
- 神经元 2 的聚类包含 4 篇与杀人案相关的文档。
- 神经元 58 的聚类包含 5 篇与欺诈案相关的文档。
- 神经元 77 的聚类包含 8 篇与毒品犯罪相关的文档。
- 神经元 107 的聚类包含 9 篇与腐败案相关的文档。
- 此外,地图中位置相近的神经元所对应的文档也具有相似性。如神经元 8 和 9 位置相近,其文档都与毒品犯罪相关;神经元 26、38 和 50 位置相近,文档都与抢劫案相关;神经元 99 和 100 位置相近,文档都与性犯罪相关。
-
搜索模型案例研究
- 系统实现了搜索功能,用户手动指定一组相关关键词作为查询,这些关键词将作为系统的输入向量。例如,我们选择以下九个关键词 {攻击 (attack),凶器 (a tool or weapon for criminal purpose),死 (death),被害人 (the victim),机车 (motorbike),头部 (head),杀人 (homicide),携带 (carry),告诉人 (Prosecutor)} 作为反向传播网络(BPN)和 SOM 的输入向量。
- 分类模块将查询分类到杀人案类别。聚类模块将查询分配到神经元 38 的聚类。我们选择分配节点及其相邻节点(与神经元 38 的距离为 1)内的文档作为推荐案例。
-
推荐结果按相似度排序,具体如下表所示:
| Rank | Document No. | Similarity | Class |
| — | — | — | — |
| 1 | 5 | 0.72279 | homicide |
| 2 | 20 | 0.69027 | homicide |
| 3 | 3 | 0.64285 | homicide |
| 4 | 2 | 0.62812 | homicide |
| 5 | 18 | 0.62681 | homicide |
| 6 | 14 | 0.60465 | homicide |
| 7 | 19 | 0.57577 | homicide |
| 8 | 17 | 0.55162 | homicide |
| 9 | 4 | 0.51299 | homicide |
| 10 | 16 | 0.50757 | homicide |
| 11 | 12 | 0.49512 | homicide |
| 12 | 8 | 0.46071 | homicide |
| 13 | 1 | 0.44031 | homicide |
| 14 | 10 | 0.42407 | homicide |
| 15 | 15 | 0.41704 | homicide |
| 16 | 11 | 0.29600 | homicide |
| 17 | 13 | 0.19893 | homicide |
| 18 | 6 | 0.19626 | homicide |
| 19 | 92 | 0.15910 | robbery |
| 20 | 9 | 0.12774 | homicide |
| 21 | 7 | 0.06904 | homicide |
| 22 | 88 | 0.00000 | robbery |
| 23 | 97 | 0.00000 | robbery | -
我们发现相似度超过 0.5 的文档,其受害者致命伤在头部,或者刑事案件中有摩托车用于逃离犯罪现场。而文档 92、88 和 97 属于抢劫案类别,与查询的代表性关键词相似度非常低。文档 92 中关键词“机车”和“凶器”的频率较高,其相似度高于文档 88 和 97,甚至高于分类模块中的文档 9 和 7。文档 88 和 97 的相似度接近零,这是因为查询向量在这两个文档的代表性关键词中几乎不存在。
新闻文章关系发现
-
关联规则挖掘用于发现新闻文章关系
- 关联规则挖掘(ARM)是从数据库中查找频繁模式的过程。通过将文档编码为项目,文档中的术语编码为交易,我们挖掘出一组频繁模式,每个模式是一组共享超过支持阈值的共同术语的文档。然后,基于这些频繁模式,以另一个阈值(即置信度)找到一组频繁规则。
-
为了处理非二进制数据,我们采用广义支持、广义置信度和广义确信度作为关联度量。此外,还引入了提升度(lift)作为关联度量。关联规则挖掘任务在新闻文章关系发现中的表述如下:
- 假设 I = {i1, i2, …, im} 是一组 m 篇新闻文章(项目),T = {t1, t2, …, tn} 是一组 n 个术语(交易),新闻项目集 X = {x1, x2, …, xk} 是一组 k 篇新闻文章,新闻项目集 Y = {y1, y2, …, yl} 是一组 l 篇新闻文章。
-
广义支持、广义置信度、广义确信度和广义提升度的定义如下表所示:
| 关联度量 | 定义 |
| — | — |
| 广义支持 sup(X) | $\frac{\sum_{b=1}^{n} \min_{a=1}^{k} w(x_a, t_b)}{\sum_{b=1}^{n} \max_{a=1}^{m} w(i_a, t_b)}$ |
| 广义置信度 conf(X → Y) | $\frac{\sum_{b=1}^{n} \min_{a=1}^{k + l} w(z_a, t_b)}{\sum_{b=1}^{n} \min_{a=1}^{k} w(x_a, t_b)}$ |
| 广义确信度 conv(X → Y) | $\frac{1 - \frac{\sum_{b=1}^{n} \min_{a=1}^{l} w(y_a, t_b)}{\sum_{b=1}^{n} \max_{a=1}^{m} w(i_a, t_b)}}{1 - \frac{\sum_{b=1}^{n} \min_{a=1}^{k + l} w(z_a, t_b)}{\sum_{b=1}^{n} \min_{a=1}^{k} w(x_a, t_b)}}$ |
| 广义提升度 lift(X → Y) | $\frac{\frac{\sum_{b=1}^{n} \min_{a=1}^{k + l} w(z_a, t_b)}{\sum_{b=1}^{n} \min_{a=1}^{k} w(x_a, t_b)}}{\frac{\sum_{b=1}^{n} \min_{a=1}^{l} w(y_a, t_b)}{\sum_{b=1}^{n} \max_{a=1}^{m} w(i_a, t_b)}}$ |
- 我们选择 FP - Tree 作为挖掘算法,因为它是最有效的挖掘算法,可以生成常规频繁项目集,而不是封闭频繁项目集。
-
术语表示基础、术语加权和关联度量
-
为了找到发现新闻关系的合适环境,我们探索了三个主要因素:
- 术语表示基础 :研究了一元语法(UG)和二元语法(BG)作为新闻文档内容的术语表示。UG 可能不足以表示新闻文档的内容,因为存在术语歧义。而 BG 将两个相邻术语视为一个单元,部分解决了单词歧义问题。
- 术语加权 :探索了二元术语频率加权(BF)、术语频率加权(TF)及其与逆文档频率加权的修改(BFIDF,TFIDF)。BF 简单地表示术语在新闻文档中的存在或不存在,TF 表示术语在文档中的频率。IDF 通常与 TF 配合使用,以提升在极少数文档中出现的稀有术语的重要性。BFIDF 和 TFIDF 的第 i 个术语分别定义为 BFi × log(N/DFi) 和 TFi × log(N/DFi)。
- 关联度量 :考虑了置信度(CONF)、确信度(CONV)和提升度(LIFT)作为关联度量。CONF 是 ARM 方法中著名的规则度量,CONV 和 LIFT 可以产生更有趣的关系,因此在我们的工作中进行了研究。
-
为了找到发现新闻关系的合适环境,我们探索了三个主要因素:
下面是关联规则挖掘发现新闻文章关系的流程图:
graph TD;
A[编码文档和术语] --> B[挖掘频繁模式];
B --> C[基于频繁模式找频繁规则];
C --> D[应用关联度量];
D --> E[发现新闻文章关系];
综上所述,刑事判决书的分类聚类技术和新闻文章关系发现技术都有各自的特点和应用场景。刑事判决书的分类聚类有助于法律专家快速找到相关案例,而新闻文章关系发现有助于防止错误信息的传播。在实际应用中,我们可以根据具体需求选择合适的技术和参数设置。
刑事判决书与新闻文章文本挖掘技术探索
新闻文章关系发现(续)
-
评估方法
- 新闻关系类型 :在评估新闻文章关系时,需要明确新闻关系的类型。不同类型的新闻关系可能具有不同的特点和重要性。
- 评估数据集构建 :构建评估数据集是评估的重要步骤。数据集应包含多种类型的新闻文章,以确保评估的全面性。
- 评估标准 :为了评估不同组合的性能,我们采用了多种评估标准,主要是针对不同组合在 top - k 排名方面的表现进行比较。
-
实验结果与讨论
- 我们对二十四种由两种术语表示基础、四种术语加权和三种关联度量组合而成的情况进行了探索,并将结果与人工判断进行了比较。
-
最佳组合分析
:
- 实验结果表明,二元语法(BG)、术语频率与逆文档频率(TFIDF)和置信度(CONF)的组合,以及 BG、TFIDF 和确信度(CONV)的组合,在发现相关文档方面表现最佳,能将相关文档排在较高位置,在前 50 个挖掘关系中的排名顺序失配率为 0.41%。
- 一元语法(UG)、TFIDF 和提升度(LIFT)的组合表现也较为突出,它能将不相关关系排在较低位置(前 1100 名),排名顺序失配率为 9.63%。
-
实验结果总结表 :
| 组合情况 | 相关文档排名表现 | 不相关文档排名表现 | 排名顺序失配率 |
| — | — | — | — |
| BG + TFIDF + CONF | 高 | - | 0.41%(前 50 个挖掘关系) |
| BG + TFIDF + CONV | 高 | - | 0.41%(前 50 个挖掘关系) |
| UG + TFIDF + LIFT | - | 低 | 9.63%(前 1100 名) | -
通过这些实验结果,我们可以根据不同的需求选择合适的组合。如果更关注相关文档的准确排名,那么 BG、TFIDF 与 CONF 或 CONV 的组合是较好的选择;如果需要将不相关关系尽量排在较低位置,UG、TFIDF 和 LIFT 的组合则更为合适。
未来研究方向
-
刑事判决书研究拓展
- 关键词选择与权重确定 :研究如何在不进行大量耗时计算的情况下,选择合适数量的关键词以及确定加权关键词的权重,以获得最高的分类精度。例如,可以探索一些启发式算法来快速确定关键词和权重。
- SOM 神经元数量研究 :研究如何确定自组织映射(SOM)中合适的神经元数量,以实现更好的聚类效果。这可能需要结合不同类型的刑事判决书数据进行实验和分析。
- 方法比较与结合 :比较更多的分类和聚类方法与反向传播网络(BPN)和 SOM 的性能,并将神经网络技术与其他方法(如遗传算法(GA)和基于本体的特征提取方法)相结合,以提高当前方法的可用性和准确性。
-
新闻文章关系发现研究拓展
- 更多组合探索 :虽然我们已经探索了二十四种组合,但可能还有其他未被发现的组合能够取得更好的效果。可以进一步扩大探索范围,尝试更多的术语表示基础、术语加权和关联度量的组合。
- 实际应用场景优化 :研究如何将新闻文章关系发现技术更好地应用于实际场景,如新闻推荐系统、虚假信息检测系统等。在不同的应用场景中,可能需要对技术进行针对性的优化。
下面是未来研究方向的流程图:
graph TD;
A[刑事判决书研究拓展] --> B[关键词选择与权重确定];
A --> C[SOM 神经元数量研究];
A --> D[方法比较与结合];
E[新闻文章关系发现研究拓展] --> F[更多组合探索];
E --> G[实际应用场景优化];
总之,文本挖掘技术在刑事判决书和新闻文章处理方面具有巨大的潜力。通过不断的研究和优化,我们可以提高这些技术的性能和实用性,为法律领域和新闻领域提供更有效的支持。在未来的研究中,我们需要综合考虑各种因素,不断探索新的方法和组合,以适应不同的应用需求。
超级会员免费看
524

被折叠的 条评论
为什么被折叠?



