立陶宛语文本作者归属特征探索及白俄罗斯语和俄语数量表达式处理研究
在自然语言处理领域,作者归属识别和数量表达式处理是两个重要的研究方向。本文将探讨立陶宛语文本作者归属的特征探索,以及白俄罗斯语和俄语中数量表达式与测量单位的处理方法。
立陶宛语文本作者归属特征探索
数据集介绍
研究使用了包含社会民主党、保守党和自由党三个类别的数据集,每个类别包含不同议员的议会演讲和辩论。以下是各数据集的统计信息:
| 数据集 | 类别 | 文本数量 | 标记数量 | 不同标记数量 | 不同词元数量 | 平均文本长度 | 随机基线 | 多数基线 |
| — | — | — | — | — | — | — | — | — |
| 社会民主党 | SD1 | 3932 | 925864 | 58673 | 19263 | 235.47 | 0.3685 | 0.4863 |
| | SD2 | 2130 | 451212 | 36621 | 12524 | 211.84 | | |
| | SD3 | 2024 | 400807 | 35719 | 12987 | 198.03 | | |
| | 总计 | 8086 | 1777883 | 84484 | 26845 | 219.87 | | |
| 保守党 | C1 | 5093 | 1075880 | 57728 | 18616 | 211.25 | 0.3738 | 0.4974 |
| | C2 | 2654 | 455712 | 29612 | 11893 | 171.71 | | |
| | C3 | 2491 | 484446 | 32220 |
超级会员免费看
订阅专栏 解锁全文
187

被折叠的 条评论
为什么被折叠?



