铁路投诉推文识别与科学文档实体提取
1. 铁路投诉推文分析
在对印度铁路官方账户 @RailMInIndia 的推文分析中,我们旨在识别投诉和建议推文,并对其进行分类。
1.1 建议推文分类器
之前被分类为投诉推文的内容中也包含建议推文。为了区分投诉和建议推文,构建了一个支持向量机(SVM)分类器。由于其他特征如 in_reply_to_status_id 、用户提及、转发等已用于过滤非投诉/建议推文,因此仅使用语言特征来训练该分类器。
- 语言特征提取 :通过官方账户回复为 “建议正在提交给相关官员” 或类似内容来确定建议推文。在数据集中共找到 809 条建议推文。使用潜在狄利克雷分配(LDA)主题模型找出频繁出现的词汇,并手动选择重要词汇,将其分为以下五个特征:
| 特征编号 | 特征中的重要词汇 |
| ---- | ---- |
| 1 | Humble, kindly, request |
| 2 | Do, think, add, start, increase, extend, introduce, give, make, run, shuru, suru, kar |
| 3 | Draw, demand, need, arrange, require |
| 4 | More, extra, daily, frequency, direct, fast, special, general |
| 5 | Summer, winter, morning, day, night, evening |
- <
超级会员免费看
订阅专栏 解锁全文
28

被折叠的 条评论
为什么被折叠?



