环境事件检测与脉冲神经膜系统研究
1. 环境事件检测
1.1 情感分类
基于Ekman提出的六种情感类别,为了更详细的分类,我们在词库中加入了“good”。最终的情感类别分为七种:快乐、良好、愤怒、悲伤、恐惧、厌恶和惊讶。由于我们旨在检测由公众不满引发的环境事件,所以与环境事件相关的消息情感应该是负面的,我们可以过滤掉情感为正面的消息。为了验证这一假设,我们随机选取了70条与标记事件相关的消息,得到了七种情感类别的输出,并与相同数量的无关消息进行比较。结果显示,“快乐”的差异最为显著,与环境事件相关的消息中不包含任何“快乐”的词汇,这符合我们的常识。因此,我们将“属于快乐类别的情感词汇数量必须为零”作为过滤条件,即从扩展消息中过滤掉所有包含“快乐”词汇的消息。
1.2 实验
- 数据集和标签 :检测2015年1月1日至7月31日青岛的环境事件,下载了2015年120,000名青岛活跃用户发布的微博。每天平均有60,000 - 80,000条微博帖子。环境事件结果通过与标记数据集进行验证,标记集由青岛环保局工作人员整理,来源包括青岛新闻、中国日报、青岛电视台在线直播、QTV2生活在线、城市新闻和青岛早报等。标记事件集的选取原则是先从这些来源中选择环境事件,由于并非所有环境事件都能在微博中体现,所以只选择在微博中有体现(相关微博消息数量超过4条)的标记事件集,标记事件的数量为23个。
- DQE :领域专家指定的DQE初始关键词有谴责、污染、违规等。由于中文微博语义的多样性,在第一轮扩展中我们限制使用两个或更多关键词。将改进后的DQE应用于2015年1
超级会员免费看
订阅专栏 解锁全文
1036

被折叠的 条评论
为什么被折叠?



