利用 Twitter 丰富电信警报语义信息
1. 引言
社交网络如 Twitter 和 Facebook 的日益流行,让社交媒体成为人们生活的重要组成部分。这些网络易于访问,全球有数亿用户实时阅读、发布和分享消息,成为信息的重要来源,也适合计算工具挖掘宝贵知识,如人们对特定主题的看法、当前趋势或一般事件。
受从 Twitter 挖掘有用信息的工作启发,我们的项目旨在利用这个社交网络,为电信网络中因技术问题触发的警报进行语义丰富。理想情况下,Twitter 能提供相关信息,帮助更好地理解警报原因(如自然灾害、事故、人员聚集),使网络管理者采取额外措施,减少负面影响。还可用于分析警报对网络客户的影响,如是否引发抱怨推文。
为此,我们使用了葡萄牙电信一个月内触发的所有警报,以及同一时期从 Twitter 公共流式 API 收集的葡萄牙语推文。本文报告了对这些数据集的实验,以评估 Twitter 用于此任务的适用性。尽管面临诸多挑战,如葡萄牙人口少、Twitter 普及度低、免费获取推文样本小以及部分警报持续时间长等,但我们相信部分结果对其他使用葡萄牙语推文的研究者有参考价值。
2. 背景与相关工作
Twitter 是一个微博社交网络,每月约有 2.88 亿活跃用户,每天发送 5 亿条消息(推文)。大量实时推文使其成为文本挖掘和信息提取(IE)研究的有吸引力的媒介。然而,Twitter 有其特殊性,推文使用非正式语言、有很多缩写、忽略语法规则、字数限制为 140 字符且使用主题标签提供额外上下文,传统工具在处理时性能不佳,因此需要专门的自然语言处理(NLP)工具,如命名实体识别器,用于意见挖掘或事件检测等任务。
与我们工作相
超级会员免费看
订阅专栏 解锁全文
1324

被折叠的 条评论
为什么被折叠?



