社交媒体上滑坡报告实时检测系统
1. 系统架构
系统主要由图像管理器和推文管理器两大部分构成,以下是详细介绍:
- 图像管理器 :
- 从队列中取出项目,立即通过各自的队列将其分配给三个图像处理器,即垃圾过滤器、重复过滤器和滑坡检测器。
- 监控所有图像处理器的输出,将其持久化到主图像索引中。
- 推文管理器 :包含地理定位标记器、用户类型识别器和命名实体识别器三个模块,用于处理文本内容。
- 地理定位标记器 :分析各种推文元数据字段以推断地理位置信息。若推文无GPS坐标,优先考虑文本中提及的位置名称,其次是地点、用户位置和用户简介。使用命名实体识别器获取推文文本和用户简介字段的命名实体,并利用Nominatim地理编码和反向地理编码API为每条推文标记国家、州、县和城市信息。该模块维护一个已处理位置的缓存,以提高重复请求的效率。
- 用户类型识别器 :使用推文作者的姓名来确定账户是个人还是组织类型。借助命名实体识别器模块中的英语NER模型,对名称标记进行预定义命名实体标记,包括“PERSON”。
- 命名实体识别器 :为支持多语言推文的操作,使用代表五种国际语言(英语、法语、西班牙语、葡萄牙语和意大利语)的五个NER模型,以及一个用于所有其他语言的多语言NER模型(ML)。该模块也维护一个已处理NER请求的缓存,以提高效率。
下面是图像管理器和推文管理器的工作流程mermaid流程图:
超级会员免费看
订阅专栏 解锁全文
23

被折叠的 条评论
为什么被折叠?



