基于社交数据的医疗预警系统及投资组合优化方法
1. 基于社交数据的医疗预警系统
1.1 系统流程概述
该医疗预警系统主要包含数据收集、数据预处理和数据处理三个阶段。下面是具体的流程说明:
graph LR
A[数据收集] --> B[数据预处理]
B --> C[数据处理]
1.2 数据收集
数据收集阶段聚焦于原始推文的采集。由于 Twitter 是一个包含大量官方和非官方数据的社交网络平台,且提供了推文分类(如医疗类),因此可利用 Twitter 的 API 获取海量公共数据。具体操作步骤如下:
1. 收集原始推文 :使用 LOKLAK 服务器从 Twitter 抓取数据。该服务器是一个分布式的对等网络爬虫,以简单查询为输入,以 JSON 格式返回结果。
- 仅收集新德里首都地区(NCR)附近发布的推文。
- 抓取时间范围为 2016 年 9 月 1 日至 2016 年 10 月 1 日。
- 利用 Python 对 JSON 文件进行进一步处理,过滤出所需的详细信息。
2. 推文过滤 :根据输出信息(如推文语言、语言概率等)对推文进行过滤。重要的输出信息包括推文消息、时间戳、用户位置等。
1.3 数据预处理
收集到的推文包含大量俚语和停用词,需要进行预处理以提取预警信号。具体操作如下:
1. 去除俚语 :使
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



