14、基于社交数据的医疗预警系统及投资组合优化方法

基于社交数据的医疗预警系统及投资组合优化方法

1. 基于社交数据的医疗预警系统

1.1 系统流程概述

该医疗预警系统主要包含数据收集、数据预处理和数据处理三个阶段。下面是具体的流程说明:

graph LR
    A[数据收集] --> B[数据预处理]
    B --> C[数据处理]

1.2 数据收集

数据收集阶段聚焦于原始推文的采集。由于 Twitter 是一个包含大量官方和非官方数据的社交网络平台,且提供了推文分类(如医疗类),因此可利用 Twitter 的 API 获取海量公共数据。具体操作步骤如下:
1. 收集原始推文 :使用 LOKLAK 服务器从 Twitter 抓取数据。该服务器是一个分布式的对等网络爬虫,以简单查询为输入,以 JSON 格式返回结果。
- 仅收集新德里首都地区(NCR)附近发布的推文。
- 抓取时间范围为 2016 年 9 月 1 日至 2016 年 10 月 1 日。
- 利用 Python 对 JSON 文件进行进一步处理,过滤出所需的详细信息。
2. 推文过滤 :根据输出信息(如推文语言、语言概率等)对推文进行过滤。重要的输出信息包括推文消息、时间戳、用户位置等。

1.3 数据预处理

收集到的推文包含大量俚语和停用词,需要进行预处理以提取预警信号。具体操作如下:
1. 去除俚语 :使

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值