13、电子邮件文本挖掘与心脏健康监测探索

电子邮件文本挖掘与心脏健康监测探索

1. 电子邮件文本挖掘

1.1 邮件往来比例分析

在邮件分析中,我们能看到不同人员与他人的邮件往来比例有所不同。例如:
| 序号 | 邮箱地址 | 比例 |
| ---- | ---- | ---- |
| 604 | stanley.horton@enron.com | 1.333 |
| 7 | aaron.brown@enron.com | 1.000 |
| 420 | maureen.mcvicker@enron.com | 0.862 |
| 529 | richard.shapiro@enron.com | 0.182 |
| 269 | jeff.dasovich@enron.com | 0.082 |

从这些数据中可以推测,比例高意味着一方发送给另一方的邮件数量远多于对方回复的数量。如当时安然公司的 CEO Ken Lay 在列表顶部,说明 Steve 发给 Ken 的邮件比 Ken 发给 Steve 的多很多。Maureen McVicker 的比例接近 1,表明 Steve 和 Maureen 之间的邮件往来较为均衡。而 Richard Shapiro 和 Jeff Dasovich 的比例很低,说明他们发给 Steve 很多邮件,但 Steve 很少回复。

1.2 文本挖掘数据准备

为了进行邮件文本挖掘,我们需要提取邮件的文本内容。以下是从 Gmail 和 Enron 邮件数据中提取文本的 Ruby 代码:

1.2.1 从 Gmail 邮件提取文本

                
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值