电子邮件文本挖掘与心脏健康监测探索
1. 电子邮件文本挖掘
1.1 邮件往来比例分析
在邮件分析中,我们能看到不同人员与他人的邮件往来比例有所不同。例如:
| 序号 | 邮箱地址 | 比例 |
| ---- | ---- | ---- |
| 604 | stanley.horton@enron.com | 1.333 |
| 7 | aaron.brown@enron.com | 1.000 |
| 420 | maureen.mcvicker@enron.com | 0.862 |
| 529 | richard.shapiro@enron.com | 0.182 |
| 269 | jeff.dasovich@enron.com | 0.082 |
从这些数据中可以推测,比例高意味着一方发送给另一方的邮件数量远多于对方回复的数量。如当时安然公司的 CEO Ken Lay 在列表顶部,说明 Steve 发给 Ken 的邮件比 Ken 发给 Steve 的多很多。Maureen McVicker 的比例接近 1,表明 Steve 和 Maureen 之间的邮件往来较为均衡。而 Richard Shapiro 和 Jeff Dasovich 的比例很低,说明他们发给 Steve 很多邮件,但 Steve 很少回复。
1.2 文本挖掘数据准备
为了进行邮件文本挖掘,我们需要提取邮件的文本内容。以下是从 Gmail 和 Enron 邮件数据中提取文本的 Ruby 代码:
超级会员免费看
订阅专栏 解锁全文
25

被折叠的 条评论
为什么被折叠?



