轻量级编程:电子邮件数据图转换与D3可视化
1. 电子邮件数据转换为图
1.1 数据转换需求
电子邮件数据转换为图需要更多的处理工作。虽然有一些点击式软件(如NodeXL)可自动导入电子邮件数据,但可能存在其他需求,如数据清洗、匿名化或不同的度量要求,这就需要编写简单的程序来处理数据。核心任务是将类似以下示例的电子邮件CSV文件数据转换为节点和链接集合:
From, To, CC, Date, Size
"Joe", "Zoe", "Tim", 12/09/2014, 156kb
"Joe", "Ben", "Ann; Tim; Zoe", 11/09/2014, 2048kb
"Joe", "Tim", "Ben; Zoe", 11/09/2014, 805kb
"Joe", , "Ben", 11/01/2014, 22kb
节点数据是所有唯一电子邮件参与者的列表,链接数据是两个参与者之间所有电子邮件通信的列表,聚合为一个带有权重的链接,权重表示两者之间的通信次数。
1.2 处理步骤
处理电子邮件数据并将其转换为图的步骤如下:
1. 打开数据文件。
2. 对于数据文件中的每一行:
- 创建包含该电子邮件所有相关人员的分发列表。
- 将每个人添加到节点列表中,确保节点不重复。
- 为每对人员定义唯一命名的链接(即源 - 目标),并将其添加到链接列表中,确保链接不重复。
3. 写出节点文件和链接文件。
1.3 代码实现
以下是使用Python实现上述步骤的代码:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



