数据收集、清理与连接全攻略
1. 潜在的层次结构数据源
层次结构是一种特殊类型的图,它可以通过多种技术嵌入到数据中。以下是几种常见的层次结构数据源:
1.1 节点内的链接(如员工数据)
在这种方法中,一个节点包含指向层次结构中更高一级节点(即该节点的“父节点”)的链接。例如,人力资源数据库中,每条记录代表一名员工,其中一个字段会指出该员工的经理。通过经理的连续链条可以创建一个图。示例数据如下:
| Person | Age | Income | Manager |
| — | — | — | — |
| Ann | 22 | 20000 | Ben |
| Ben | 33 | 30000 | Zoe |
| Tim | 44 | 40000 | Zoe |
1.2 扁平化层次结构(如数据透视表)
扁平化层次结构常见于公共数据集和电子表格,如导出的数据透视表。在扁平化层次结构中,每一列代表层次结构的下一级,每一行代表一个节点。通过识别连续列对中的每个唯一对来提取链接。示例如下:
| Sector | Industry | Sub-Industry | Company | Holdings |
| — | — | — | — | — |
| Technology | Software | Application Software | Adobe | 12857 |
| Technology | Hardware | Computer Hardware | Apple | 10475 |
| Financials | Insurance
超级会员免费看
订阅专栏 解锁全文
63

被折叠的 条评论
为什么被折叠?



