网络分析与文化领域分析实战
在数据科学领域,宏观层面的网络分析,如提取社区、派系和其他结构块,属于无监督机器学习的范畴。无监督机器学习旨在在缺乏“标签”(节点和边的属性,可能除了边的权重)的情况下推断网络的隐藏结构。不过,挖掘出的结构块存在两个相互关联的主要问题:一是不清楚它们的含义,二是它们没有名字。实际上,若知道一个结构块的用途或性质,就可以给它命名;若知道名字,也能推测其用途或性质。
为结构块选择合适的名称至少有三种方法:
1. 利用自身智慧 :查看单个节点的标签并进行概括。例如,包含“汽车”“卡车”“火车”和“雪橇”标签的块可能应称为“陆地交通工具”;“手”“手臂”“腿”“头”和“胸部”则属于“身体部位”块。若不确定或感到困惑,可以聘请主题专家(SME),他们的工作就是解释为什么节点 X 和 Y 会在同一个块中。
2. 聘请大量主题专家或准专家 :亚马逊机械土耳其人(AMT)提供了一种以非常低的成本向数千人(在 AMT 术语中称为“工人”)提出任何问题的方式。询问 10,000 名 AMT 工人“foos”“bars”和“foobars”有什么共同点。如果这些术语有任何共同点,很可能会得到大多数工人支持的答案。
3. 从数据中生成块标签 :如果无法聘请主题专家,也不想使用 AMT,可以从数据中生成块标签。如果一个块中的节点在大小或重量等方面存在差异,取其中最大的节点(如“头”)并使用其标签来合成块标签(例如“‘头’组”)。如果所有节点具有相同的属性或根本没有属性,则选择按字母顺序排列的第一个节点(“‘手臂’组”)。
下面我们来看一个文化领域分析(CDA)
超级会员免费看
订阅专栏 解锁全文
1456

被折叠的 条评论
为什么被折叠?



