构建实体图用于物联网:技术与实验解析
1. 实体图构建与特征提取
在处理Web实体图时,当遇到矩阵 $B’‘$ 不对称的情况,为了运用谱优化方法,我们通过将 $B’‘$ 与其转置相加来恢复对称性。新的 $Q_{new}$ 计算公式如下:
$Q_{new} = \frac{1}{4m}S^T (B’’ + B’‘^T )S$
之后,我们可以计算 $B’’ + B’‘^T$ 对应前 $k$ 个正特征值的所有特征向量,并根据特征向量的元素分配社区。我们将得到的模块化向量作为潜在特征,这些特征指示了事物与社区的关系,值越大表示与社区的关系越紧密。
特征提取方面,我们从事物描述中提取基于内容的特征集 $FC$。首先将关键词向量转换为 $tf - idf$ 格式,为事物描述 $d$ 中的每个术语 $x$ 分配权重。$tf - idf (x, d) = tf (x, d) \times idf (x)$,其中 $tf (x, d)$ 是单词 $x$ 在对应事物描述 $d$ 中出现的次数,$idf$ 是逆文本频率,定义为:$idf (x) = \log \frac{|N|}{df (x)}$,这里 $|N|$ 是数据集中的文本数量,$df (x)$ 是单词 $x$ 至少出现一次的文本数量。
为了分析事物描述,我们采用词频/逆文档频率(TF/IDF)方法,并对短文档中 $tf$ 度量的固有偏差进行归一化,选择给 $idf$ 值更高的权重,即 $w = tf \times idf^2$。最后,数据集中 $N$ 个事物的特征向量集 $\tilde{v} = [\vec{v}_1, …, \vec{v}_N]$,其中 $\vec{v}_i \in R^m$ 是每个事物的特征向量,$
超级会员免费看
订阅专栏 解锁全文

30

被折叠的 条评论
为什么被折叠?



