数据资源关联与投资者情绪分析:技术方法与实验验证
1. 资源相似度计算方法
在处理不同数据集中资源的关联问题时,相似度计算是关键步骤。下面介绍一种计算相似度的方法,其输入为两个资源集合 A 和 B,以及它们之间的链接集合 E,输出为 Szymkiewicz - Simpson 重叠系数。
1.1 相似度计算代码实现
1: method computeSimilarity(A, B, E) returns d
2:
A′ := reduce(A, E)
3:
B ′ := reduce(B, E)
4:
W := intersect(A′, B ′, E)
5:
d := |W |/ min{|A′|, |B ′|})
6: end
1.2 相关函数说明
该方法依赖两个辅助函数:
- reduce(X, E) :根据链接集合 E 的自反、交换、传递闭包 $E^⋆$,返回集合 X 中相等元素的子集。其定义为 reduce(X, E) = {W | W ∝W ⊆X ∧W × W ⊆E ⋆)} 。
- intersect(X, Y, E) :根据 $E^⋆$ 返回两个缩减集合 X 和 Y 的交集。其定义为 intersect(X, Y, E) = {W | W ∝W ⊆X ∧∃W ′ : W ′ ⊆Y ∧W × W ′ ∈E ⋆} 。
1.3 示例分析
以链接 $l_1 =
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



