文本分类与频繁链接挖掘技术研究
频繁链接挖掘
在网络数据分析领域,频繁链接挖掘是一种结合网络结构和节点属性来提取频繁模式的新方法。这种方法能够揭示网络中节点之间的连接模式,为理解网络结构和节点关系提供有价值的信息。
实验设置
-
数据集
:使用的数据集是通过Episims模拟工具得到的地理邻近接触网络,该工具能统计性地再现波特兰市个体的日常活动。网络中的两个节点若在地理上接近则相连。网络的主要特征如下表所示:
| 特征 | 详情 |
| — | — |
| 来源 | 波特兰 |
| 类型 | 无向 |
| 节点数 | 3000 |
| 链接数 | 4683 |
| 密度 | 0.00110413 |
| 组件数 | 1 |
| 聚类系数平均值 | 0.63627 |
| 度平均值 | 3.087 |
| 最大度 | 15 |
每个节点由六个人口统计属性标识:
1. 年龄类别(年龄除以10取整)
2. 性别(1 - 男性,2 - 女性)
3. 就业情况(1 - 有工作,2 - 无工作)
4. 与户主的关系(1 - 配偶、伴侣或户主,2 - 孩子,3 - 成年亲属,4 - 其他)
5. 接触类别(度除以2取整)
6. 社交性(1 - 聚类系数大于0.5,2 - 其他)
- 实验环境 :FLMin算法用JAVA开发,并集成到图形工具GT - FLMin中。所有实验在Intel Core 2 Duo P8600,2.4Ghz,3Go Ram,Linux Ubuntu 10.10以及Java JDK 1.6的环境下进行,且平均运行100次。实验中通过提取整体网络的子图来改变网络大小,使用的网络大小组合为(|V|, |E|) = {(500, 806), (1000, 1750), (1500, 2685), (2000, 3304), (2500, 3988), (3000, 4683)},为简化讨论,后续仅用节点数|V|表示网络大小;同时通过从节点信息中依次移除属性来改变属性数量|R|。
有效性测试
通过比较不同支持阈值β下提取的频繁链接,来分析提取模式的质量。例如,当|V| = 500且|R| = 4时:
- 当β = 0.10时:
| 频繁链接 | 支持度 |
| — | — |
| ((4;∗;1;∗),(∗;∗;2;∗)) | 0.107 |
| ((2;∗;∗;2),(∗;∗;2;2)) | 0.105 |
| ((∗;1;1;∗),(∗;∗;1;∗)) | 0.113 |
| ((1;∗;2;2),(∗;1;∗;∗)) | 0.102 |
| ((∗;1;1;1),(∗;2;∗;∗)) | 0.133 |
-
当β = 0.29时:
| 频繁链接 | 支持度 |
| — | — |
| ((∗;∗;2;∗),(∗;∗;1;∗)) | 0.295 |
| ((∗;∗;1;∗),(∗;∗;2;∗)) | 0.295 |
| ((∗;∗;1;∗),(∗;∗;∗;2)) | 0.294 |
| ((∗;∗;∗;2),(∗;∗;1;∗)) | 0.294 |
| ((∗;∗;∗;2),(∗;∗;∗;2)) | 0.343 |
从这些结果可以看出,频繁链接能提供网络中连接最紧密的节点组的知识。但随着支持阈值β的增加,频繁链接的准确性似乎会降低,因为β = 0.29时提取的模式比β = 0.10时更具一般性,包含的节点更多。通过研究不同β阈值下频繁链接的大小分布(如下图所示),可以进一步验证这一现象。
graph LR
A[低β值] --> B[提供更精细的模式]
C[高β值] --> D[保留最具代表性的一般组]
性能测试
从定量的角度,比较不同支持阈值(β = 0.1、0.15、0.2、0.25)对提取模式数量、运行时间以及与朴素方法相比的运行时间增益的影响。
-
提取模式数量
:对于给定的网络大小,提取的模式数量随属性数量的增加而增加。例如,当β = 0.1且|V| = 500时,|R| = 6时提取的模式数约为600,而|R| = 5时约为250。但令人惊讶的是,对于所有使用的β阈值,模式数量在不同网络大小下相对稳定。这可以从两个方面解释:一是属性的性质,许多属性是二进制的,在子集数据中生成相同项集的概率较高;二是人类行为的一般性,潜在的影响因素在较小规模下也能体现,使得在相关子集中有可能提取到大部分模式。同时,随着β的增加,频繁链接的数量减少,这是数据挖掘领域的常见现象,因为可接受解的空间减小。
-
运行时间
:
- 随着β的增加,FLMin提取频繁链接所需的时间增加。例如,当|V| = 3000时,β = 0.1时运行时间约为6秒,而β = 0.15时约为1秒。
- 对于给定的阈值,运行时间似乎随网络大小大致呈线性增加。例如,当β = 0.1时,运行时间可以近似为y = 0.8588 × |V| + 0.2635。这可能是数据集性质和算法优化的结果。
-
运行时间增益
:与朴素方法相比,无论使用何种β阈值,运行时间增益始终大于85%,这表明FLMin在提取频繁链接方面具有良好的性能和效率。
频繁链接提取工具
GT - FLMin是一个用于在社交网络中提取频繁链接的图形工具,它用JAVA实现了FLMin算法,旨在提供一个简单易用的平台来从各种社交网络中提取频繁链接。其图形界面分为三个主要面板:
- 左面板:用于进行校准操作,如加载网络和属性文件,设置最小支持阈值。网络文件以
的形式加载,属性文件以
…
的形式加载。
- 中心面板:通过2D视图让用户可视化和交互加载的网络,同时可以查看节点的属性。
- 右面板:监控频繁链接发现过程的进展,以及总结过程的信息,如发现的频繁链接数量和运行时间。
文本分类
文本分类是将文档按主题、可读性等进行分类的过程。常见的文本分类方法有基于向量空间模型的多种技术,如Naive Bayes分类器、TF/IDF权重、Latent Semantic Indexing、Support Vector Machines等,这些方法主要按主题、地点或用户兴趣对文档进行分类。
新方法提出
为了按可读性对文档进行分类,提出了将Singular Value Decomposition(SVD)与Cosine Similarity或Aggregated Similarity Matrices相结合的方法。SVD用于降维,减少噪声,提高文本分类的准确性。新提出的Aggregated SVD方法创建包含文档间距离或差异的距离矩阵,然后使用聚合函数将这些矩阵组合成一个新的距离/差异矩阵,实验表明该矩阵能提高文本分类的准确性。
相关工作
- 在信息检索领域,SVD已应用于文档 - 术语向量空间模型,用于减少向量维度。
- 有研究对12种统计文本分类方法进行了比较评估,也有研究探索了Support Vector Machines在文本分类中的应用。
- 实验表明SVD能提高推荐系统的准确性,Latent Semantic Indexing结合SVD可用于用户特征分析以实现更准确的物品推荐。
- 还有一些方法提出了新的文本分类器,如Class - Feature - Centroid分类器,以及通过SVD计算的特征向量创建自相似矩阵并聚合的方法,但这些方法的应用场景与本文提出的Aggregated SVD用于文本分类不同。此外,还有一些数据挖掘领域外的可读性测试方法,如Flesch Reading Ease index,用于确定文本的可读性。
文本分类与频繁链接挖掘技术研究
实验对比与分析
为了验证所提出的文本分类方法的有效性,在合成数据集和真实数据集(Reuters - 21578)上进行了实验,将结合SVD的两种方法(与Cosine Similarity结合、与Aggregated Similarity Matrices结合)与Flesch Reading Ease index以及基于向量的余弦相似度方法进行了比较。
| 方法 | 分类依据 | 优势 |
|---|---|---|
| SVD + Cosine Similarity | 可读性、主题 | 利用SVD降维减少噪声,提高分类准确性 |
| Aggregated SVD | 可读性、主题 | 创建并聚合距离矩阵,进一步提升分类准确性 |
| Flesch Reading Ease index | 可读性 | 通过公式计算,简单直接 |
| 向量 - 余弦相似度方法 | 主题等 | 基于向量空间模型,常见的分类方法 |
实验结果清晰地表明,结合SVD的两种方法在分类准确性上明显优于其他比较方法。具体流程如下:
graph LR
A[准备数据集] --> B[应用不同方法进行分类]
B --> C[评估分类准确性]
C --> D[比较各方法结果]
方法总结与展望
在文本分类方面,结合SVD的方法为按可读性和主题对文档进行分类提供了有效的解决方案。SVD的降维作用减少了噪声,而Aggregated SVD通过聚合距离矩阵进一步提升了分类的准确性。在频繁链接挖掘方面,FLMin算法及其实现工具GT - FLMin能够有效地从社交网络中提取频繁链接,并且在不同的网络大小和属性数量下都表现出了良好的性能。
未来,可以在以下几个方面进行进一步的研究和优化:
1.
文本分类
- 探索更多的聚合函数和距离度量方法,以进一步提升Aggregated SVD的性能。
- 将该方法应用于更多类型的数据集,验证其泛化能力。
2.
频繁链接挖掘
- 优化FLMin算法的组合阶段,减少不必要的计算。
- 将提取的频繁链接模式应用于社交网络中的链接预测问题,为网络分析提供更多的应用场景。
通过不断的研究和改进,这些技术有望在数据挖掘和网络分析领域发挥更大的作用,为我们理解和处理复杂的数据和网络结构提供更有力的支持。
实际应用案例设想
文本分类的应用
- 新闻媒体 :新闻机构可以利用文本分类技术快速将新闻文章按主题和可读性进行分类,方便读者根据自己的兴趣和阅读能力选择合适的新闻。例如,对于普通大众可以推荐可读性较高的新闻,对于专业人士可以推荐专业性较强的深度报道。
- 教育领域 :学校和教育机构可以使用文本分类方法对学习资料进行分类,根据学生的阅读水平提供合适的学习材料,提高学习效果。
频繁链接挖掘的应用
- 社交网络营销 :企业可以通过挖掘社交网络中的频繁链接,了解用户之间的关系和兴趣群体,从而进行精准的广告投放和营销活动。
- 公共卫生 :在疫情防控中,可以分析人员接触网络中的频繁链接,找出潜在的传播路径和高风险群体,为疫情防控提供决策支持。
通过这些实际应用案例,可以看到文本分类和频繁链接挖掘技术在不同领域都具有重要的价值和应用前景。随着技术的不断发展和完善,它们将为我们的生活和工作带来更多的便利和效益。
超级会员免费看
1126

被折叠的 条评论
为什么被折叠?



