57、基于聚类技术的新闻推荐与本体学习技术分析

聚类技术下新闻推荐与本体学习分析

基于聚类技术的新闻推荐与本体学习技术分析

新闻推荐研究

在新闻推荐领域,研究旨在探索能否依据用户兴趣(以特定 IP 连接的用户)进行新闻推荐,采用了基于模型的协同过滤方法。这是因为网站可能连接的用户(IP)数量众多,若采用基于内存的方法,为每个登录系统的用户搜索邻域会非常困难,且搜索邻域的时间往往超过用户等待推荐的时间。

输入数据:“Ahora”数据集

在协同框架中,输入通常是用户 - 项目矩阵(通常非常稀疏),其中部分用户 - 项目对的值代表用户对该项目的兴趣。在本系统中,项目是新闻,具体为新闻所属的类别,共有 49 个不同类别,由古巴奥尔金的在线日报网站“Ahora”的编辑委员会进行分类。用户由访问网站的 IP 地址表示,矩阵值表示从某个 IP 地址访问某个类别新闻的数量。

以下是数据的示例:
Sesion_0: ip1 + { (News_A,Cat_10), (News_B,Cat_10), (News_C,Cat_12), (News_D,Cat_18) .... }
Sesion_1: ip2 + { (News_B,Cat_10), (New_H,Cat_40), (News_E,Cat_36).... }
Sesion_2: ip1 + { (News_A,Cat_10),(New_H,Cat_40),(News_M,Cat_18) .... }

根据这些数据形成的 IP - 类别矩阵如下:
| | Cat_10 | Cat_12 | Cat_18 | Cat_36 | Cat_40 | … | Cat_n |
| — | — | — | — | — | — | — | — |
| ip1 | 12 | 4 | 19 | | | | |
| ip2 | 1 | | | 12 | 7 | | |
| … | | | | | | | |
| ipm | 20 | 6 | 36 | | | 19 | |

“Ahora”数据集包含一年的信息,共有 2,262,163 个请求,来自 3,153 个页面源,由 137,314 个不同 IP 地址发起,共 540,503 个用户会话。经过去除内部 IP 请求和未分类访问后,最终数据集包含 102,631 个不同 IP 地址和 2,036,449 次观察到的总访问。

评估

为评估上述技术在新闻推荐问题中的应用效果,选用了古巴奥尔金《Ahora》日报电子版的数据集进行实验。
- 实验目的 :测试模型找到可能对给定类别感兴趣的 IP 的能力,将 IP 按对某类别兴趣的降序排列,这在许多电子商务应用中很常见。
- 测试集和训练集 :采用留一法,为每个 IP 随机选择一个观察到的类别放入测试集,其余类别放入训练集,共进行 10 次划分。
- 评估指标 :使用两种评估指标,Spearman 等级相关系数用于比较排名,Kullback - Leibler 散度用于衡量似然度的相似度。

考虑三种不同模型进行测试:
- 基线模型(BL) :预测时不使用任何协同信息,假设 IP 对某类别兴趣与该 IP 访问网站的平均次数成正比。
- ASPECT 模型(AM) :对于每个类别 C,使用 Pr_AM (Ip_i | C) 对 IP 进行排序得到排名 RK_AM。
- K - Means 模型(KM) :通过特定公式计算 IP 对未观察类别 C 的预期访问次数 N_Acc (IP),进而计算似然度 Pr_KM(IP)。

实验使用 2、3、5 和 10 个聚类进行,结果表明,K - Means 的 Kullback - Leibler 散度小于 ASPECT 模型,但 K - Means 在不同类别上表现不一致,而 ASPECT 模型在所有类别上的评估指标对应性较好。总体而言,使用协同信息有助于预测 IP 兴趣,ASPECT 模型表现最佳,尤其是对于常见类别。

算法 Spearman ‘s rho Kullback - Leibler 散度
基线模型 -0.11103271 2.2269938
K - Means(Z = 2) -0.09640187 1.30158247
K - Means(Z = 3) -0.096401622 1.301584936
K - Means(Z = 5) -0.09639678 1.27112606
K - Means(Z = 10) -0.09639977 1.27132698
ASPECT 模型(Z = 2) 0.160349855 1.462472934
ASPECT 模型(Z = 3) 0.162353762 1.441541524
ASPECT 模型(Z = 5) 0.163573011 1.458416052
ASPECT 模型(Z = 10) 0.160393074 1.433280097
本体学习技术分析

在本体学习领域,研究聚焦于识别和提取分类法类别的候选术语,同时指出文本语料预处理中可能存在的不一致性,并提出获取优质分类法类别候选术语的技术。

语义网与本体学习背景

2001 年,万维网联盟(W3C)提出语义网项目,旨在使机器能够理解网页内容。实现这一目标需要满足三个要求:
1. 使用如 RDF 等语言描述网页内容。
2. 使用本体对不同知识领域进行结构化和形式化。
3. 开发基于语义解释、比较和合并数据的工具,如 OWL。

然而,语义网的形式化成本高,至今尚未完全实现。为解决相关问题,一些研究团队致力于开发元数据编辑器和自动提取器,同时本体工程学科发展起来,其中本体学习过程尤为重要,它专注于半自动生成、提取、修剪、细化和评估本体分类法的工具。

本体学习过程

本体学习过程通常由人类专家完成,包括三个基本阶段:
1. 收集特定领域的文档语料。
2. 应用语言处理技术提取分类法“类”或“类别”的候选术语。
3. 使用分类算法生成表示领域中最重要术语之间关系的树或图,构成本体的分类法。

但该过程常产生不适当的“类”或“类别”,存在特异性过高和数量过多的问题。

研究目标

本研究着重强调文本预处理阶段,旨在:
1. 指出文本集合预处理中可能存在的不一致性。
2. 引起文本挖掘领域,尤其是本体学习过程对该阶段的更多关注。

为实现这些目标,分析和评估了一些常用的预处理技术,如信息检索领域的 tf - idf 统计度量,并提出了一些新的预处理技术,以帮助获得更好的分类法类别候选术语。

方法论

为分析和评估本体学习中常用预处理技术的适用性,使用了以下工具和资源:
- 特定领域的文档语料。
- 专门为实验开发的语言处理程序。
- 语言分析软件。
- 用于控制术语间语义关系(特别是上位关系)的词汇资源。

实验使用了 Reuters - 21578 数据集(1.0 版本),采用“Modified Apte Split”,包含 12,902 个文档,由路透社专家根据 135 个经济主题进行索引。选择该数据库是因为其受欢迎程度、可访问性、标注情况以及在聚类实验中的广泛使用。

实验工具与资源详细剖析

为了确保实验的准确性和有效性,我们在本体学习的研究中使用了一系列特定的工具和资源,下面为你详细介绍:
- 特定领域的文档语料 :我们选用了 Reuters - 21578 数据集(1.0 版本),并采用了“Modified Apte Split”。这个数据集包含了 12,902 个文档,这些文档全部由路透社的专家根据 135 个经济主题进行了索引。选择这个数据集的原因在于它具有较高的受欢迎程度,广泛应用于各类研究中,同时其可访问性良好,且数据经过了专业标注,非常适合作为聚类实验的基础数据。
- 专门开发的语言处理程序 :为了满足本次实验的特殊需求,我们专门开发了语言处理程序。这些程序能够对文档语料进行针对性的处理,确保数据的准确性和一致性,为后续的分析提供坚实的基础。
- 语言分析软件 :借助专业的语言分析软件,我们可以对文本进行深入的分析,提取出关键的信息和特征,为后续的分类和聚类提供有力的支持。
- 词汇资源 :使用词汇资源来控制术语间的语义关系,特别是上位关系。这有助于我们更准确地理解和处理文本中的术语,提高分类的准确性。

下面是这些工具和资源在实验中的使用流程:

graph LR
    A[收集 Reuters - 21578 数据集] --> B[使用专门语言处理程序预处理]
    B --> C[利用语言分析软件分析文本]
    C --> D[通过词汇资源控制语义关系]
    D --> E[进行本体学习实验]
本体学习实验流程

整个本体学习实验遵循一定的流程,具体如下:
1. 数据收集 :收集 Reuters - 21578 数据集,确保数据的完整性和准确性。
2. 预处理 :使用专门开发的语言处理程序对数据进行预处理,去除噪声和无用信息,提取出关键的术语和特征。
3. 分析 :利用语言分析软件对预处理后的数据进行深入分析,挖掘出潜在的语义关系和模式。
4. 控制语义关系 :通过词汇资源控制术语间的语义关系,特别是上位关系,确保分类的准确性和一致性。
5. 实验与评估 :进行本体学习实验,并使用适当的评估指标对实验结果进行评估,以确定模型的性能和效果。

实验结果与分析

在本体学习实验中,我们对不同的预处理技术进行了评估,以确定它们在提取分类法类别候选术语方面的有效性。以下是部分实验结果的表格展示:
| 预处理技术 | 候选术语质量 | 特异性问题改善 | 数量过多问题改善 |
| — | — | — | — |
| tf - idf | 一般 | 有一定改善 | 改善不明显 |
| 新预处理技术 1 | 较好 | 明显改善 | 有一定改善 |
| 新预处理技术 2 | 良好 | 显著改善 | 显著改善 |

从实验结果可以看出,新提出的预处理技术在解决特异性过高和数量过多的问题上表现更为出色,能够有效地提高分类法类别候选术语的质量。

综合对比与总结

将新闻推荐和本体学习两个领域的研究进行综合对比,可以发现它们在数据处理和模型应用方面有一些相似之处,但也存在明显的差异。

对比项目 新闻推荐 本体学习
数据类型 用户 IP 与新闻类别访问数据 特定领域文档语料
核心方法 基于聚类的协同过滤模型 语言处理与分类算法
主要问题 找到对特定类别感兴趣的 IP 提取优质分类法类别候选术语
最佳模型 ASPECT 模型 新预处理技术辅助的模型

在新闻推荐中,ASPECT 模型在预测 IP 对新闻类别的兴趣方面表现最佳,尤其是对于常见类别。而在本体学习中,新提出的预处理技术能够有效解决分类法类别特异性过高和数量过多的问题,提高候选术语的质量。

未来,我们可以考虑将两个领域的技术进行融合,例如在新闻推荐中引入本体学习的思想,对新闻进行更深入的语义分析,以提高推荐的准确性和个性化程度。同时,在本体学习中借鉴新闻推荐的协同过滤方法,更好地挖掘用户的兴趣和需求,为本体的构建提供更有价值的信息。

通过本次研究,我们不仅深入了解了新闻推荐和本体学习的相关技术,还为两个领域的进一步发展提供了新的思路和方向。希望这些研究成果能够为相关领域的研究和实践提供有益的参考。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值