16、多关系统计学习中的特征生成与选择

多关系统计学习中的特征生成与选择

在多关系统计学习领域,利用从关系数据中生成的丰富特征集通常能提高回归模型的预测准确性。然而,随着对更丰富特征空间的探索,特征候选数量会迅速增长到难以处理的程度。本文将介绍一种名为结构广义线性回归(SGLR)的框架,它灵活地将特征生成与模型选择相结合,有效解决了上述问题。

1. SGLR 概述

SGLR 是一种统计关系学习方法,用于从关系数据库或具有隐式关系结构的领域(如通过引用或超链接链接的文档集合)构建预测回归模型。在 SGLR 中,特征通过对 SQL 查询进行细化图式搜索动态生成,并测试其是否可能包含在广义线性回归模型(如线性、逻辑或泊松回归)中。以下是 SGLR 的主要特点:
- 回归模型优势 :与传统的基于逻辑的归纳逻辑编程(ILP)方法相比,SQL 查询产生的表格可以通过多种方式轻松聚合,提供了丰富的定量和布尔特征空间。回归模型通常比逻辑模型更准确。
- 动态特征生成 :特征生成和统计建模两个主要过程动态耦合到一个循环中。统计建模器知道到目前为止选择的特征类型,这使得查询生成组件能够指导其搜索,专注于特征空间中有前途的子空间。
- 聚类扩展关系 :通过对表中的数据进行聚类,动态扩展初始关系模式,添加新的关系。例如,按文档包含的单词对文档进行聚类或按作者发表论文的场所对作者进行聚类,会产生新的概念(如主题或社区)以及原始项目与它们所在集群之间的新关系。

1.1 学习过程

SGLR 的学习过程可以用以下流程图表示:


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值