R2-Learn特征工程简述

R2-Learn是一个自动化机器学习平台,专注于解决数据预处理、特征选择与新建、建模过程中的挑战。它能自动识别数据类型、检测数据质量并提供数据清洗解决方案,支持用户自定义数据处理方式。此外,R2-Learn通过变量选择与新建功能,结合互信息计算属性变量的重要性,允许用户创建新特征。在建模阶段,R2-Learn依据智能知识库和优化引擎,自动筛选并优化特征工程方法,确保模型的高质量。这一平台适用于不同领域,简化了特征工程和模型调参,使专业和非专业用户都能轻松利用机器学习。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习正在逐渐取代传统统计方法,成为企业公司发展运营环节中提供辅助决策的重要部分。虽然现在有大量的机器学习模型可以直接调用,比如传统机器学习工具包Scikit-Learn,R,Spark ML等,但是要构建出理想的模型往往需要数据科学家根据自己的经验从大量数据中提取有用的特征,即特征工程(Feature Engineering),并且还要从一大堆的模型中选择出最适合数据的模型,其中又涉及了模型超参数(Hyperparameter)的选择问题。

综上所述,机器学习建模不但需要依靠数据科学家的大量专业知识,并且还要耗费相当的时间。R2-Learn的出现则很好地解决了上述两个问题,它提供了一个操作简洁又功能强大的自动化机器学习平台,能够根据用户上传的数据自动识别数据特征,在建模过程中实现自动调参,最终构建出理想的机器学习模型。R2-Learn的自动化建模不要求用户具备专业的机器学习知识,但同时又提供了高级功能模块,能够满足数据科学家等专业人员对进一步数据挖掘的需求。

以下我们将就R2-Learn产品中提供的自动和可供选择的特征工程方法进行说明。R2-Learn产品中涉及的特征工程处理大致可以分为三个阶段,分别是:1. 数据预处理阶段;2. 变量选择与新建阶段;3. 建模阶段。

一、 数据预处理阶段

数据预处理阶段是指用户在提交的数据后,正式建模前需要对数据进行质量检验和清洗的过程。在此过程中R2-Learn能够:

  1. 自动识别数据类型:用户上传数据后,系统能够自动识别数据类型为数值型(numerical)还是类别型(categorical)。同时用户也可以自行指定数据类型,例如某一数据中包含年龄这个属性,在回归问题中,用户可以选择年龄作为数值类型,而在分类问题中选择年龄为类别类型。
  2. 检测数据质量:数据类型设定完成后,R2-learn将自动检测数据质量,包括数据的大小,数据中是否存在错配值(miss match)、缺失值(missing)和界外值(outlier),并给出具体所占比例和分布情况。
  3. 对问题数据进行处理:对于这些问题数据,针对不同的数据类型,系统提供了多种处理方法,用户既可以选择默认推荐,也可以根据自己的经验或要求选择其它的方法(删除、用平均数、中位数替代等)。
    数据预处理系统提供了自动清洗数据的功能,降低了对上传数据质量的要求,大大降低了用户准备数据样本的成本。

二、 属性选择与新建阶段

R2-Learn平台提供了自动建模过程(Automatic Modeling),但是对于有进一步数据挖掘意愿的用户,平台也同时提供了功能更为强大专业的高级建模模块(Advanced Modeling)。在该模块下用户可以通过变量设定功能(Advaced Variable Settings)查看上传数据的各种统计信息作为参考来选择应用于建模的属性变量,同时也可以根据需要新建自定义变量。

  1. 除了传统平均值、标准差等统计信息,R2-Learn还提供了可视化浏览,包括数据分布(histogram)、数据对目标变量的分布(Univariant Plot)、相关性矩阵(Correlation Matrix)等图表,使用户能够更加全面的了解数据中隐含的信息。
    相较于传统使用相关性矩阵选择重要变量的方法,R2-Learn平台使用互信息计算属性变量的重要性,默认推荐互信息较高的属性作为建模变量。当然,用户也可以无视平台的推荐,针对需求自行选择特定的属性。

  2. 平台还提供了多种新建变量的功能,除了简单的算术操作和函数映射(log(),exp()等)外,基于企业中可能涉及的需求分析,模块中还提供了针对数据类型的各种分类、组合、比较和信息提取的功能。
    用户可以针对某类别属性分类,统计不同类别下其它数据的信息。例如某销售数据中存在“年份”属性,平台提供的GroupBy功能能够统计不同年份下整年的销售记录作为新的属性。Combine功能则可以实现属性的拼接,例如某生产销售数据中有“产品类型”和“生产地区”两列属性,通过拼接生成新的属性“产品类型-地区”。

除了以上这些典型功能外,R2-Learn平台的新建变量功能还包括了前后数据比较(Compare)、对数值变量的多种离散化方法(基于频率、数值或具体阈值的Quantile_bin)等,并且还在不断实现新的功能,如针对文本类型的类别变量进行信息提取(文本中提取数字信息、提取非标准时间格式信息)等。对于所有新建的属性,系统都会自动计算其对预测目标变量的重要性,提供给用户参考。
R2-Learn全面的变量设定与新建模块致力于满足不同领域用户理解数据和对进一步数据挖掘的需求。

三、 建模过程

上述特征工程解决了数据清洗整理、初步筛选用于机器学习建模的特征变量(即属性变量),然而特征工程的真正目的是选取出适合模型的特征,属性与目标变量的高相关性并不一定会构建出高质量的预测模型。R2-Learn平台自动建模过程中所应用的特征工程则很好的解决了这个问题,能够针对不同模型,对选择用来建模的属性变量进行再一次的特征工程处理,筛选提炼出最适合某一模型的特征属性。

  1. 建模初始阶段,针对用户选择的特定模型(或默认的全部模型),系统会根据R2-Learn的智能知识库以及自我学习功能所发现累积的相对应规则自动推荐出最适合建模数据集的特征工程方法以及其中涉及的参数集合作为初始构象。

  2. 之后,R2-Learn平台的自动优化引擎会以此为基础,继续探索更有效的特征工程方法;根据不同模型的效果评价选择最适合该模型的特征工程处理方法, 即首先是否需要进行该种特征工程;其次,选择出特定特征工程方法中最合理的参数。同时,R2-Learn的自动优化算法也会针对模型进行模型超参数的选择。

R2-Learn进行自动筛选的特征工程方法可以分为两部分: 首先是编码、归一化、数据权重调节等初步处理;其次是更为复杂的特征处理筛选方法,又可以大致分为四类:1). 基于embeding方法的模型筛选法;
2). 数据的维度处理; 3). 变量属性的组合变化;4). 相似数据的融合。除了以上四大类外,对于分类建模,特征工程中还包括应用各种核函数把低维空间中难以分类的数据集映射到高维空间。

系统建模过程中涉及的特征工程是基于模型的,因此无论之前用户是否选择了不合理的建模属性,或者用户对数据属性并没有全面的了解,R2-learn平台的自动优化算法都可以针对特定模型(用户指定)或者默认全部模型,进行自动处理数据属性的筛选,组合,映射,直到寻找到最适合建模的特征属性。并且在部署阶段(deploying),系统也会对部署数据进行与训练时相同的特征工程处理,整个过程中无需任何人工参与再处理。

R2-Learn机器学习平台解决了建模过程中人工寻找最佳建模属性的问题,能够实现自动化特征工程与模型调参,提供了基于数据最优的模型,同时R2-Learn是一个泛化平台,没有领域局限性,可以应用于不同领域的数据。我们相信无论是专业的数据科学家还是非专业人士都可以从R2-Learn中获得帮助,从数据中看到未来。

关于R2.ai

2015年4月,R2.ai由一群在AI和数据科学领域内最杰出,最富有想象力的团队在硅谷建立。他们致力于将大胆的创意转化为复杂现实中的实际应用。其核心管理团队拥有合计60多年的AI行业经验。

R2.ai是帮助创建AI的AI。该公司是新一代人工智能开发和运营平台的始创者,其使命是为AI在各行业的应用赋能,大规模推动AI的普及和发展。 不管您是拥有大数据还是行业经验,也不管您是AI专家还是普通商务人员,其尖端的AI技术都可以助您快速、便捷、经济地自动构建精准的机器学习模型。更多信息,请访问http://www.r2ai.com.cn

联系我们

问题资讯:contact@r2.ai
产品销售:sales@r2.ai

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值