【机器学习(十五)】零代码开发案例之二手汽车价格预测-Sentosa_DSML社区版

一、算法和背景介绍

  关于XGBoost的算法原理,已经进行了介绍与总结,相关内容可参考【机器学习(一)】分类和回归任务-XGBoost算法-Sentosa_DSML社区版一文。本文以预测二手车的交易价格为目标,通过Sentosa_DSML社区版实现构建XGBoost回归预测模型,并对模型进行评估,包括评估指标的选择与分析。最后得出实验结论,确保模型在二手汽车价格回归预测中的有效性和准确性。

数据集介绍
  以预测二手车的交易价格为任务,数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。数据集概况介绍:
在这里插入图片描述

二、Sentosa_DSML社区版算法实现

(一) 数据读入与统计分析

  首先,进行数据读入,利用文本算子直接对数据进行读取,右侧进行读取属性配置
在这里插入图片描述
  接着,利用描述算子即可对数据进行统计分析,得到每一列数据的数据分布图、极值、异常值等结果。连接描述算子,右侧设置极值倍数为3,异常值倍数为5。
在这里插入图片描述
  右击执行,得到数据统计分析结果,可以对数据每一列的数据分布图、存储类型,最大值、最小值、平均值、非空值数量、空值数量、众数、中位数、极值和异常值数量等进行计算并展示,结果如下所示:
在这里插入图片描述
  描述算子执行结果有助于我们对于数据的理解和后续分析。

(二) 数据处理

  通过描述算子的执行结果可以观察到,“model”,“bodyType”,“fuelType”,“gearbox”,“power”,"notRepairedDamage"列需要进行缺失值和异常值处理,首先,连接异常值缺失值填充算子,点击配置列选择,选择需要进行异常值缺失值处理的列。
在这里插入图片描述
  然后,对配置列异常值缺失值填充方式进行选择。“model”,“bodyType”,“fuelType”,"gearbox"列选择保留异常值,利用众数填充缺失值,
在这里插入图片描述
  "power"列选择输入规则处理异常值,指定异常值的检测规则为‘power>600’,选择按照缺失值方法进行填充,使用固定值600对缺失值进行填充。
在这里插入图片描述  "notRepairedDamage"列选择输入规则处理异常值,指定异常值的检测规则为notRepairedDamage== ‘-’,选择按照缺失值方法进行填充,使用固定值0.0对缺失值进行填充。
在这里插入图片描述
  然后,利用生成列算子分别提

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值