Weka Explorer(探索者界面) 详解(4)logistic回归和回归算法

本文介绍了回归算法的基本概念及其在分类任务中的应用,通过使用Weka软件加载样本数据集,具体演示了线性回归、Logistic回归和M5P算法的操作步骤,并通过误差分析比较了这些算法的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大家好,我又回来了。今天讲一讲回归。

回归算法通常用于数值的预测,但是也能用来分类(通过回归计算属于各分类的概率,取其最大者),所以 weka 把回归算法归并于 分类器标签。

打开 weka 在data文件夹下找到 cpu.with.vendor.arff 文件,这就是我们用来测试的样本,加载该样本。


线性回归算法

切换到分类器标签,在 choose 下拉框中选择 function节点下的 LinearRegression 算法,该算法就是最基本的回归算法——线性回归。

点击 Start 按钮,在 Result List 中找到生成的 分类器。右键该分类器 选择 Visualize classifier errors 可以查看分类器的误差。如图:


可以通过选择X轴和Y轴的属性,来从不同维度浏览数据,数据点用大叉表示,大叉越大说明误差越大。

线性回归算法通过计算平方误差来判断生成的分类器与真实数据的匹配程度。


logistic回归算法

当我们把线性回归算法用于分类的时候,线性回归算法就会有一个很大的弊端:
举例来说 某样本有两个分类A 和 B。
当用线性回归算法计算某个实例是属于A 还是属于B的时候,可以得到实例分属 A 和 B 的概率值,往往得到概率值都不在0到1之间。进一步说,假设分类器预测出实例属于A类的概率是1.88,属于B类的概率是3.27,该实例实际是属于B类的,试问该分类器的误差又该如何计算?不能计算误差又谈何回归?
logistic回归的出现正是用来解决上述问题的。
它的设计思想是这样的。概率值得范围在[0,1]之间,而线性回归的返回值的范围则是负无穷到正无穷之间。找一个函数能把线性回归函数的值域映射到概率值的域。负无穷对应概率值0,正无穷对应概率值1。于是就有了logistic回归:

P(x)=1/(1+exp(-f(x1,x2,x3.....xk)) 

其中f(x1,x2,x3.....xk)是一个线性回归函数。
在logistic回归里计算误差的模型是 对数似然。

M5P回归算法

在这里再向大家介绍一种很实用的回归算法:M5P算法。这个算法是决策树和线性回归算法的一个结合体。
举一个例子向大家说明。
预测 处理器芯片的价格。 处理器芯片分为电脑使用的通用芯片(代表是Intel 和 AMD)和手机、嵌入式设备使用的芯片(ARM芯片)。即使两种芯片的其他参数大体一致,通用芯片和嵌入式芯片的价格还是会有很大不同。如果在生成回归模型的时候把这两类芯片的数据混为一谈,那么生成出来的线性模型的误差必定会变得很大。如果能用决策树算法把样本预先分成两类(通用和嵌入式),然后对两个分类分别进行回归算法,那么回归模型就会好很多。
在 weka 中的分类器算法下拉框中,找到 trees 节点下的 M5P算法,对 cpu.with.vendor.arff 样本进行回归,然后与 LinearRegression 算法 比较误差,可以发现 M5P算法明显更好。如下图(图中根据MMAX这个参数先把样本分成了两类):





转载于:https://www.cnblogs.com/rav009/p/5131125.html

目录列表: 2dplanes.arff abalone.arff ailerons.arff Amazon_initial_50_30_10000.arff anneal.arff anneal.ORIG.arff arrhythmia.arff audiology.arff australian.arff auto93.arff autoHorse.arff autoMpg.arff autoPrice.arff autos.arff auto_price.arff balance-scale.arff bank.arff bank32nh.arff bank8FM.arff baskball.arff bodyfat.arff bolts.arff breast-cancer.arff breast-w.arff breastTumor.arff bridges_version1.arff bridges_version2.arff cal_housing.arff car.arff cholesterol.arff cleveland.arff cloud.arff cmc.arff colic.arff colic.ORIG.arff contact-lenses.arff cpu.arff cpu.with.vendor.arff cpu_act.arff cpu_small.arff credit-a.arff credit-g.arff cylinder-bands.arff delta_ailerons.arff delta_elevators.arff dermatology.arff detroit.arff diabetes.arff diabetes_numeric.arff echoMonths.arff ecoli.arff elevators.arff elusage.arff eucalyptus.arff eye_movements.arff fishcatch.arff flags.arff fried.arff fruitfly.arff gascons.arff glass.arff grub-damage.arff heart-c.arff heart-h.arff heart-statlog.arff hepatitis.arff house_16H.arff house_8L.arff housing.arff hungarian.arff hypothyroid.arff ionosphere.arff iris.2D.arff iris.arff kdd_coil_test-1.arff kdd_coil_test-2.arff kdd_coil_test-3.arff kdd_coil_test-4.arff kdd_coil_test-5.arff kdd_coil_test-6.arff kdd_coil_test-7.arff kdd_coil_train-1.arff kdd_coil_train-3.arff kdd_coil_train-4.arff kdd_coil_train-5.arff kdd_coil_train-6.arff kdd_coil_train-7.arff kdd_el_nino-small.arff kdd_internet_usage.arff kdd_ipums_la_97-small.arff kdd_ipums_la_98-small.arff kdd_ipums_la_99-small.arff kdd_JapaneseVowels_test.arff kdd_JapaneseVowels_train.arff kdd_synthetic_control.arff kdd_SyskillWebert-Bands.arff kdd_SyskillWebert-BioMedical.arff kdd_SyskillWebert-Goats.arff kdd_SyskillWebert-Sheep.arff kdd_UNIX_user_data.arff kin8nm.arff kr-vs-kp.arff labor.arff landsat_test.arff landsat_train.arff letter.arff liver-disorders.arff longley.arff lowbwt.arff lung-cancer.arff lymph.arff machine_cpu.arff mbagrade.arff meta.arff mfeat-factors.arff mfeat-fourier.arff mfeat-karhunen.arff mfeat-morphological.arff mfeat-pixel.arff mfeat-zernike.arff molecular-biology_promoters.arff monks-problems-1_test.arff monks-problems-1_train.arff monks-problems-2_test.arff monks-problems-2_train.arff monks-problems-3_test.arff monks-problems-3_train.arff mushroom.arff mv.arff nursery.arff optdigits.arff page-blocks.arff pasture.arff pbc.arff pendigits.arff pharynx.arff pol.arff pollution.arff postoperative-patient-data.arff primary-tumor.arff puma32H.arff puma8NH.arff pwLinear.arff pyrim.arff quake.arff ReutersCorn-test.arff ReutersCorn-train.arff ReutersGrain-test.arff ReutersGrain-train.arff schlvote.arff segment-challenge.arff segment-test.arff segment.arff sensory.arff servo.arff sick.arff sleep.arff solar-flare_1.arff solar-flare_2.arff sonar.arff soybean.arff spambase.arff spectf_test.arff spectf_train.arff spectrometer.arff spect_test.arff spect_train.arff splice.arff sponge.arff squash-stored.arff squash-unstored.arff stock.arff strike.arff supermarket.arff triazines.arff unbalanced.arff vehicle.arff veteran.arff vineyard.arff vote.arff vowel.arff water-treatment.arff waveform-5000.arff weather.nominal.arff weather.numeric.arff white-clover.arff wine.arff wisconsin.arff zoo.arff
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值