【转】sklearn中SVM的一些参数

最新推荐文章于 2025-06-09 10:24:51 发布

转载最新推荐文章于 2025-06-09 10:24:51 发布 · 748 阅读

本文深入解析SVM模型中的关键参数C和gamma的作用及影响。C参数控制错误的宽容度，过高易过拟合，过低则欠拟合。Gamma参数影响数据在新特征空间的分布，其值大小决定支持向量数量，进而影响训练和预测速度。文章还探讨了RBF核函数的幅宽对泛化性能的影响，以及如何通过GridSearch寻找最优参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

https://blog.youkuaiyun.com/lujiandong1/article/details/46386201

SVM的两个参数 C 和 gamma

2015年06月06日 10:54:00 BYR_jiandong 阅读数：32087

													<span class="tags-box artic-tag-box">
							<span class="label">标签：</span>
															<a data-track-click="{&quot;mod&quot;:&quot;popu_626&quot;,&quot;con&quot;:&quot;SVM&quot;}" class="tag-link" href="http://so.youkuaiyun.com/so/search/s.do?q=SVM&amp;t=blog" target="_blank">SVM																</a><a data-track-click="{&quot;mod&quot;:&quot;popu_626&quot;,&quot;con&quot;:&quot;kernel&quot;}" class="tag-link" href="http://so.youkuaiyun.com/so/search/s.do?q=kernel&amp;t=blog" target="_blank">kernel																</a>
						<span class="article_info_click">收起</span></span>
																				<div class="tags-box space">
							<span class="label">个人分类：</span>
															<a class="tag-link" href="https://blog.youkuaiyun.com/lujiandong1/article/category/5438277" target="_blank">SVM																</a>
						</div>
																							</div>
			<div class="operating">
													</div>
		</div>
	</div>
</div>
<article class="baidu_pl">
	<div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post">
							            <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-d7e2a68c7c.css">
					<div class="htmledit_views" id="content_views">

SVM模型有两个非常重要的参数C与gamma。其中 C是惩罚系数，即对误差的宽容度。c越高，说明越不能容忍出现误差,容易过拟合。C越小，容易欠拟合。C过大或过小，泛化能力变差

gamma是选择RBF函数作为kernel后，该函数自带的一个参数。隐含地决定了数据映射到新的特征空间后的分布，gamma越大，支持向量越少，gamma值越小，支持向量越多。支持向量的个数影响训练与预测的速度。

此外大家注意RBF公式里面的sigma和gamma的关系如下：

这里面大家需要注意的就是gamma的物理意义，大家提到很多的RBF的幅宽，它会影响每个支持向量对应的高斯的作用范围，从而影响泛化性能。我的理解：如果gamma设的太大，会很小，很小的高斯分布长得又高又瘦，会造成只会作用于支持向量样本附近，对于未知样本分类效果很差，存在训练准确率可以很高，(如果让无穷小，则理论上，高斯核的SVM可以拟合任何非线性数据，但容易过拟合)而测试准确率不高的可能，就是通常说的过训练；而如果设的过小，则会造成平滑效应太大，无法在训练集上得到特别高的准确率，也会影响测试集的准确率。