机器学习(周志华)学习笔记 - 调参和最终模型

本文探讨了在机器学习中参数调优的重要性,解释了如何通过划分数据集为训练集和测试集来评估模型性能,以及面对大量参数组合时的实践策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.大多数学习算法都有参数需要设定,参数的配置不同,学得的模型的性能不同。

2.对每种参数配置都训练出模型,然后把对应最好模型的参数作为结果,这样的考虑基本是正确的  

有些参数是实数范围内取值, 不能穷举。 因此对每种参数都训练出来是不可能的,现实中常用的做法,是对每个参数选定一个范围和变化的步长 -- 如在 实数范围[0,0.2]  步长选0.05 则有 0 0.05 0.1 0.15 0.2 这5中可能的参数取值。

进行这样的折中以后调参数依旧很困难, 当有3个参数的时候 所有的情况就是 5^3 = 125 , 即有125个模型需要训练。 

 

3. 为什么要调参,又要将数据集D 划分为 训练集S 和测试集T 由测试误差估计泛化误差?

为了选择合适的算法, 和合适的参数配置,  选择完成后用数据集D重新训练模型, 然后提交给用户。  (得到最终模型)

 

 

 

### 周志华机器学习》书籍复习指南 为了有效准备期末考试,建议采用结构化的复习方法来理解周志华所著《机器学习》的核心概念。这本书籍涵盖了广泛的理论技术细节,在复习过程中应当注重以下几个方面: #### 1. 掌握基础概念 确保对监督学习、无监督学习支持向量机等基本术语的理解深入透彻[^1]。 #### 2. 关键算法详解 重点研究书中提到的关键算法,比如决策树、朴素贝叶斯分类器以及K近邻算法等。对于每种算法,不仅要了解其工作原理,还要熟悉如何应用这些算法解决实际问题。 #### 3. 数学推导的重要性 注意书中涉及的各种数学公式的推导过程,特别是概率论、线性代数最优化方面的知识。这部分内容虽然可能较为抽象复杂,但对于构建坚实的理论基础至关重要。 #### 4. 实践练习不可或缺 通过编程实现一些简单的机器学习项目或实验可以帮助加深理解记忆。尝试使用Python或其他工具包重现书本上的案例,并探索不同参数设置下模型性能的变化[^2]。 ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier # 加载鸢尾花数据集 data = load_iris() X_train, X_test, y_train, y_test = train_test_split(data.data, data.target) # 创建并训练kNN分类器 clf = KNeighborsClassifier(n_neighbors=3).fit(X_train, y_train) print(f'Accuracy on test set: {clf.score(X_test, y_test):.2f}') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值