《机器学习》(周志华)读书笔记

本文探讨了机器学习领域中模型训练与验证过程中的关键点,提出了关于是否需要在模型选择后重新使用所有原始样本进行训练的疑问。讨论了训练数据量级、参数设置以及交叉验证方法的影响,强调了在模型构建阶段的正确实践。
周志华老师的新书《机器学习》,第28页论及训练集相关的方法时,讲道 “给定包含m个样本的数据集D,在模型评估与选择过程中由于需要留出一部分数据进行评估测试,事实上我们只使用了一部分数据训练模型。因此,在模型选择完成后,学习算法和参数配置已选定,此时应该用数据集D重新训练模型。这个模型在训练过程中使用了所有m个样本,这才是我们最终提交给用户的模型。“
    这里,个人有一点异议。训练数据的量级本就是个相对的数字,如果量级不够,自然训练出来的模型无法满足需求,还需要继续收集样本以训练之。反之,如果训练集的量级已经足够,且参数都已设置好了,那么原来承担验证集的样本,也无必要重新投入模型进行训练。否则,最后一次训练的结果出来后,需要重新调整原来的参数吗? 除之此外,k-fold之类的交叉验证法,已可以满足所收集的样本,均能参与到模型训练过程中,也就将其所代表的总体分布特征在训练过程中进行了体现。
    总结下,个人认为模型训练完成后,无须再把所有样本全部投入,再进行一次训练。
### 周志华机器学习》书籍复习指南 为了有效准备期末考试,建议采用结构化的复习方法来理解周志华所著《机器学习》的核心概念。这本书籍涵盖了广泛的理论和技术细节,在复习过程中应当注重以下几个方面: #### 1. 掌握基础概念 确保对监督学习、无监督学习和支持向量机等基本术语的理解深入透彻[^1]。 #### 2. 关键算法详解 重点研究书中提到的关键算法,比如决策树、朴素贝叶斯分类器以及K近邻算法等。对于每种算法,不仅要了解其工作原理,还要熟悉如何应用这些算法解决实际问题。 #### 3. 数学推导的重要性 注意书中涉及的各种数学公式的推导过程,特别是概率论、线性代数和最优化方面的知识。这部分内容虽然可能较为抽象复杂,但对于构建坚实的理论基础至关重要。 #### 4. 实践练习不可或缺 通过编程实现一些简单的机器学习项目或实验可以帮助加深理解和记忆。尝试使用Python或其他工具包重现书本上的案例,并探索不同参数设置下模型性能的变化[^2]。 ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier # 加载鸢尾花数据集 data = load_iris() X_train, X_test, y_train, y_test = train_test_split(data.data, data.target) # 创建并训练kNN分类器 clf = KNeighborsClassifier(n_neighbors=3).fit(X_train, y_train) print(f'Accuracy on test set: {clf.score(X_test, y_test):.2f}') ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值