Foundation of Machine Learning:序
前言
看了上一次写博客的日期,也是感叹时光飞逝。从入门Deeplearning到现在已经有一年半的时候。从四牌楼的图书馆到悉尼大学J12的实验室,成长之余更多的是惶恐、不安。看过的很多,留下的很少,看国内很少有写这本书的博客,就叙述其中一二。内容相对高深,如有疏忽差错,请各位老师同学海涵。
看这本书之前你要知道的
并不是所有人都需要看这本Foundation of ML,如果你遇到一些契机或者有想法,值得深究。
- 对Computational learning theory感兴趣或者试图研究这个领域的;
- 好奇机器学习中模型为何能够在某些数据集下work且鲁棒的原因;
- 想对机器学习中概率统计, 模型 泛化能力 深入研究的;
我写这个博客的目的:
- 作为今后的研究方向的一部分;
- 与一些前沿的概念研究相结合,探讨一些新范式、新现象;
- 好记性不如烂键盘;
- 锻炼写作能力,如果有幸能够相互学习探讨那是最好不过了。
博客不会按照章节的顺序进行,除了这本书,还参考了以下一些资料:
- COS 511
- COMP8601
- Machine learning: A probabilistic perspective(MIT Press)
- Slides: Foundations of Machine Learning (NYU: Mehryar Mohri )
- USYD: COMP5328 (USYD: Tongliang Liu)
- Machine Learning Foundation(NTY: Hsuan-Tien Lin)
- Machine Learning(CMU: Maria-Florina Balcan)
General Idea
本书的前四章讲了一件事情,而这件事情主要由由下列几个元素组成:
- Hypothesis: H
- Sample and Distribution: S D
- Concept: C
- c ∈ \in ∈C,h ∈ \in ∈H, S = {x1,…,xm} drawn from D
Concept是真实世界的输出 X 到输出 Y = {0,1} 的映射,Hypothesis是我们假设的寻找真实世界映射的映射集合。算法 A 会根据 S 在 H 中寻找到一个 hs ,目标是得到 h* ,即与真实世界的目标 c* 相同或者很近的 hs ,这也是大部分机器学习算法希望做到的事情。由于只能获得有限的数据 S,且真实数据分布 D 难以获得,同时存在一些其他的因素,例如采样、噪声所带来的干扰,我们并不确定假设集 H 中是否存在能够合理的表达和学习的模型。所以在不同的假设下,例如有限、无限的假设空间,有限、无限的样本空间等,需要统一的、普世的方法来帮助我们判断:目标映射 h* 是否能够在所有样本集中被算法 A 在假设集 H 中被学习寻找到。得到这个问题的答案后,我们就可以“肆无忌惮”的利用学习到的模型根据已知的数据集进行建模调参,从而代替 c* 来表达和预测真实世界的事件。另外还探讨了一些参数之间的关系,例如输入空间大小和假设空间大小等,这些都是影响机器学习模型性能(准确率,稳定性,鲁棒性,搜索复杂度等)的一些参数。
上述的过程中,总结出的一些概念、公式来规范对不同模型的讨论(不足的后面更新补充):
- PAC-learnable (Probably Approximately Correct)
- Rademacher complexity
- McDiarmid’s inequality
- Growth Function
- VC-Dimension (Vapnik-Chervonenkis)
- Generalization-error Bounds
后面几篇博客会围绕这几个概念展开讨论。
本书的后面几章节对具体的算法进行了讨论,由于研究兴趣的关系,相对比较关注第14章,机器学习算法的稳定性。
今后涉及到的课题
作为一只涉世未深的科研新手,研究方向相对杂乱,陈列以下几个感兴趣或正在研究或准备研究的topic,有一些理论性较强,有一些是有工程应用背景,会不定期在博文中记录一些所见所闻所感,欢迎八方之士探讨学习。
- Fairness in Machine Learning
- Stability and Robustness in Machine Learning
- Detection of Cracks in polycrystalline photovoltaic panel
- Prediction of Solar Irradiance, especially in the Antarctic
- Time-series feature extraction and prediction
- Object Detection, Semantic Segmantation, Saliency Detection, Weakly-surpervised

本文回顾了《机器学习基础》一书的核心概念,包括计算学习理论、模型泛化能力及概率统计等内容,旨在探讨机器学习模型在特定数据集上的有效性和鲁棒性。书中详细介绍了Hypothesis、Sample and Distribution、Concept等关键元素,并探讨了PAC-learnable、Rademacher complexity、Growth Function、VC-Dimension等理论,为理解机器学习提供了一个全面的视角。
6891





