第一章 绪论
机器学习致力于研究通过计算的手段,利用经验来改善系统自身的性能。
基础
示例: 每条记录是关于一个事件或对象的描述,称为一个“示例”。例如(色泽=浅白;根蒂=蜷缩;敲声=沉闷)
特征向量: 每一个示例称为一个“特征向量”,其特征反应了事件或对象在某方面的表现或性质。
标签: 标签是关于示例结果的信息。
归纳: 从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律。
演绎: 从一般到特殊的“特化”过程,即从基础原理推演出具体状况。
假设空间: 可以把学习过程看成一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到能与训练集匹配的假设,即能够将训练集中的标签判断正确的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。
归纳偏好: 机器学习算法在学习过程中对某种类型假设的偏好,可以看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。
奥卡姆剃刀: 一种常用的基本原则,若有多个假设与观察一致,则选择最简单的那个。
NFL定理: 没有免费的午餐定理,即无论学习算法a多聪明,学习算法b多笨拙,它们的期望性能相同。
历史与概念
数据挖掘是从海量数据中发掘知识,涉及对海量数据的管理与分析。大体来说,数据库领域的研究是为数据挖掘提供数据管理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术。因此,机器学习领域和数据库领域则是数据挖掘的两大支撑。
阅读材料推荐
Flach, P.(2012). Machine Learning: The Art and Science of Algorithms that Make Sense of Data.
出色的入门读物
Hastie, T., R. Tibshirani, and J. Friedman. (2009). The Elements of Statistical Learning, 2nd edition. Springer, New York, NY.
很好的进阶读物
Witten et al. Data Mining: Practical Machine Learning Tools and Techniques.
基于WEKA撰写的入门读物
机器学习领域最重要的国际学术会议是国际机器学习会议(ICML)、国际神经信息处理系统会议(NIPS)和国际学习理论会议(COLT)。最重要的取样学会议主要有欧洲机器学习会议(ECML)和亚洲机器学习会议(ACML)。最重要的国际学术期刊是Journal of Machine Learning Research和Machine Learning。
因为这是机器学习的笔记,其他领域的会议和期刊在这里不添加。