对于机器学习的学习,我最先接触的是机器学习基石,一门来自台湾大学的林軒田教授的知名coursera的课程。
对于林軒田老师的课程风格,整个课程是以一个故事的形式呈现在大家面前,因此,十分适合有一定数学基础且对计算机知识与应用有一定了解的同学来学习。而本人也是一名大三的在读学生,在此通过记录学习过程中的一些点点滴滴,供大家参考也希望大家多多指教。
首先,林老师对整个课程有个整体授课思路的叙述,突出foundation的这么一个理念,围绕着四个模块,即何时、为什么、如何以及如何更好。
好,下面就是我自己的全部亲笔笔记整理,比别的blog的该课程的笔记要相对更加细致,因为,我也是一步一步的学习着的。
在最开始,需要知道的是,什么是机器学习。
在这个概念之前,那什么是学习,当我们联系生活实际,我们知道,学习是如下这个过程学习从观察出发->学习-->技巧(skill)
而我们可以加以前缀,机器学习就是用电脑去模拟这个过程,即资料(data)->ML->技巧。
那么刨根问底,技巧又是什么呢,我们再一次联系生活,当我们学习到了某种技巧,就是让我的某一个方面增进了。
所以最后的结论是:机器学习是从资料出发->ML->提高了某种计算机的表现。
想想我们小时后是怎么分辨一个事物的,好比我们能认得树,我们想的辨识程序是一个个规则,像小孩子是通过观察去知道,哪些是树,哪些又不是
所以我们知道,机器学习是通过学习的另一种方式——机器自己去分析资料【通过观察数据】
原文是:an alternative route to build complicated systems.
现在我们大概知道了机器学习的基本概念,下面介绍下应用:
1、当人无法实现编程测试——火星旅行
2、不容易写出辨识规则——声音识别
3、超级超短线,高频交易
4、用户个性化——推荐系统
结合应用,以及机器学习的特点,我们归纳出以下三个关键因素,决定了要使用机器学习:
1、要有表现需要增进,有目标,有潜藏模式
2、不知道如何书写规则
3、有资料(data)
即Pattern、definition(noteasily programmable)、data
这时我们看到在我们生活的方方面面,我们都可以用到机器学习:
最后,第一节课的最后一部分就是对普适机器学习算法的整体构造的一个描述:
要有个输入:x
要有个输出:y
对应关系是一个我们希望有的目标函数:f
那么数据就是data实际上就是我们的training example【来自历史记录】
我们希望计算机做一件事——告诉我们一个假说(hypothesis),这个假说对应的是一个接近于f的一个函数g,代表着解决这个x->y对应问题的技能。
所以从符号角度,我们希望从来自于目标函数f的数据d中得到一个假说,一个对应技能g。
由于我们不得已知道f是什么,但是我们希望找到最合适的g以至于可以替代我们不知道的f。
那么这个机器学习的算法又是做什么的呢?
在我们的一般实践中,我们希望同一个问题的这些g存在于一个集合H中,我们的机器学习算法就是从H中选出一个最好的g。
所以综上所述,,所以有两个输入:data和H。
所以一个完整的机器学习过程,应该如图一般从资料出发,计算出一个最优假设g,使其最接近目标函数f。
最最后,就是机器学习和其他相关学科的关系:
机器学习和资料探勘(数据挖掘)
机器学习和人工智慧(人工智能)
机器学习和统计
总结一下,这节课:
1、什么是机器学习
2、机器学习的应用
3、机器学习的结构
4、机器学习和其他领域的关系