初识机器学习

目录

1.首先讲述了什么是机器学习,机器学习的定义。

2.接下来讲了监督学习的两个例子,主要是房价的预测和肿瘤的判断。

3.无监督学习,用到聚类算法,例子是谷歌新闻。


1.首先讲述了什么是机器学习,机器学习的定义。

吴恩达教授指出Arthur Samue在1959年将机器学习定义为:

在没有明确设置的情况下使计算机具有学习能力的研究领域,

他编写了一个跳棋游戏程序,可以让机器与人不断下棋从中得到经验,最后他的棋艺变得越来越好。

接着后来Tom Mitchell在1998年将机器学习重新定义为:

一个适当的学习问题定义如下:

计算机程序从经验E中学习解决一任务T

进行某一性能度量P,通过P测定在T上的表现因经验E而提高。

举个例子:基于你标记的垃圾邮件,你的邮件程序学会了如何标记垃圾邮件:

在这个例子中,任务T主要是给邮件分类,是否把邮件标记为垃圾邮件是经验E,正确归类邮件的比例是P。

2.接下来讲了监督学习的两个例子,主要是房价的预测和肿瘤的判断。

房价问题是回归问题,预测连续的数值输出


肿瘤判断问题(预测肿瘤是良性的还是恶性的)是个分类问题,在这里分类是指设法预测一个离散值输出

在这里只用了一个特征即肿瘤的大小来预测肿瘤是良性还是恶性的

另一种形式可能会这样,可能会有多个特征或属性,不仅知道肿瘤大小还知道病人的年龄

总结一下:监督学习,对于数据集中的每个样本我们想要算法预测得出正确答案,主要讨论了回归和分类问题,回归是我们的目标,主要预测一个连续纸输出;分类预测离散值输出。

问题1:假如你有几千件相同的货物要卖,在未来三个月你能卖出多少件?这是回归问题,把要卖的货物数量看成一个连续值

问题2:判断用户账号有没有被侵害?这是分类问题,0表示没有入侵,1表示被入侵。这是两个离散值。

3.无监督学习,用到聚类算法,例子是谷歌新闻。

问题1 :把邮件标记为垃圾邮件,监督学习

问题2:谷歌新闻,无监督学习

问题3:市场细分,无监督学习

问题4:糖尿病(是否患有糖尿病),监督学习,像处理肿瘤问题一样

下面是在做测试题时错的题:

Suppose you are working on stock market prediction. You would like to predict whether or not a certain company will declare bankruptcy within the next 7 days (by training on data of similar companies that had previously been at risk of bankruptcy). Would you treat this as a classification or a regression problem?

answer:classification


Which of the following would you apply supervised learning to? (Select all that apply.) In each case, assume some appropriate dataset is available for your algorithm to learn from.

1 In farming, given data on crop yields over the last 50 years, learn to predict next year's crop yields.
监督学习,回归问题,给出过去50年农作物的数据,预测下年农作物产量。

2 Given a large dataset of medical records from patients suffering from heart disease, try to learn whether there might be different clusters of such patients for which we might tailor separate treatments.
非监督学习。将一堆心脏病病人的医疗记录去分析是否可以将他们分类进行特殊的治疗。

3 Examine a web page, and classify whether the content on the web page should be considered "child friendly" (e.g., non-pornographic, etc.) or "adult."
监督学习。分类问题, 将网页分成儿童友好和儿童不宜。

4 Given data on how 1000 medical patients respond to an experimental drug (such as effectiveness of the treatment, side effects, etc.), discover whether there are different categories or "types" of patients in terms of how they respond to the drug, and if so what these categories are.
非监督学习。通过1000个病人对于实验药物治疗的反应,自己发现是否有不同种类的病人对药物有不用的反应。

5 Examine a large collection of emails that are known to be spam email, to discover if there are sub-types of spam mail.
非监督学习,给一堆垃圾邮件,然后从里面分类出各种类型的垃圾邮件。

6 Given genetic (DNA) data from a person, predict the odds of him/her developing diabetes over the next 10 years.
监督学习,分类问题,通过基因数据预测十年后这个人得糖尿病的概率。

7 Examine the statistics of two football teams, and predict which team will win tomorrow's match (given historical data of teams' wins/losses to learn from).
监督学习。分类问题,分析球队的战绩,预测明天哪支球队赢。

8 Take a collection of 1000 essays written on the US Economy, and find a way to automatically group these essays into a small number of groups of essays that are somehow "similar" or "related".
非监督学习。从1000篇文章中进行分类。

9 Given 50 articles written by male authors, and 50 articles written by female authors, learn to predict the gender of a new manuscript's author (when the identity of this author is unknown)
监督学习。分类问题,给50篇男性作家写的文章,50篇女性作家写的文章,估计这篇文章的作者是男性还是女性。

10 Given historical data of children's ages and heights, predict children's height as a function of their age.
监督学习。回归问题,根据身高属于预测孩子的年龄。
Answer:1、3、6、7、9、10

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值