机器学习概述:
机器学习是人工智能的核心组成部分,与数据挖掘的内涵基本一致.数据挖掘之中会用到的原理机器学习一样都会用到,也可以说数据挖掘是机器学习的一个及其重要的应用方向;
-------------------------------------------------------------------------------
推荐书目:
<<数据挖掘 实用机器学习技术>>
这本书是新西兰人写的,写的很简练,即使看懂其中的一个章节,也可以成为一名优秀的数据挖掘师.
<<数据挖掘 概念与技术>>
这本书是华裔美国人写的,童上面的那本书一样,也很简练以及经典数目,精读细读,收货会非常的丰厚,书中章节文献可以尝试阅读,必然大有裨益!
<<building machine learning systems with python>>
这本书是机器学习领域(使用python)实战型很强的数目,不容易找到,但是呢,看不懂是个很大的问题.
-------------------------------------------------------------------------------
机器学习应用之处:
1推荐系统
2贝叶斯分类器:判定垃圾邮件
3网页自动分类器:类似于百度新闻,爬虫过来,然后自动分类;
机器学习的奠基公式:贝叶斯公式
我有一个很粗俗的理解,这是因为写这篇文章的时候,舍友们正在谈论看片的事情(我要甩锅哈哈),接下来是我得理解.
事件A:冰皮同学会上色情网站;
Bi:冰皮同学往百度搜索引擎中输入了字符串"五月天";
好的.
接下来,我们来探讨一个后验概率的问题:如果冰皮果真的的确确上了色情网站,那么请问他往搜索引擎中输入了"五月天"的概率有多大?
如果计算这个概率呢?
如果我们可以得到一堆训练样本:
1.冰皮同学会输入字符串五月天的概率(频率替代概率);
2.冰皮同学在输入五月天之后会上色情网站的概率(可能他只是想听歌而已);
3.冰皮输入其他的字符串的概率及其输入该字符串时想上色情网站的概率;
那么这样就可以计算出来了;
同样的道理,贝叶斯分类器处理垃圾邮件也不难理解.
我是这么理解的:
事件A:是垃圾邮件
事件Bi:出现了某个字符串
在服务器中,我们可以收集训练样本,从而我们可以计算出来,各个字符串出现的概率,以及对应的出现该字符串的时候,该邮件是垃圾邮件的概率有多大,然后我们就可以根据贝叶斯公式算出来,在垃圾邮件中,那些字符串出现的概率最大;
我们收邮件的时候,根据邮件的内容,提取出字符串,一一比对,如果有在垃圾邮件中出现概率很高的字符串,那么可以判定这是垃圾邮件.
但是我想,计算出这封邮件到底是有多少的概率为垃圾邮件?
到底在什么地方用到了贝叶斯公式呢?
我觉得,我们需要建立一个很好的计算标准来确定如何计算PA PBi,因为这是计算基础;
这个问题并不是那么的方便就可以具体下来.