1.常用算法
决策树
随机森林算法
逻辑回归
SVM
朴素贝叶斯
Knn算法
K-means算法
Adaboost 算法
神经网络
马尔可夫
2.聚类和分类的区别
分类:比如有一堆数据,你已经事先对他们做好了分类。你想要的功能就是,假如来了一条测试数据,我想知道他是哪一类,这就是分类。
聚类:比如有一堆数据,这些数据并没有分成特定的类,现在你想对这堆数据进行分类,并且找出他们聚集的原因,这就是聚类。
3.梯度
若有一个二元函数z=f(x, y),当它由点A移动到点B时(设移动的距离为L),此时函数值z有一个增量M。当L趋于无限小时,若M/L有一个极限值,那么这个极限值就叫做函数在方向AB上的方向导数。
经过点A函数可以朝任意方向移动(当然移动的范围必须在定义域内),函数就有任意多个方向导数,但其中有一个方向上方向导数肯定最大,这个方向就用梯度(grad=ai+bj)这个向量来表示,其中a是函数在x方向上的偏导数,b是函数在y方向上的偏导数,梯度的模就是这个最大方向导数的值。
4.利用梯度下降法求最小值
5.偏导数的求法
6.方向导数求法
7.大数据竞赛
8.互信息
反映了两个事件发生的关联性
9.信息熵
信息熵是消除不确定性所需信息量的度量,也即未知事件可能含有的信息量。
一个事件或一个系统,准确的说是一个随机变量,它有着一定的不确定性。例如,“除东道主俄罗斯外,哪31个国家能进军2018年俄罗斯世界杯决赛圈”,这个随机变量的不确定性很高,要消除这个不确定性,就需要引入很多的信息,这些很多信息的度量就用“信息熵”表达。需要引入消除不确定性的信息量越多,则信息熵越高,反之则越低。例如“中国男足进军2018年俄罗斯世界杯决赛圈”,这个因为确定性很高,几乎不需要引入信息,因此信息熵很低
机器学习入门
最新推荐文章于 2025-05-28 17:48:45 发布