本文参考:miml 多示例多标记学习 周志华
多示例多标记的出现:真实的对象并不具有唯一的语义。简单来讲一个对象有不同的特征和属于不同的类别
多示例多标记的优点:先过吧,并没有直观的体会到。比如1对多并不是合式函数,从子概念出发更容易分类等。
算法:基于退化策略的miml学习算法(简单理解一下就是从复杂拆分到简单,退化为传统的监督学习问题)
策略一:首先退化为多示例,mimlboost算法
自己的理解;将多对多拆分,变为多对一(在上图自己想象一下,左边不动右边挑一个来拆分问题),而后拆为一对一
1.思路
n.问题
策略二;首先退化为多示例
理解:把上图中间的黑点看做z,那么z和y就够成了一对多,x和z用聚类来处理??并不懂,再将一对多拆分为一对一
代码网站;http://lamda.nju.edu.cn/Data.ashx
MIBoosting
【1】boosting constructs an ensemble of so-call "weak" classifiers.
【2】在多示例的应用中,弱学习器是一个标准的单示例分类器
【3】最小化指数损失,最后用lod-odds函数衡量它属于哪个模型
【4】N是bag的数量,ni是第i个包的示例个数,xij表示第i个包的第j个示例。而类标签的分类为-1 or 1
【5】已知样本点(x,y),其中x是示例,而y是分类
【6】我们的目标是找一个分类器F(b),最小化指数函数:exp(-yF(b)) 最小。b是指一个x吧
【7】在每一次iteration中,目标是从F(b)扩张到F(b)+cf(b),f(b)为新增加的弱分类器
【8】符号,Ew为加权期望,E为普通的期望
【9】要找到最好的f(b),可以通过max Ew(y*f(b)),问题???弱分类器和y值的带权期望最大化来求?
【10】包级别的权重WB=损失函数。问题???权重用损失来表示么??
【11】将f(b)定义为包内f(b)=∑h(xj)/n,xj是b包中的示例序号。
【12】现在我们求h(.);