好久没有读论文了,去以前收藏的一些作者的网页逛了逛。Hal 的主页和blog上更新了不少东西。
最新的一篇blog列举了他心中TOP N的NIPS 2008的文章。我选择了感兴趣的看了看。
1,Large Margin Taxonomy Embedding with an Application to Document Categorization
为了做文档分类(Document Categorization),一种想法是:首先把类别映射到一个连续的“语意”空间 上,映射的目标是使得每个类别的原型(Prototype)最符合代价函数(Cost Matrix)。也就是说,如果两个类别分错的代价很高,那么他们的原型(可以理解为K means聚类中的原型或者中心点) 越远越好,这样分错的概率就小了。 然后用训练样本做一个回归,学习出参数,把训练的文档也映射到这个“语意”空间上,当然目标是使得训练样本上的代价最小。
作者认为类别映射不能只关注代价函数,而且要“适应”训练样本。这是一个蛋生鸡,鸡生蛋的问题。所以作者提出了一个联合优化这两个步骤的方法,具体的细节没仔细阅读。
2,DiscLDA: Discriminative Learning for Dimensionality Reduction and Classification
LDA的区分性训练方法,对于文本分类,有更好的性能,因为它的topic是和训练样本“适应”的。LDA是无监督的聚类或者说降维,而本文是有监督的。
btw,OneNote是个好东西,以后读paper可以不用在纸上画了,呵呵。