好久没看论文了

最新推荐文章于 2025-01-26 10:03:59 发布

fancyerII

最新推荐文章于 2025-01-26 10:03:59 发布

阅读量631

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签： classification prototype application matrix blog 文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/fancyerII/article/details/3748169

机器学习专栏收录该内容

4 篇文章

订阅专栏

好久没有读论文了，去以前收藏的一些作者的网页逛了逛。Hal 的主页和blog上更新了不少东西。

最新的一篇blog列举了他心中TOP N的NIPS 2008的文章。我选择了感兴趣的看了看。

1，Large Margin Taxonomy Embedding with an Application to Document Categorization

为了做文档分类(Document Categorization)，一种想法是：首先把类别映射到一个连续的“语意”空间上，映射的目标是使得每个类别的原型(Prototype)最符合代价函数（Cost Matrix）。也就是说，如果两个类别分错的代价很高，那么他们的原型（可以理解为K means聚类中的原型或者中心点）越远越好，这样分错的概率就小了。然后用训练样本做一个回归，学习出参数，把训练的文档也映射到这个“语意”空间上，当然目标是使得训练样本上的代价最小。

作者认为类别映射不能只关注代价函数，而且要“适应”训练样本。这是一个蛋生鸡，鸡生蛋的问题。所以作者提出了一个联合优化这两个步骤的方法，具体的细节没仔细阅读。

2，DiscLDA: Discriminative Learning for Dimensionality Reduction and Classification

LDA的区分性训练方法，对于文本分类，有更好的性能，因为它的topic是和训练样本“适应”的。LDA是无监督的聚类或者说降维，而本文是有监督的。

btw，OneNote是个好东西，以后读paper可以不用在纸上画了，呵呵。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。