
机器学习/信息检索
文章平均质量分 78
BusyCai
这个作者很懒,什么都没留下…
展开
-
浅谈利用逻辑回归来解决文本分类时的模型调优
本文适合有少许文本分类实践经验的同学。1.什么是文本分类?简单点说,给定类别,将文本分到某个或某几个类别中。比如,一篇网页,判断它是体育类还是政治类还是娱乐类。当然网页比文本稍微复杂一些,需要先做一些页面解析等预处理工作。文本分类可看作网页分类的一个子问题。想继续了解文本分类,推荐看计算所王斌老师的PPT ,点击这里。2.什么是逻辑回归(LR, logistic regression)?英文,参考wikipedia的定义,点击这里。中文,可参考这篇,点击这里。目前有不少机器学习方面的开源实现,本人采用了li原创 2011-01-22 21:40:00 · 12688 阅读 · 0 评论 -
《什么是数学》小记@第一章自然数
这是一本怎样的书?这不仅仅是一本抛出各种数学公式、定理、证明方法的数学教材。从这本书的副标题(对思想和方法的基本研究)可以看出,它更多是围绕数学中各个知识点(数论、几何、拓扑学、微积分等)的思考。比如,对于“数学归纳法”的阐述,给出了其定义(满足2个条件)、区别(与经验主义)、证明过程举例(正反都有)、局限性(只可验证不可发现规律)。而我们在初中或者高中接触数学归纳法时,可能面对的问题仅仅是:对于抛出的一个问题,给出数学归纳法的证明过程。这是我目前读完第一章后的初步感受。(本书信息,参考这里)-------原创 2011-01-26 09:56:00 · 4237 阅读 · 0 评论 -
分类算法之朴素贝叶斯(Naive Bayes)和贝叶斯网络(Bayesian Networks)
1.概述大家都知道贝叶斯定理,一个简单的条件概率求解公式:P(A|B) = P(A^B) / P(B) = P(A)*P(B|A) / P(B)形式简单,也容易理解。它的好处在于可以将条件概率P(A|B)通过公式转换为若干已知先验概率(P(A),P(B))和条件概率(P(B|A)原创 2011-07-26 20:32:07 · 18578 阅读 · 4 评论