本文适合有少许文本分类实践经验的同学。 1.什么是文本分类? 简单点说,给定类别,将文本分到某个或某几个类别中。比如,一篇网页,判断它是体育类还是政治类还是娱乐类。当然网页比文本稍微复杂一些,需要先做一些页面解析等预处理工作。文本分类可看作网页分类的一个子问题。 想继续了解文本分类,推荐看计算所王斌老师的PPT ,点击这里。 2.什么是逻辑回归(LR, logistic regression)? 英文,参考wikipedia的定义,点击这里。