自然语言处理
zhangshuliai
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
关联规则发现和新词发现
关联规则发现常常用在购物篮分析中。假设A和B同时被买的频率很高(支持度),买A的人同时买B的可能性也很高(置信度),则可以形成一条规则:A->B。表示买A的人也会买B。对于自然语言处理来说,分词非常关键,而分词都要依赖词库。新词每天都在产生,如果词库中不包含某一个新词,则这个词就不会被分出来,所以自动发现新词酒很关键了。现在的自然语言处理还达不到语义发现新词的能力,也就是说机器第一次看到一个新原创 2012-07-22 23:53:09 · 1405 阅读 · 0 评论 -
文本分类方法学习
让一个从没有接触过文本分类但是了解分类算法的人设计一个文本分类算法,他会怎么做?最简单的想法是对一个类里面所有的文章都分词,求出所有词的出现频率,构成一个向量,对向量归一化。拿到一篇新文章,要对其分类,可以分词此文章,组成一向量,然后和各个训练集里面的各个向量相乘求内积,内积最大的类即为新文档所属的类。这种算法有一个显而易见的问题,文档中大量出现的词实际上是一些如“的”“了”等词,这些词在原创 2012-07-26 22:18:40 · 2369 阅读 · 0 评论 -
个性化推荐语自然语言处理
自然语言处理中有一个定律叫做齐普夫定律。对一本书中的词语按照出现的频率排序,第k个出现的词其频率和1/k成正比。个性化推荐中,如果把所有被推荐的商品按照推荐的频率排序,是不是也符合齐普夫定律?至少是符合广义的齐普夫定律,即商品出现频率和f(k)成正比。个性化推荐的一个标准是有没有很好的覆盖率,即每一个商品都要覆盖。可以用熵来衡量覆盖率,即熵越大覆盖效果越好,这样优化的结果是所有商品均匀分布原创 2012-09-17 20:43:50 · 1034 阅读 · 0 评论 -
统计自然语言处理基础-笔记-绪论
理性主义者和经验主义者都认同人脑中存在一种先验的结构,区别在于经验主义者认为人脑具有联想、概括的能力,这种能力能从感官输入中学习到语言结构。个人的理解是这样的,理性主义者认为人脑就天然蕴含了一种语言规则结构,所以人可以识别语言,人脑就好像是一个句法分析器;经验主义者认为人脑的确有语言规则结构,但这并不够,关键是人脑的一种归纳推理能力,根据所见所闻,能从一种结构推理扩展出另一种结构,即人脑具有学原创 2012-09-20 21:18:53 · 561 阅读 · 0 评论 -
统计自然语言处理基础-笔记-数学基础
说一下条件独立性。各个变量其实是不独立的,多多少少都存在着关系,但是在研究和工程中,都假设添加是独立的,假设是错误的,为什么还能得到相对比较合理的结果?理解是这样的,条件独立性假设是为了方便研究。要不以条件相关为假设,要不以独立性为假设。由于相关性并不是很大,就选择条件独立性吧。贝叶斯方法在很多分类问题上取得不错的效果,但并不能解决异或问题,贝叶斯就设了独立性假设。贝叶斯方法能有好效果,原因是原创 2012-09-20 21:47:16 · 669 阅读 · 0 评论
分享