
nltk
文章平均质量分 68
SAN_YUN
这个作者很懒,什么都没留下…
展开
-
自然语言处理nlt文档集合
Python+NLTK自然语言处理学习(一):环境搭建Python+NLTK自然语言处理学习(二):常用方法(similar、common_contexts、generate)Python+NLTK自然语言处理学习(三):计算机自动学习机制 ...原创 2013-09-05 16:47:30 · 373 阅读 · 0 评论 -
通过Trie实现违禁词过滤
敏感词过滤生活在天朝的网站,必须要有保持和谐的工具。根据网站的规模不同选择不同的技术方案:1.前期上一个敏感词过滤系统,发的文章只要命中敏感词就不让发。2.后期可以通过机器学习来自动识别一篇简历是否是正常简历,一篇正常简历的特征还是很明显的,通过训练机器识别正常简历的语料,能让机器自动判断是否是违规信息。敏感词过滤系统比如检测用户输入的一篇文章中是否含有网安给的违禁词列表。现在正常的做法都是通...原创 2013-09-06 12:53:13 · 665 阅读 · 0 评论 -
MMSEG的python实现
原文:http://yongsun.me/2013/06/simple-implementation-of-mmseg-with-python/ Since I heard of MMSEG Chinese word segmentation algorithm (http://technology.chtsai.org/mmseg/) many years ago, I finall...原创 2013-09-06 15:40:41 · 295 阅读 · 0 评论 -
识别文本用哪种语言写成
原文:http://blog.youxu.info/2007/11/08/guess-language-of-text/ ASPN Python Cookbook 提到了一个使用 zlib 库识别文本用哪种语言写成的程序. 其核心代码不超过20行, 据我观察, 识别精度不低于95%. 我略做了一下修改, 把联合国联合国人权宣言作为语料库,目前从 wikipedia 上随便抓一篇爪哇文的...原创 2013-09-06 15:43:23 · 306 阅读 · 0 评论 -
输入法引擎
原文:http://blog.youxu.info/2008/06/03/unsurpassable-introduction-to-chinese-ime/ 一年前我在写别拿技术忽悠人之后, 就想专门写一篇文章, 讲讲中文输入法的实现方法. 后来有人批评小企鹅的代码风格不好, 我还专门看了小企鹅的源代码, 写了不该指责别人代码风格的10个原因. 再后来因为自己的G4老苹果上使...原创 2013-09-06 15:43:43 · 575 阅读 · 0 评论 -
开源中文输入法汇总
原文:http://www.cnblogs.com/Lvkun/archive/2012/12/27/open-source-input-method.html 开源中文输入法在Windows上面中文拼音输入法数不胜数。简单数了一下自己用过,就有六种以上:智能ABC微软拼音紫光拼音搜狗输入法谷歌输入法QQ输入法......可参考wikipedia...原创 2013-09-06 16:35:59 · 6759 阅读 · 0 评论