
ai
edagarli
java
展开
-
自然语言处理与分析(one)
LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(I原创 2014-03-24 01:05:13 · 2298 阅读 · 0 评论 -
自然语言处理与分析(two)
接着自然语言处理与分析(one)public void train() throws原创 2014-03-24 12:39:37 · 1832 阅读 · 0 评论 -
机器学习算法之旅
在理解了我们需要解决的机器学习问题之后,我们可以思考一下我们需要收集什么数据以及我们可以用什么算法。本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,很有帮助。机器学习领域有很多算法,然后每种算法又有很多延伸,所以对于一个特定问题,如何确定一个正确的算法是很困难的。本文中我想给你们两种方法来归纳在现实中会遇到的算法。学习方式根据原创 2014-04-20 22:47:13 · 1434 阅读 · 0 评论 -
网页正文提取算法介绍
查找发现了两个比较好的网页正文提取算法:国内:哈工大的《基于行块分布函数的通用网页正文抽取》该算法开源网址为http://code.google.com/p/cx-extractor/,效果为亲测,文章中呈准确率95%以上,对1000个网页抽取耗时21.29秒。看了文章感觉不错,无需html解析,效率应该会高些。国外:大名鼎鼎的arc90实验室的Readability,该算法已经商业化实现转载 2014-04-11 18:39:27 · 6587 阅读 · 1 评论