
NLP
文章平均质量分 77
小耗子吹泡泡
这个作者很懒,什么都没留下…
展开
-
分词效果的评测算法(原创)
NLP分词结果测评原创 2017-01-13 12:53:31 · 2647 阅读 · 0 评论 -
编译哈工大语言技术平台云LTP(C++)源码及LTP4J(Java)源码
转自:编译哈工大语言技术平台云LTP(C++)源码及LTP4J(Java)源码JDK:java version “1.8.0_31”Java(TM) SE Runtime Environment (build 1.8.0_31-b13)Java HotSpot(TM) 64-Bit Server VM (build 25.31-b07, mixed mode)OS:win7 64b转载 2017-01-13 15:02:02 · 1583 阅读 · 0 评论 -
处理数据中的空格问题
任务需求:数据预处理阶段,需要剔除标题中前后的空格考虑因素:1、全角转半角2、160号空格要注意,先转化或删除3、使用trim()删除前后代码:1、全角转半角 /** * 全角转半角 * @param input String. * @return 半角字符串 */原创 2017-02-07 17:36:16 · 982 阅读 · 0 评论 -
利用条件随机场模型进行中文分词
中文分词的方法非常多,基于词库是最基本的,但是当前各大互联网公司基本上不会仅仅依赖于词库的分词,一般以机器学习的分词为主,词库分词的方式为辅。在很久以前,我提过利用隐马尔科夫模型进行中文分词,条件随机场其实是隐马尔科夫模型的一次升级版本,网上有很多关于条件随机场模型的分词,但是基本上很难看懂,也许是论文的缘故,那些作者习惯了一上来就是一堆复杂的公式,我也看了一些,获取有些作者自己都没搞懂,就弄了一转载 2017-05-03 20:41:30 · 744 阅读 · 0 评论