在GATE中用ICTCLAS处理多个文档

最新推荐文章于 2019-01-08 07:21:38 发布

原创最新推荐文章于 2019-01-08 07:21:38 发布 · 298 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

GATE 专栏收录该内容

0 篇文章

订阅专栏

原本以为把中文分词组件ICTCLAS集成到GATE中，然后添加语料，批量加入文档，直接用语料处理流处理中文语料库就可以实现多文本的分词处理，但在实际操作时，每次运行到一定数量（每次运行成功的数量都不同）的文档后，就会出现了JNA异常，报错为非法内存利用。之后无论处理多少文档，都会报这个错误（就算是一个也会出错），除非重新打开GATE。这显然不是ICTCLAS的证书问题。
我首先想到的解决方法是利用embedd开发的方式，在eclipse中调用GATE，加载自定义的分词器，结果在eclipse中报错不能打开Data文件下的某一个文件，而且那个文件不在Data中。
有人说这是Data里面的文件在某次运行错误后被修改了，所以后来我每次批量运行分词组件时，重新解压缩Data文件夹，并重新下载证书。结果运行900多个文档时，时好时坏，一直没搞清楚什么原因。
后来我索性不用集成到GATE中的那个分词器了，直接在eclipse中使用ICTCLAS，发现所有文档均能正确处理，于是想到：直接在eclipse中遍历文档，进行分词，然后创建GATE的Document对象，利用embedd开发的方式加入到GATE中，然后把文档保存到GATE自己的数据库中，退出eclipse。再打开GATE加载刚刚embedd方式保存的数据库，进行后续的处理。

博客等级

码龄9年

1
原创

2
点赞

0
收藏

0
粉丝

关注

私信

热门文章

在GATE中用ICTCLAS处理多个文档 298

分类专栏

GATE

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。