文本挖掘技术:从关系提取到主题建模
1. 关系提取工具
1.1 Open IE 系统
Open IE 系统是一种用于提取关系的工具。首先,需要在类 UNIX 提示符下输入 sbt compile 命令来安装该系统。此系统使用 Java 7 SDK 和 sbt 构建系统, sbt 命令能让依赖项的下载和编译变得非常简单,执行后会生成包含所有所需依赖库的 openie-assembly.jar 文件。
安装完成后,使用 java -jar openie-assembly.jar 命令来运行系统。该系统默认每行处理一个句子,除非指定 –split 参数,指定后输入文本将被分割成句子。输入可以是文件(作为第一个可选参数),也可以是交互式模式,即手动输入句子。结果会输出到控制台,除非指定第二个可选参数作为输出文件。
Open IE 支持多个命令行参数,运行 java -jar openie-assembly.jar–usage 可显示所有可用参数。其中, –binary 参数用于生成三元组输出, –split 参数用于将输入文本分割成句子, –ignore-errors 参数允许系统在遇到异常时继续执行。输出格式有简单格式和列格式, –format simple 参数可使输出更易读,列格式则用于机器处理。
超级会员免费看
订阅专栏 解锁全文
1342

被折叠的 条评论
为什么被折叠?



