命令行工具

最新推荐文章于 2024-01-11 18:02:24 发布

原创最新推荐文章于 2024-01-11 18:02:24 发布 · 736 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

scws 专栏收录该内容

4 篇文章

订阅专栏

执行 scws -h 可以看到详细帮助说明。

```

Usage: scws [options] [[-i] input] [[-o]output]

```

* _-i string|file_ 要切分的字符串或文件，如不指定则程序自动读取标准输入，每输入一行执行一次分词

* _-o file_ 切分结果输出保存的文件路径，若不指定直接输出到屏幕

* _-c charset_ 指定分词的字符集，默认是gbk，可选utf8

* _-r file_ 指定规则集文件（规则集用于数词、数字、专有名字、人名的识别）

* _-d file[:file2[:...]]_ 指定词典文件路径（XDB格式，请在-c 之后使用）

```

自 1.1.0 起，支持多词典同时载入，也支持纯文本词典（必须是.txt结尾），多词典路径之间用冒号(:)隔开，

排在越后面的词典优先级越高。

文本词典的数据格式参见 scws-gen-dict 所用的格式，但更宽松一些，允许用不定量的空格分开，只有<词>是必备项目，

其它数据可有可无，当词性标注为“!”（叹号）时表示该词作废，即使在较低优先级的词库中存在该词也将作废。

```

* _-M level_ 复合分词的级别：1~15，按位异或的 1|2|4|8 依次表示短词|二元|主要字|全部字，缺省不复合分词。

* _-I_ 输出结果忽略跳过所有的标点符号

* _-A_ 显示词性

* _-E_ 将 xdb 词典读入内存 xtree 结构 (如果切分的文件很大才需要)

* _-N_ 不显示切分时间和提示

* _-D_ debug 模式 (很少用，需要编译时打开 --enable-debug)

* _-U_ 将闲散单字自动调用二分法结合

* _-t num_ 取得前 num 个高频词

* _-a [~]attr1[,attr2[,...]]_ 只显示某些词性的词，加~表示过滤该词性的词，多个词性之间用逗号分隔

* _-v_ 查看版本

2. **$prefix/bin/scws-gen-dict**词典转换工具

```

Usage: scws-gen-dict [options] [-i] dict.txt[-o] dict.xdb

```

* _-c charset_ 指定字符集，默认为gbk，可选utf8

* _-i file_ 文本文件(txt)，默认为 dict.txt

* _-o file_ 输出 xdb 文件的路径，默认为 dict.xdb

* _-p num_ 指定 XDB 结构 HASH 质数（通常不需要）

* _-U_ 反向解压，将输入的 xdb 文件转换为 txt 格式输出（TODO）

> 文本词典格式为每行一个词，各行由 4 个字段组成，字段之间用若干个空格或制表符(\t)分隔。

> 含义（其中只有 <词> 是必须提供的），`#` 开头的行视为注释忽略不计：

> ```

> #<词> <词频(TF)> <词重(IDF)> <词性(北大标注)>

> 新词条 12.0 2.2 n

> ```

例如：scws -i ./zcy -c utf-8 -o yyy -d /usr/local/scws/etc/dict.utf8.xdb

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。