命令行工具

执行 scws -h 可以看到详细帮助说明。

   ```

   Usage: scws [options] [[-i] input] [[-o]output]

   ```

   * _-i string|file_ 要切分的字符串或文件,如不指定则程序自动读取标准输入,每输入一行执行一次分词

   * _-o file_ 切分结果输出保存的文件路径,若不指定直接输出到屏幕

   * _-c charset_ 指定分词的字符集,默认是gbk,可选utf8

   * _-r file_ 指定规则集文件(规则集用于数词、数字、专有名字、人名的识别)

   * _-d file[:file2[:...]]_ 指定词典文件路径(XDB格式,请在-c 之后使用)

     ```

     自 1.1.0 起,支持多词典同时载入,也支持纯文本词典(必须是.txt结尾),多词典路径之间用冒号(:)隔开,

     排在越后面的词典优先级越高。

    

     文本词典的数据格式参见 scws-gen-dict 所用的格式,但更宽松一些,允许用不定量的空格分开,只有<词>是必备项目,

     其它数据可有可无,当词性标注为“!”(叹号)时表示该词作废,即使在较低优先级的词库中存在该词也将作废。

     ```

   * _-M level_ 复合分词的级别:1~15,按位异或的 1|2|4|8 依次表示 短词|二元|主要字|全部字,缺省不复合分词。

   * _-I_ 输出结果忽略跳过所有的标点符号

   * _-A_ 显示词性

   * _-E_ 将 xdb 词典读入内存 xtree 结构 (如果切分的文件很大才需要)

   * _-N_ 不显示切分时间和提示

   * _-D_ debug 模式 (很少用,需要编译时打开 --enable-debug)

   * _-U_ 将闲散单字自动调用二分法结合

   * _-t num_ 取得前 num 个高频词

   * _-a [~]attr1[,attr2[,...]]_ 只显示某些词性的词,加~表示过滤该词性的词,多个词性之间用逗号分隔

   * _-v_ 查看版本

 

2. **$prefix/bin/scws-gen-dict**词典转换工具

   ```

   Usage: scws-gen-dict [options] [-i] dict.txt[-o] dict.xdb

   ```

   * _-c charset_ 指定字符集,默认为gbk,可选utf8

   * _-i file_ 文本文件(txt),默认为 dict.txt

   * _-o file_ 输出 xdb 文件的路径,默认为 dict.xdb

   * _-p num_ 指定 XDB 结构 HASH 质数(通常不需要)

   * _-U_ 反向解压,将输入的 xdb 文件转换为 txt 格式输出 (TODO)

 

   > 文本词典格式为每行一个词,各行由 4 个字段组成,字段之间用若干个空格或制表符(\t)分隔。

   > 含义(其中只有 <词> 是必须提供的),`#` 开头的行视为注释忽略不计:

   > ```

   > #<词> <词频(TF)> <词重(IDF)> <词性(北大标注)>

   > 新词条 12.0       2.2          n

   > ```

例如:scws -i ./zcy -c utf-8 -o yyy -d /usr/local/scws/etc/dict.utf8.xdb

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值