最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了。这时候就知道OpenCC的强大了。步骤如下:
1.下载源码:git clone https://github.com/BYVoid/OpenCC
2.安装cmake:brew install cmake
3.安装Doxygen:brew install Doxygen
4.开始安装:(1)cd OpenCC ,(2)make PREFIX=/usr/local ,(3)sudo make PREFIX=/usr/local install
5.测试是否顺利安装:OpenCC --version
6.进入实战:OpenCC -i [源文件] -o [输出文件] -c t2s.json