Friso 开源项目使用与启动教程
1. 项目介绍
Friso 是一款使用 C 语言开发的开源高性能中文分词器,基于流行的 mmseg 算法实现。项目完全模块化设计,易于嵌入到各种程序中,如 MySQL、PHP 等。Friso 支持 UTF-8 和 GBK 编码,提供了多种切分模式和功能,包括中文分词、关键字提取、关键短语提取和关键句子提取等。
2. 项目快速启动
Linux 系统下
首先,克隆项目到本地:
git clone https://github.com/lionsoul2014/friso.git
然后,进入项目目录并编译安装:
cd friso
make
sudo make install
如果系统是 64 位,需要将 /usr/lib/libfriso.so
拷贝到 /usr/lib64/
目录下。
Windows 系统下
在 Windows 下,可以使用 Visual Studio 编译生成 DLL 和 LIB 文件,或者使用 cygwin 从源码编译。
3. 应用案例和最佳实践
中文分词示例
Friso 支持多种切分模式,下面是一个使用复杂模式进行中文分词的示例:
./src/friso -init ./friso.ini
输入文本进行分词,比如:
分词文本
歧义和同义词:研究生命起源,混合词: 做B超检查身体,x射线本质是什么,今天去奇都ktv唱卡拉ok去,哆啦a梦是一个动漫中的主角,单位和全角: 2009年8月6日开始大学之旅,岳阳今天的气温为38.6℃, 也就是101.48℉, 英文数字: bug report example@gmail.com or visit http://code.google.com/p/jcseg, we all admire the hacker spirit!特殊数字: ① ⑩ ⑽ ㈩.
分词结果会显示在终端中。
配置文件使用
Friso 的配置文件为 friso.ini
,可以在此文件中设置编码、词库路径、最大匹配长度等参数。
4. 典型生态项目
Friso 提供了对多种编程语言的分词插件,包括 PHP、PHP7、OCaml 和 Lua 等。这些插件可以让开发者方便地在自己的项目中集成 Friso 分词功能。
- PHP 插件:php5-binding 和 php7-binding
- OCaml 插件:ocaml-binding
- Sphinx 插件:sphinx-binding
- Lua 插件:lua-binding
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考