Friso 开源项目使用与启动教程

Friso 开源项目使用与启动教程

friso High performance Chinese tokenizer with both GBK and UTF-8 charset support based on MMSEG algorithm developed by ANSI C. Completely based on modular implementation and can be easily embedded in other programs, like: MySQL, PostgreSQL, PHP, etc. friso 项目地址: https://gitcode.com/gh_mirrors/fr/friso

1. 项目介绍

Friso 是一款使用 C 语言开发的开源高性能中文分词器,基于流行的 mmseg 算法实现。项目完全模块化设计,易于嵌入到各种程序中,如 MySQL、PHP 等。Friso 支持 UTF-8 和 GBK 编码,提供了多种切分模式和功能,包括中文分词、关键字提取、关键短语提取和关键句子提取等。

2. 项目快速启动

Linux 系统下

首先,克隆项目到本地:

git clone https://github.com/lionsoul2014/friso.git

然后,进入项目目录并编译安装:

cd friso
make
sudo make install

如果系统是 64 位,需要将 /usr/lib/libfriso.so 拷贝到 /usr/lib64/ 目录下。

Windows 系统下

在 Windows 下,可以使用 Visual Studio 编译生成 DLL 和 LIB 文件,或者使用 cygwin 从源码编译。

3. 应用案例和最佳实践

中文分词示例

Friso 支持多种切分模式,下面是一个使用复杂模式进行中文分词的示例:

./src/friso -init ./friso.ini

输入文本进行分词,比如:

分词文本
歧义和同义词:研究生命起源,混合词: 做B超检查身体,x射线本质是什么,今天去奇都ktv唱卡拉ok去,哆啦a梦是一个动漫中的主角,单位和全角: 2009年8月6日开始大学之旅,岳阳今天的气温为38.6℃, 也就是101.48℉, 英文数字: bug report example@gmail.com or visit http://code.google.com/p/jcseg, we all admire the hacker spirit!特殊数字: ① ⑩ ⑽ ㈩.

分词结果会显示在终端中。

配置文件使用

Friso 的配置文件为 friso.ini,可以在此文件中设置编码、词库路径、最大匹配长度等参数。

4. 典型生态项目

Friso 提供了对多种编程语言的分词插件,包括 PHP、PHP7、OCaml 和 Lua 等。这些插件可以让开发者方便地在自己的项目中集成 Friso 分词功能。

friso High performance Chinese tokenizer with both GBK and UTF-8 charset support based on MMSEG algorithm developed by ANSI C. Completely based on modular implementation and can be easily embedded in other programs, like: MySQL, PostgreSQL, PHP, etc. friso 项目地址: https://gitcode.com/gh_mirrors/fr/friso

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

周琰策Scott

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值