关于一些中文分词器

找了一些,列出来,备忘.部分内容来自[url]http://lihaiyan.iteye.com/blog/127674[/url]

[b]1 计算所汉语词法分析系统 ICTCLAS[/b]
中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

下载页面: [url]http://www.nlp.org.cn/project/project.php?proj_id=6[/url]

由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。

(1)fenci,Java 的 ICTCLAS,下载页面: [url]http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502[/url]

(2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击[url=http://www.myic.cn/blog/uploadfile/autosplit.rar]本地下载[/url]

(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面: [url]http://www.donews.net/accesine[/url]

[b]2 海量智能分词研究版[/b]

海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。

下载页面: [url]http://www.hylanda.com/cgi-bin/download/download.asp?id=8[/url]


[b]3 CSW中文智能分词组件[/b]

运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。

简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。

下载页面: [url]http://www.vgoogle.net/[/url]

[b]4 C# 写的中文分词组件[/b]

据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。

下载页面: [url]http://www.rainsts.net/article.asp?id=48[/url]

[b]5 (C) scws-1.0.0 正式发布 (含php扩展及2文本词典)[/b] [url]http://www.hightman.cn/[/url]


[b]6 MMSeg Java开源实现[/b][url]http://www.solol.org/projects/mmseg/[/url]


[b]7 小麻雀搜索引擎[/b][url]http://www.sqlet.com/[/url]

[b]8 (C#) 开源 ShootSearch 分词组件 1.0 bate 070312[/b] (支持dotlucene)[url]http://www.shootsoft.net/home/show.aspx?id=38&cid=8[/url]

[b]9 (Java) Paoding Analysis(庖丁解牛)[/b][url]http://code.google.com/p/paoding/[/url]

[b]10 (Java) lucene开源中文分词器 IKAnalyzer2.0.2 共享及源码发布[/b][url]http://linliangyi2007.iteye.com/blog/165287[/url]

[b]11 (ruby) RMMSeg[/b] [url=http://pluskid.lifegoo.com/?p=261]作者[/url],[url=http://www.iteye.com/news/1380]一些介绍[/url]
根据作者自己博客上面的测试,中文分词的准确率可以达到98%以上.应该是MMSEG的Ruby实现.

[b]12 (C) MMSEG[/b][url]http://technology.chtsai.org/mmseg/[/url]

[b]13 (C++)FirteX 是一个功能强大、高性能、灵活的全文索引和检索平台[/b][url]http://www.firtex.org/[/url]


其他:
搜索引擎资料收集(转)[url]http://wind-bell.iteye.com/blog/81504[/url]
几个免费的中文分词模块[url]http://lihaiyan.iteye.com/blog/127674[/url]
开源研究,中文分词[url]http://www.j-kanban.com/bbs/thread-1806-1-1.html[/url]
基于开源大模型的教学实训智能体软件,帮助教师生成课前备课设计、课后检测问答,提升效率与效果,提供学生全时在线练习与指导,实现教学相长。 智能教学辅助系统 这是一个智能教学辅助系统的前端项目,基于 Vue3+TypeScript 开发,使用 Ant Design Vue 作为 UI 组件库。 功能模块 用户模块 登录/注册功能,支持学生和教师角色 毛玻璃效果的登录界面 教师模块 备课与设计:根据课程大纲自动设计教学内容 考核内容生成:自动生成多样化考核题目及参考答案 学情数据分析:自动化检测学生答案,提供数据分析 学生模块 在线学习助手:结合教学内容解答问题 实时练习评测助手:生成随练题目并纠错 管理模块 用户管理:管理员/教师/学生等用户基本管理 课件资源管理:按学科列表管理教师备课资源 大屏概览:使用统计、效率指数、学习效果等 技术栈 Vue3 TypeScript Pinia 状态管理 Ant Design Vue 组件库 Axios 请求库 ByteMD 编辑器 ECharts 图表库 Monaco 编辑器 双主题支持(专业科技风/暗黑风) 开发指南 # 安装依赖 npm install # 启动开发服务器 npm run dev # 构建生产版本 npm run build 简介 本项目旨在开发一个基于开源大模型的教学实训智能体软件,帮助教师生成课前备课设计、课后检测问答,提升效率与效果,提供学生全时在线练习与指导,实现教学相长。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值