中文分词

最新推荐文章于 2025-12-04 17:17:03 发布

最新推荐文章于 2025-12-04 17:17:03 发布 · 67 阅读

文章标签：

#出版 #PHP #J# #.net #Blog

本文介绍了一种在PHP中处理UTF-8编码中文字符串的方法，通过自定义函数CNSubStr实现对中文字符串的正确截取，确保不会出现乱码，并提供了详细的实现代码及测试案例。

php的substr只对E文的东西.所以切的中文会出现乱码

我现在都是用uft8,一个字相当于三个字节

前几天写过一个统计字数的函数,可以按照中文相当于一个字,相当于两个字,相当于三个字来统计.

这次因为要在一定宽度的情况下显示一个字符串,所以一个中文按照一个字来计算是最好的.

比如:

马永占MyZ；;

这里的分号一个是中文标点,一个是英文的,中文的按照两个字来计算

function CNSubStr($str, $length = 5)

{

$partStr = ""; //这个是要返回的截好的

$i = 0; //记数,字符串本身的

$j = 0; //记数,要求的长度

$strlen = strlen($str);

while($i < $strlen && $j < $length) {

if(preg_match("/^[" . chr(0xa1) . "-" . chr(0xff) . "]+$/", $str[$i])) {

$partStr .= $str[$i] . $str[$i+1] . $str[$i+2];

$i += 3;

$j += 1;

}

else {

$partStr .= $str[$i];

$i += 1;

$j += 1;

}

return $partStr;

}

运行结果:

$i = 0 -
$i = 1 - M
$i = 2 - My
$i = 3 - MyZ
$i = 4 - MyZ；
$i = 5 - MyZ；马
$i = 6 - MyZ；马永
$i = 7 - MyZ；马永占
$i = 8 - MyZ；马永占;
$i = 9 - MyZ；马永占;
$i = 10 - MyZ；马永占;
$i = 11 - MyZ；马永占;

转载请注明

马永占(MyZ)

http://blog.youkuaiyun.com/mayongzhan/

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_3224

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

中文分词&词云图

YBK233

06-20

1681

sentence = """风暴降生丹妮莉丝·坦格利安一世、不焚者、弥林女王、安达尔人、洛伊拿人和先民的女王、草海上的卡丽熙、奴隶解放者和火龙之母、维斯特洛的统治者暨全境守护者、阿斯塔波的解放者、弥莎和龙石岛公主"""jieba.add_word("坦格利安")jieba.load_userdict() 通过此函数加载公司内或行业内的专用词典,用于丰富默认词典。

精选资源

baidu.rar_ baidu_dictionary_中文分词_中文分词词典_分词词典

09-14

在本篇文章中，我们将围绕“baidu.rar_baidu_dictionary_中文分词_中文分词_词典_分词词典”这一主题，深入探讨百度曾经使用的中文分词词典及其在实际应用中的价值。首先，让我们了解中文分词词典的重要性。词典是...

参与评论您还未登录，请先登录后发表或查看评论

中文分词的基本原理以及jieba分词的用法

Sunshine

10-15

395

转载地址：https://blog.csdn.net/john_xyz/article/details/54645527 jieba分词原理整理： https://blog.csdn.net/u012558945/article/details/79918771

中文分词的技术发展

weixin_43156294的博客

09-30

2333

中文分词是将一个汉字序列切分成一个一个单独的词的过程。准确的分词是理解文本语义的基础。只有将句子正确地分割成词，才能进一步分析词语之间的关系、提取关键信息，从而准确把握文本的含义。例如，在信息检索中，只有对用户输入的查询语句进行准确分词，才能与数据库中的文档进行有效的匹配，提高检索的准确性。中文分词的质量直接影响翻译的效果。如果分词错误，可能会导致翻译结果出现偏差甚至错误。例如，“羽毛球拍卖完了”这句话，如果分词错误为“乒乓/球拍/卖/完了”，那么在翻译时就会出现严重的问题。

jieba中文分词

weixin_43156294的博客

09-26

1252

Python进行中文分词

具身小站

08-17

1089

jieba（“结巴”）是Python中最流行的中文分词库，采用基于前缀词典实现的高效分词算法，支持多种分词模式，是中文自然语言处理(NLP)的基础工具。核心特性精确模式：试图将句子最精确地切开，适合文本分析全模式：把句子中所有可以成词的词语都扫描出来，速度非常快但有冗余搜索引擎模式：在精确模式基础上，对长词再次切分，提高召回率支持自定义词典：可添加专业领域词汇提高分词准确度支持词性标注：可标注分词结果的词性支持并行分词：利用多核CPU加速分词处理。

基础课8——中文分词

2202_75469062的博客

11-18

2249

中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

中文分词技术全解析

渣渣盟的博客

10-06

3043

开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率。

NLP-中文分词

09-07

706

中文分词是中文自然语言处理中的一个基础任务，目的是将连续的汉字文本划分为有意义的词汇单元。由于中文书写中词汇之间没有明确的分隔符，分词是实现进一步文本分析的前提。常用的中文分词技术包括基于规则的方法、基于统计的方法和基于深度学习的方法。

中文分词与数据可视化

2401_87975790的博客

05-15

933

中文分词是将连续汉字序列切分成有语义意义的词语的过程，是中文自然语言处理的基础任务，直接影响文本分析。分词的难点包括歧义问题、未登录词识别和重叠词处理。常用方法有基于规则、基于统计和混合方法，工具如Jieba、HanLP和SnowNLP。词云是一种通过视觉化展示文本中高频词汇的图表，生成步骤包括文本预处理、分词、统计词频和可视化设计。常用工具有Python的WordCloud库和在线工具如WordArt。中文分词是生成高质量词云的前提，结合两者可以更有效地进行文本分析和可视化。

Java的中文分词器ansj

fangjianj的博客

07-06

2654

Ansj中文分词器，作为一款卓越的开源Java语言工具，它根植于中科院ictclas算法的深厚底蕴，展现出超越众多主流开源分词工具的精准度，如MMseg4j等。Ansj不仅精通于中文分词这一核心技能，更在多个领域展现出其全面性与先进性：它能够精准识别中文姓名，赋予文本处理更深层次的个性化与准确性；支持用户自定义词典，让分词过程更加贴合特定需求与场景；同时，它还集成了关键字提取、自动摘要生成以及关键字标记等高级功能，为文本分析、信息检索等应用提供了强有力的支持。

精选资源

中文分词词库整理.7z

06-30

中文分词是自然语言处理（NLP）领域中的基础任务，它是将连续的汉字序列切分成具有语义意义的词语序列。在这个“中文分词词库整理.7z”压缩包中，包含的可能是一个精心整理的中文词汇集合，用于支持各种中文分词算法...

基于 Java 的中文分词器分词效果评估对比项目

02-21

基于 Java 的中文分词器分词效果评估对比项目。它主要实现了以下功能：分词效果评估：用户可以通过程序对比不同分词器的分词结果，以及计算分词速度、行数完美率、行数错误率、字数完美率、字数错误率等指标。 ...

基于Elasticsearch的IK中文分词器.zip

09-06

基于Elasticsearch的IK中文分词器项目简介 IK中文分词器是一个集成到Elasticsearch中的中文分词插件，支持自定义词典和多种分词模式。该插件基于Lucene IK分词器，提供了细粒度和智能分词两种模式，适用于中文...

精选资源

自然语言处理：使用哈工大 PLT进行中文分词、词性分析及可视化

03-22

中文分词是NLP中的预处理步骤，因为中文没有明显的空格来区分单词，所以需要通过算法将连续的汉字序列分割成有意义的词语。哈工大的PLT提供了分词模块，它基于统计模型，如隐马尔可夫模型（HMM）或条件随机场（CRF）...

在.NET中如何优雅的使用DotNetCore.CAP实现分布式事务,事件总线和消息最终一致性

weixin_42629287的博客

12-01

406

一个基于NET8搭建DDD-微服务-AI智能体-现代化Saas企业级WebAPI前后端分离架构：前端Vue3、IDS4单点登录、多级缓存、自动任务、分布式、AI智能体、一库多租户、日志、授权和鉴权、CAP事件、SignalR、领域事件、MCP协议服务、IOC模块化注入、Cors、Quartz自动任务、多短信、AI、AgentFramework、SemanticKernel集成、RAG检索增强+Qdrant矢量数据库、OCR识别、API多版本、单元测试、RabbitMQ。CAP提供仪表盘用于监控消息状态。

Xamarin 与 .NET MAUI：.NET跨平台原生移动App开发前世今生

李赛赛的专栏

12-01

1183

在移动应用开发领域，开发者长期面临着一个核心挑战：如何用一套代码为iOS和Android两大平台开发高质量的原生应用？Xamarin的出现曾为C#开发者带来了曙光，而现在，.NET MAUI正接过接力棒，开启了跨平台开发的新篇章。

【解决】.NET SDK 下载缓慢的解决方法