Day05【实现字符串的正向最大匹配】

原创已于 2025-04-05 11:56:33 修改 · 188 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理

于 2025-04-04 17:25:35 首次发布

自然语言处理专栏收录该内容

23 篇文章

订阅专栏

字符串正向最大匹配

目标
实现
测试结果

目标

给定已知字符串和相关的词表集合，实现该字符串的正向最大匹配算法。

待切分字符串

#待切分文本
sentence = "经常有意见分歧"

对应的词表

#词典；每个词后方存储的是其词频，词频仅为示例，不会用到，也可自行修改
Dict = {"经常":0.1,
        "经":0.05,
        "有":0.1,
        "常":0.001,
        "有意见":0.1,
        "歧":0.001,
        "意见":0.2,
        "分歧":0.2,
        "见":0.05,
        "意":0.05,
        "见分歧":0.05,
        "分":0.1}

要求切分结果

#目标输出
target = ['经常', '有意见', '分歧']

实现

# 实现正向最大匹配
def forward_match(sentence, Dict):
    maxLength = 0
    vacab = []
    for str, pro in Dict.items():
        vacab.append(str)
        if len(str) > maxLength:
            maxLength = len(str)
    curlist = []
    while len(sentence) > 0:
        end = min(maxLength + 1, len(sentence) + 1)
        for j in reversed(range(0, end)):
            word = sentence[0:j]
            if word in vacab:
                curlist.append(word)
                sentence = sentence[j:]
                break
    return curlist

测试结果

if __name__=="__main__":
    match = forward_match(sentence, Dict)
    print(match)

运行结果：

[‘经常’, ‘有意见’, ‘分歧’]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MechTrooper

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python核心技术开发指南(014)——字符串

谷哥的小弟

08-24

1111

本文介绍了Python字符串的定义方式、主要特性及常用操作。字符串可通过单引号、双引号或三引号定义，具有不可变性、序列特性和Unicode兼容性。支持索引、切片、拼接和格式化操作，其中格式化包括%占位符、str.format()和f-string三种方式。文章还详细讲解了字符串的转义字符、原始字符串以及多行文本处理技巧，为Python文本处理提供了全面指导。

滴水三期：day21.2-字符串相关操作正向代码

Edimade的博客

04-27

490

一、使用指针编写下列功能的代码（1.返回字符串的长度>2.字符串的复制>3.字符串的拼接>4.比较字符串是否相等）>二、指针函数>三、模拟CE搜索指定字符串的功能

参与评论您还未登录，请先登录后发表或查看评论

8. 字符串基本操作

weixin_43484713的博客

06-09

889

Python字符串操作指南摘要：本文介绍了Python字符串的基础操作。字符串创建可使用单引号或双引号，二者功能相同但需注意引号匹配问题，嵌套使用时可用不同引号避免转义。str()函数可将其他类型转为字符串。字符串访问支持索引（正负索引）、切片（[start:stop:step]）和遍历操作。常用方法包括大小写转换（lower()/upper()等）、查找替换（find()/replace()等）。需注意字符串不可变性，所有操作均返回新字符串而非修改原字符串。示例代码演示了各种字符串操作的实际应用。

javascript中字符串处理，常用的方法汇总

景天科技苑

03-07

1980

虽然 JavaScript 有很多用处，但是处理字符串是其中最流行的一个。下面让我们深入地分析一下使用 JavaScript 操作字符串。在 JavaScript 中， String 是对象。 String 对象并不是以字符数组的方式存储的，所以我们必须使用内建函数来操纵它们的值。这些内建函数提供了不同的方法来访问字符串变量的内容。下面我们详细看一下这些函数。操作字符串的值是一般的开发人员必须面临的家常便饭。操作字符串的具体方式有很多，比如说从一个字符串是提取出一部分内容来等等....

字符串刷题（day1）题解

m0_74375748的博客

04-24

886

最少的反转次数就是字典序最大的字符后面的字符数量（每一次右移会有一个比最大字典序字符小的字符，移动到它的前面，当最大字典序的字符移动到子序列末尾的时候，再次移动就可以视为没有移动）。每个字符串可以看做由一个前缀字符和一个后缀字符串组合而成，不同长度的后缀字符串对答案的贡献是相同的，但是前面的字符是不同的，所以只用记录前面出现字符的种类即可。所以不难发现，以n的因数为循环节是不可以的，所以要想使不相同的字符最少，就要以n的最小非因数大小为循环节大小。为两者不同的字符对的对数,s为相同的字符对的对数。

Python-Day2（字符串/列表/元组）

喜欢吃冰棍de谷利文君的博客

06-30

366

Task2**（2day）** 1 String（字符串） 1.1 基本操作 Python中的字符串中用 ’ 或 “ 。 字符串连接符：+ 字符串复制：* （后面紧跟的数字为复制的次数）例如： 字符串str = ‘Runooob’；输出结果： 1.2 读取方式 **读取方式：**字符串的使用语法与数组类似，采用下标的方式。变量[头下标:尾...

从0开始学python（day10——字符串）

qq_56657939的博客

11-05

708

所谓字符串，就是由零个或多个字符组成的有限序列，一般记为：在Python程序中，如果我们把单个或多个字符用单引号或者双引号包围起来，就可以表示一个字符串。字符串中的字符可以是特殊符号、英文字母、中文字符、日文的平假名或片假名、希腊字母、Emoji字符等。s2 = "你好，世界！# 以三个双引号或单引号开头的字符串可以折行s3 = '''hello,world!'''提示print函数中的end=''表示输出后不换行，即将默认的结束符\n（换行符）更换为''（空字符）。

Python字符串详解

qq_53029904的博客

06-23

2106

python字符串的基本操作

字符串的算法题目-字符串

weixin_38568503的博客

11-17

1354

算法

字符串搜索与匹配终极艺术：re模块的完全解析

正则表达式，简称 regex，是一种用于匹配字符串中字符组合的模式。它是由普通字符（例如字母或数字）以及特殊字符（称为"元字符"）组成的一种文本模式。re模块是Python标准库的一部分，它提供了一套功能强大的正则...

MT-Safety 标签env 和 locale

dlz0836的博客

01-06

表示：函数本身不做同步依赖全局对象在多线程期间保持不变glibc 明确规定：修改 locale / env 的函数是 MT-Unsafe多线程程序不应在运行期调用它们只要遵守约束：读取是安全的行为可预测env和locale不是“线程不安全”的警告，而是“请不要在多线程运行时修改它们”的契约说明。

【Python自然语言处理】理论讲解：自然语言处理技术总览

nmdbbzcl的博客

01-08

241

文本生成是指自动生成自然语言文本的任务，包括机器翻译、自动摘要、问答、对话等多个具体的应用场景。文本生成的关键挑战包括生成符合语法的句子、保持与输入的语义一致、高效搜索输出空间等。解码策略影响文本生成质量。贪心解码在每个步骤选择概率最高的词，速度快但容易陷入局部最优。束搜索保留概率最高的k个假设进行有限宽度的搜索，取得了速度和质量的平衡。采样方法从模型的概率分布中采样词，可以生成更多样化的结果，虽然有时会降低质量。

原创人工智能与数据领域700+职位数据集：支持就业市场分析、NLP训练与推荐系统开发的高质量研究资源

NGBQ12138的博客

01-08

586

人工智能与数据领域700+职位数据集本数据集包含2025年AI与数据科学领域的700多个公开职位信息，涵盖职位名称、公司、地点、薪资范围等关键字段，聚焦数据科学家、机器学习工程师等热门岗位。数据来源公开合规，经过严格整理确保准确性。核心价值：支持就业市场趋势分析为NLP研究提供丰富文本资源可用于开发个性化职位推荐系统助力职业路径分析与技能需求研究该数据集特别适合教育机构、研究人员和开发者用于学术研究、课程案例及AI工具开发。所有数据均为结构化格式，便于直接分析使用。 [获取地址：https:/

Language Models are Unsupervised Multitask Learners（翻译）

m0_56263746的博客

01-08

640

借助大规模数据集、高容量模型与监督学习的组合方式，机器学习系统如今在其受训任务上的表现（平均来看）已十分出色（Krizhevsky 等人，2012；Sutskever 等人，2014；Amodei 等人，2016）。然而，这类系统鲁棒性较差，对数据分布的细微变化（Recht 等人，2018）以及任务设定的微调均十分敏感（Kirkpatrick 等人，2017）。当前的系统更适合被定义为 “专精型专家”，而非 “全能型通才”。

【Python自然语言处理】NLTK库在中国的使用安装方法保姆级教程，因为NLTK库官方下载代码在国内无法使用，部分数据包无法下载

nmdbbzcl的博客

01-09

185

自然语言处理（Natural Language Processing, NLP）是人工智能领域中最重要的研究方向之一，它旨在使计算机能够理解、分析和生成人类语言。NLTK（Natural Language Toolkit）是一个用Python编写的开源自然语言处理库，由宾夕法尼亚大学的Steven Bird和Edward Loper开发，已经成为全球NLP研究者和开发者的标准工具。

6. 自然语言处理NLP - 迁移学习

weixin_46080135的博客

01-09

624

🎯 “预训练是底子，微调是点睛，选对模型才不费劲。概念组件作用类比适合场景Pipeline一键推理自动售货机快速试用、DemoAutoModel自动加载模型智能快递员快速开发、微调具体模型类工厂工人研究、调试Tokenizer文本转数字摩斯电码机所有任务必备Datasets数据管理超市货架训练、评估补充点：fasttext工具包。

7. 自然语言处理NLP - Bert

weixin_46080135的博客

01-09

802

1.BERT 是一个双向、基于 Transformer 的预训练语言模型，能深刻理解上下文。2.它通过“掩码预测”和“下一句判断”学会语言，再微调完成具体任务，实现“一次学习，处处可用”。3.它强大但不万能，适合高精度语义任务，但需权衡计算成本和实际需求。🎯 评价：“别迷信 BERT，但别忽视它。它不是终点，而是通往更好模型的跳板。概念Bert和GPT的一个简单对比图中表示的是Bert相比于GPT，它是一个双向的RNN结构。

HY-MT1.5-1.8B 支持多语言神经机器翻译；Med-Banana-50K 提供医学影像编辑基准数据