使用魔搭社区的模型对对话文本进行语义分割

最新推荐文章于 2025-04-05 00:57:23 发布

鱼鱼9901

最新推荐文章于 2025-04-05 00:57:23 发布

阅读量636

点赞数 1

分类专栏： nlp 文章标签：自然语言处理人工智能

本文链接：https://blog.youkuaiyun.com/weixin_72100405/article/details/136498524

版权

nlp 专栏收录该内容

15 篇文章

订阅专栏

本文介绍了如何对文本进行前处理，包括填充不足长度和替换特殊符号，然后使用DAMO的BERT文档分割模型进行语义分割，最终获取有意义的段落。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、对文本进行前处理：

①当文本长度小于512时，填充其长度。经过各种填充的尝试，发现将原对话再续几遍对分割的效果最好：

        while len(inputs) < 512:
            inputs += inputs

②将 “小明：” 替换成 “小明，” 【因为太多的“：”会导致语义分割出错】

2、导入模型，开始分割：

from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

p = pipeline(
    task=Tasks.document_segmentation,
    model='damo/nlp_bert_document-segmentation_chinese-base'
    )

result = p(documents=inputs)

result是一个字典，其中的'text'就是分割后的结果，分割后的段落以‘\t’开始，以'\n‘结束，所以进行后处理如下：

tmp = re.split(r'\n\t', re.sub(r'^\t', '', result['text']))
text = list(filter(None, tmp))

此时text是列表，每一个元素都是一个语义相近的一段，分割结束

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

鱼鱼9901

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[1]-最新版快速实践并部署（检索增强生成RAG大模型）

丨汀、的博客

06-13

4027

基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[1]-最新版快速实践并部署（检索增强生成RAG大模型）

第一部分什么是LangChain：LLM的外挂/功能库

强化学习曾小健

08-14

2623

DB-GPT基于FastChat 构建大模型运行环境，并提供 vicuna 作为基础的大语言模型。此外，通过LangChain提供私域知识库问答能力，且有统一的数据向量化存储与索引：提供一种统一的方式来存储和索引各种数据类型，同时支持插件模式，在设计上原生支持Auto-GPT插件，具备以下功能或能力根据自然语言对话生成分析图表、生成SQL与数据库元数据信息进行对话, 生成准确SQL语句与数据对话, 直接查看执行结果。

参与评论您还未登录，请先登录后发表或查看评论

一文掌握文本语义分割：从朴素切分、Cross-Segment到阿里SeqModel

结构之法算法之道

01-04

1万+

之所以写本文，源于以下两点详见，但该系统也有个可选项，可以选择达摩院开源的语义分割模型：nlp_bert_document-segmentation_chinese-base考虑到在RAG中，embedding和文档语义分割、段落分割都是绕不开的关键点，故本文重点梳理下各类典型的语义分割模型。

大模型：文本分割模型

m0_37559973的博客

06-13

3708

BERT文本分割-中文-通用领域(nlp_bert_document-segmentation_chinese-base)，该模型基于wiki-zh公开语料训练，对未分割的长文本进行段落分割。提升未分割文本的可读性以及下游NLP任务的性能。

各bert 模型下载

kyle1314608的博客

06-04

5456

https://www.ctolib.com/ymcui-Chinese-BERT-wwm.html

基于LangChain+LLM的本地知识库问答：从企业单文档问答到批量文档问答

最新发布

topfine的博客

04-05

1144

RAG与LLM的优势如何构建垂域（向量）知识库文本分块的技巧构建一套完整 RAG 系统的步骤

声临其境！当ChatTTS遇上腾讯云HAI，定制你的专属智能语音服务

qq_44373268的博客

06-05

1374

「语音」作为人工智能的「启蒙钥匙」，不仅率先踏出实验室大门，步入寻常百姓家，也成为了人类与AI初次触电的「桥接技术」。初期，智能语音技术的研究重心落在了语音识别领域，致力于使机器具备理解人类语言的能力。回溯历史，推出的Audrey系统，作为电子计算机领域的先驱，成功辨识了10个英文数字，开启了这一征程。1988年，李开复博士突破性地构建了首个运用隐马尔可夫模型的大词汇量语音识别系统Sphinx。

NLP之BERT中文文本分类超详细教程

小小码农

04-24

5万+

bert模型是Google在2018年10月发布的语言表示模型，Bert在NLP领域横扫了11项任务的最优结果，可以说是现今最近NLP中最重要的突破。Bert模型的全称是Bidirectional Encoder Representations from Transformers，是通过训练Masked Language Model和预测下一句任务得到的模型。关于Bert具体训练的细节和更多的原...

RAG知识库问答LangChain+LLM的二次开发：商用时的典型问题及其改进方案

结构之法算法之道

12-27

1万+

如之前的文章所述，我司下半年成立大模型项目团队之后，我兼管整个项目团队，但为让项目的推进效率更高，故分成了三大项目组对于知识库问答，现在有两种方案，一种基于llamaindex，一种基于langchain +LLM，考虑到我已在此文《基于LangChain+LLM的本地知识库问答：从企业单文档问答到批量文档问答》中详细介绍了langchain、以及langchain-ChatGLM项目的源码剖析，本文重点则阐述如何通过基于langchain-chatchat二次开发一个知识库问答系统，包括其商用时的典型问题

【NLP】BERT 模型与中文文本分类实践

fengdu78的博客

09-07

1243

简介2018年10月11日，Google发布的论文《Pre-training of Deep Bidirectional Transformers for Language Underst...

NLP 中的语言模型预训练&微调

CLOUD

12-13

1万+

1 引言语言模型（Language Model），语言模型简单来说就是一串词序列的概率分布。具体来说，语言模型的作用是为一个长度为m的文本确定一个概率分布P，表示这段文本存在的可能性。在实践中，如果文本的长度较长，P(wi | w1, w2, . . . , wi−1)的估算会非常困难。因此，研究者们提出使用一个简化模型：n元模型（n-gram model）。在 n 元模型中估算条件概率...

基于LangChain+LLM大模型构建企业本地知识库问答系统实现方案

xubinbrave的博客

03-26

3884

分析了LangChain的源码并且介绍了相关的应用构建方式

AI领域常用大模型地址及下载方法（持续更新）

争渡的博客

07-11

1万+

为了方便大家使用UIE的强大能力，PaddleNLP借鉴该论文的方法，基于ERNIE 3.0知识增强预训练模型，训练并开源了首个中文通用信息抽取模型UIE。该模型可以支持不限定行业领域和抽取目标的关键信息抽取，实现零样本快速冷启动，并具备优秀的小样本微调能力，快速适配特定的抽取目标。在商业知识图谱数据开放基础之上，我们还开放了部分知识图谱技术平台能力，开源了若干知识图谱构建、融合、推理和应用工具，以促进知识图谱技术社区的发展。现在大模型比较多，平时需要调试对比，就把这些大模型简单一个收集。

NLP - 基于 BERT 的中文命名实体识别（NER)

张伟的专栏

08-22

2666

序列标注任务是中文自然语言处理（NLP）领域在句子层面中的主要任务，在给定的文本序列上预测序列中需要作出标注的标签。常见的子任务有命名实体识别（NER）、Chunk 提取以及词性标注（POS）等。 BERT模型刷新了自然语言处理的 11 项记录，成为 NLP 行业的新标杆。既然 Google 开源这么好的模型架构和预训练的中文模型，那我们就使用它构建一个序列标注模型。 PS: 最近我开源了一个极简文本分类和序列标注框架Kashgari,今天的教程将使用这个框架构建模型。如果想了解文本分类，可...

一文包揽文本分割（话题分割）的6种评估性能的方法，理论+样例+代码，看完还不会的来找我！

刘炫320的博客

04-09

6440

在本文中，我们将会简要介绍文本分割任务，并介绍6种常用的性能评估指标，使用通俗易懂的例子进行一个直观的感受，并最后使用代码实现评估过程，让你看完本文，就可以进行文本分割任务的评估了。如果看完理论+样例+代码还是不会的话，直接私聊我！

魔塔社区模型部署

04-03

好的，我现在需要帮助用户了解如何部署魔塔（ModelScope）社区的模型。首先，我需要回忆一下魔塔社区的基本信息。ModelScope是阿里巴巴推出的一个开源模型平台，提供各种预训练模型和工具，方便开发者使用和部署。...