
文本处理与摘要
文章平均质量分 96
深入文本处理和自动摘要的世界。本专栏探讨最新的自然语言处理技术和NLP大模型,如何有效提取关键信息,并生成准确、连贯的文本摘要。
是Yu欸
这里是我读博期间的笔记本,记录学习和成长,争取顺利毕业ing
展开
-
【数据集划分】oracle数据集划分(总结版)
假如你有超百万条oracle数据库数据,那么一直使用的代码:`train_df, temp_df = train_test_split(df, test_size=0.3, random_state=42)`,很可能1h还没划分完数据。最终解决方案:生成一列随机数,然后随机打乱。取前70%的样本划分为训练集,70%到90%之间的样本划分为测试集,剩余的样本划分为验证集。原创 2024-06-06 18:07:31 · 3470 阅读 · 92 评论 -
【数据集划分】假如你有超百万条oracle数据库数据(成真版)
大模型,何所谓大?先从大数据开始。假如你有超百万条oracle数据库数据,那么一直使用的代码:`train_df, temp_df = train_test_split(df, test_size=0.3, random_state=42)`,很可能1h还没划分完数据。刚开始时,看着电脑忙和,自己闲着,很开心。1h过去后,发现事情好像没有那么简单。于是……重新学习数据集划分,从时间复杂度角度,重新审视这些机器学习入门知识。原创 2024-06-05 22:26:13 · 2091 阅读 · 41 评论 -
【pkuseg】由于网络策略组织下载请求,因此直接在github中下载细分领域模型medicine
用户可以使用自己的标注数据来训练专门的分词模型,进一步提升分词效果在特定应用场景中的表现。原创 2024-05-12 15:22:56 · 1579 阅读 · 21 评论 -
【论文阅读-问答】人工智能生成内容增强的甲状腺结节计算机辅助诊断模型:CHATGPT风格的助手
本文提出了一个人工智能生成的内容增强计算机辅助诊断模型(artificial intelligence-generated content-enhanced computer-aided diagnosis, AIGC-CAD)。该模型受ChatGPT架构启发,可通过语义级人机交互协助放射科医生评估甲状腺结节的风险。为了方便模型的训练和验 证,构建了一个由浙江省肿瘤医院19165例甲状腺结节超声病例组成的数据集。经过培 训后,ThyGPT可以自动评估甲状腺结节,并通过人机交互与医生进行有效沟通。原创 2024-04-18 08:30:00 · 7197 阅读 · 59 评论 -
【笔记】探索生成范式:大型语言模型在信息提取中的作用
信息抽取(Information Extraction, IE)旨在从自然语言文本中提取结构化知识,如实体、关系、事件等。随着生成式大型语言模型(Large Language Models, LLM)在文本理解和生成领域展现出卓越能力,其在跨领域和跨任务泛化中的潜力受到广泛关注。近期,众多研究致力于利用LLM的能力,为IE任务提出基于生成范式的解决方案。因此,研究计划对LLM在IE任务中的应用进行全面和系统性的回顾与探索,综述了该领域的最新进展。原创 2024-04-13 18:35:29 · 5431 阅读 · 26 评论 -
【ACL 2023-NER注入到PLM】数据集+实验解读:基于上下文学习的命名实体识别 Learning In-context Learning for Named Entity Recognitio
论文:Learning In-context Learning for Named Entity Recognition标题:基于上下文学习的命名实体识别作者:Jiawei Chen, Yaojie Lu, Hongyu Lin, Jie Lou, Wei Jia, Dai Dai, Hua Wu, Boxi Cao, Xianpei Han and Le Sun地址:[\[2305.11038\] Learning In-context Learning for Named Entity Recog原创 2024-03-21 20:04:17 · 7209 阅读 · 36 评论 -
【ACL 2023-NER注入到PLM】基于上下文学习的命名实体识别 Learning In-context Learning for Named Entity Recognition
在这个实例中,我们看到上面两个文本被作为了元函数进行训练,分别得出的函数是文本的分类为{疾病,病毒}和{电影}。下文中我们认为目标是在文本中找到有{疾病,病毒}属性的文本,最终经过PLM得出SARS-CoV-2是一种病毒. COVID-19 是一种疾病。首先我们看到,蓝色的方框中为微调过的函数,这时我们认为微调过的函数取得了最好的结果,也就是预测准确度非常高。原创 2024-03-20 12:00:45 · 7427 阅读 · 31 评论 -
【ACL 2023获奖论文】再现奖:Do CoNLL-2003 Named Entity Taggers Still Work Well in 2023?
该研究提供了对NER模型泛化能力深入的理解,特别是在长时间跨度下的性能变化。通过创建CoNLL++测试集和对多个模型的评估,揭示了时间漂移对模型性能的影响及其与过拟合无关。此外,研究还强调了模型架构、参数规模、预训练数据的时效性和微调数据量在模型泛化中的重要性。这些发现不仅为未来NER模型的开发提供了宝贵的见解,也对如何评估模型在面对新兴数据时的适应性提供了新的视角。原创 2024-03-19 15:27:58 · 10104 阅读 · 4 评论 -
【ACL2023获奖论文】比你想的更弱:对弱监督学习的批判性审视
在做论文工作时,发现一个问题:不清楚好的论文框架是什么样的,所以来拜读一下【ACL2023获奖论文】,提升一下品味今天阅读的是【ACL 2023获奖论文】主题论文奖:7.Weaker Than You Think: A Critical Look at Weakly Supervised Learning**标题**:比你想的更弱:对弱监督学习的批判性审视原创 2024-03-18 21:15:21 · 6867 阅读 · 32 评论 -
【相关问题解答2】bert中文文本摘要代码:结果输出为一些重复的标点符号和数字
感谢大家的支持和关注。最近好多人咨询之前博客【bert中文文本摘要代码】的相关代码报错问题,由于报错有一定的相似性,因此这里统一进行答复原创 2024-03-13 16:00:34 · 6675 阅读 · 20 评论 -
【相关问题解答1】bert中文文本摘要代码:import时无法找到包时,几个潜在的原因和解决方法
感谢大家的支持和关注。最近好多人咨询之前博客【bert中文文本摘要代码】的相关代码报错问题,由于报错有一定的相似性,因此这里统一进行答复原创 2024-03-13 15:56:39 · 6725 阅读 · 15 评论 -
社交网络分析2(下):社交网络情感分析的方法、挑战与前沿技术
随着社交网络在我们日常生活中的普及,理解和分析这些平台上的情感表达变得越来越重要。社交网络情感分析不仅帮助我们洞察公众情绪,还能在商业、政治和社会研究领域提供关键见解。本博客旨在深入解析情感分析的核心概念、面临的挑战及其在社交网络领域的应用。我们将探讨不同的情感分析方法、最新的技术进展和主要的Python工具库,为感兴趣的研究者和实践者提供一个全面的指南。原创 2023-12-16 21:27:06 · 3282 阅读 · 8 评论 -
社交网络分析2(上):社交网络情感分析的方法、挑战与前沿技术
随着社交网络在我们日常生活中的普及,理解和分析这些平台上的情感表达变得越来越重要。社交网络情感分析不仅帮助我们洞察公众情绪,还能在商业、政治和社会研究领域提供关键见解。本博客旨在深入解析情感分析的核心概念、面临的挑战及其在社交网络领域的应用。我们将探讨不同的情感分析方法、最新的技术进展和主要的Python工具库,为感兴趣的研究者和实践者提供一个全面的指南。原创 2023-12-14 23:55:02 · 4513 阅读 · 55 评论 -
【网安AIGC专题10.11】论文1:生成式模型GPT\CodeX填充式模型CodeT5\INCODER+大模型自动程序修复(生成整个修复函数、修复代码填充、单行代码生产、生成的修复代码排序和过滤)
主要是将主流的预训练代码专项的大模型应用到了代码修复领域,包括生成式大模型和填充式大模型方法上并没有什么创新点,都是比较主流的模型和方法。实验量比较大,涉及多个预训练模型的不同角度对比,包括代码修复准确率、代码生成结果的熵等等内容、以及与传统的NMT模型例如seq2seq等模型对比。类似于输入法,输入前几个字,自动推荐后面可能衔接哪些内容现在主要的语言模型有单向语言模型和双向语言模型:1、单向语言模型就是正向预测,即已知前面的文本信息预测下一个字。原创 2023-10-20 20:28:40 · 5589 阅读 · 2 评论 -
【网安AIGC专题10.11】①代码大模型的应用:检测、修复②其安全性研究:模型窃取攻击(API和网页接口) 数据窃取攻击 对抗攻击(用途:漏洞隐藏) 后门攻击(加触发器+标签翻转)
`大型模型输出格式不受控制`的情况,一些可能的解决方法:1. 输出处理:- **后处理和过滤:** 可以通过编写自定义的后处理代码来筛选和处理大型模型的输出。这可能包括解析输出以识别关键信息、删除不必要的内容、转换输出格式,以及对输出进行筛选和排序。- **数据存储:** 将输出存储到数据库中(可以理解为,输出转换为结构化数据,而不是自由的文本),以便按需检索和查询。- **数据过滤和清理:** 对于文本数据,可以使用自然语言处理技术来过滤和清理输出,以去除噪音和非关键信息。- **增量处理:*原创 2023-10-19 16:39:27 · 7578 阅读 · 5 评论 -
2023无监督摘要顶会论文合集
这篇博文梳理各篇文章的主要脉络,初步标注后期深入学习的思路和板块问题+动机+解决问题的方法前言:查找了近三年顶刊中【文本摘要】的所有论文,并根据论文名字 & 摘要进行了初步归类,现在看看无监督的论文,留个初步印象(dblp中好像不能二次检索?不好分期刊查找论文)原创 2023-07-19 20:20:25 · 6729 阅读 · 0 评论 -
bert中文文本摘要代码(3)
- Tokenizer:使用提供好的Tokenizer对原始文本处理,得到Token序列;- 构建模型:在提供好的模型结构上,增加下游任务所需预测接口,构建所需模型;- 微调:将Token序列送入构建的模型,进行训练。第一part:【bert中文文本摘要代码(1)】https://blog.youkuaiyun.com/wtyuong/article/details/130972775第二part:【bert中文文本摘要代码(2)】https://blog.youkuaiyun.com/wtyuong/article/d原创 2023-06-02 15:44:53 · 6721 阅读 · 2 评论 -
bert中文文本摘要代码(2)
- Tokenizer:使用提供好的Tokenizer对原始文本处理,得到Token序列;- 构建模型:在提供好的模型结构上,增加下游任务所需预测接口,构建所需模型;- 微调:将Token序列送入构建的模型,进行训练。本文主要为第二part,全文近5w字,如有不对的地方请指正(* ^▽ ^ *)原创 2023-06-02 08:58:19 · 6665 阅读 · 1 评论 -
bert中文文本摘要代码(1)
熟悉bert+文本摘要的下游任务微调的代码,方便后续增加组件实现idea原创 2023-06-01 10:47:22 · 7222 阅读 · 9 评论 -
【论文】SimCLS:摘要总结的对比学习(2)
给定一个源文档D和一个参考摘要Sˆ,抽象摘要模型f的目标是生成候选摘要S = f(D),以便它获得由评估度量M分配的最高分数m = M(S, Sˆ)。在这项工作中,我们将整体生成过程分为两个阶段,其中包括:1、生成模型g,用于生成候选摘要,2、评估模型h,用于评分和选择最佳候选摘要。原创 2023-05-07 22:27:52 · 5684 阅读 · 1 评论 -
【论文】SimCLS:一个简单的框架 摘要总结的对比学习(1)
SimCLS框架进行`两阶段抽象摘要` ,其中Doc、S、Ref分别表示文档、生成摘要和引用。在`第一阶段`,使用Seq2Seq生成器(BART)生成候选摘要。在`第二阶段`,使用评分模型(RoBERTa)来预测基于源文档的候选摘要的性能。评分模型通过对比学习进行训练,其中训练示例由Seq2Seq模型提供。原创 2023-05-07 22:16:31 · 5828 阅读 · 0 评论 -
【文本摘要(3)】Pytorch之Seq2seq: attention
本文承接【文本摘要(2)】pytorch之Seq2Seqhttps://blog.youkuaiyun.com/WTYuong/article/details/129683262本代码已跑通,若有问题欢迎留言,一起交流探讨如有理解不对的地方,还请过路的大佬们指点一二原创 2023-04-04 16:16:20 · 5730 阅读 · 3 评论 -
【文本摘要(2)】pytorch之Seq2Seq
本代码已跑通,若有问题欢迎留言,一起交流探讨注释部分结合之前改废的代码加的,方便自己理解如有理解不对的地方,还请过路的大佬们指点一二原创 2023-04-04 10:53:03 · 6367 阅读 · 8 评论 -
【文本摘要(1)】抽取式之textrank(无监督学习):生成200字以内摘要
将每个句子看成图中的一个节点,若两个句子之间有相似性,认为对应的两个节点之间有一个无向有权边,权值是相似度。通过pagerank 算法计算得到的重要性最高的若干句子可以当作摘要。论文中使用下面的公式计算两个句子 Si 和 Sj 的相似度:分子是在两个句子中都出现的单词的数量。|Si | 是句子 i 的单词数。原创 2023-04-03 16:51:02 · 6068 阅读 · 0 评论