
NLP
文章平均质量分 76
余俊晖
余俊晖,NLP炼丹师,目前专注自然语言处理领域研究。曾获得国内外自然语言处理算法竞赛TOP奖项近二十项。在国内外SCI、顶会等发表多篇论文。
展开
-
CCL 2023 电信网络诈骗案件分类评测-第一名方案
文本分类是自然语言处理领域的基础任务,面向电信网络诈骗领域的案件分类对智能化案件分析具有重要意义。本任务目的是对给定案件描述文本进行分类。案件文本包含对案件的整体描述(经过脱敏处理)。具体细节参考第2部分。案件文本内容为案情简述,即为受害人的笔录,由公安部门反诈大数据平台导出。从反诈大数据平台共计导出 13 个类别的数据,去除了“其他类型诈骗”类别,因此最终采用 12 个类别。去除了案件文本中的姓名、出生日期、地址、涉案网址、各类社交账号以及银行卡号码等个人隐私或敏感信息。原创 2023-07-30 09:32:35 · 2756 阅读 · 0 评论 -
【文档智能】ERNIE-Layout
这是百度在2022年的一篇工作:ERNIE-Layout。该工作通过增强布局知识的预训练模型,以学习更好的表示,结合文本、布局和图像的特征。旨在利用文档布局相关信息,进行文档理解,进一步提高文档信息抽取的性能。优点:ERNIE-Layout对识别到的文档字词进行重新排列,设计了一种新的注意力机制,以帮助ERNIE-Layout在文本/图像和布局特征之间建立更好的联系。在文章中通过大量的实验证明了ERNIE-Layout的有效性,并且分析了利用不同的布局知识对文档理解的影响。原创 2023-07-23 16:36:26 · 1250 阅读 · 1 评论 -
小试牛刀:应用深度强化学习优化文本摘要思路及在裁判文书摘要上的实践效果
该文是本人在研究强化学习时的突发奇想,初步验证了引入合适的奖励函数来优化抽取式摘要模型是有效的。原创 2023-05-20 17:52:10 · 1316 阅读 · 4 评论 -
第四届“中国法研杯”司法人工智能挑战赛-刑期预测赛道三等奖方案
本文将回顾第四届“中国法研杯”司法人工智能挑战赛-刑期预测算法赛道比赛。使用多任务预训练、然后进行微调的形式最终在比赛中取得了三等奖的成绩。原创 2023-05-18 14:50:03 · 1405 阅读 · 1 评论 -
ChatGLM-6B模型结构组件源码阅读
本文将介绍ChatGLM-6B的模型结构组件源码。代练链接:https://huggingface.co/THUDM/chatglm-6b/blob/main/modeling_chatglm.py原创 2023-05-17 16:03:30 · 5293 阅读 · 1 评论 -
杭州全球人工智能技术创新大赛-商品标题实体识别一等奖方案(top3)
使用分层学习率、对抗训练、swa等技术,增加模型拟合性能和鲁棒性;采用预训练和伪标签结合的方式,在有限的场景下提高单模型的性能;通过多折交叉清洗,在避免引入人工的前提下减少数据噪声的影响。原创 2023-03-28 15:18:12 · 431 阅读 · 0 评论 -
2021全球开放数据应用创新大赛-法律咨询问答亚军方案
首先从多个预测答案中抽取出第一条作为预测答案,其余作为标准答案;然后计算出预测答案和所有标准答案的分值,累加起来作为该预测答案的得分;最后选取得分最高的作为最终答案。这种模型融合方式适用于阅读理解、摘要等复杂任务。原创 2023-03-26 20:07:00 · 516 阅读 · 0 评论 -
浅尝prompt咒语设计:one-shot微调chatglm-6b实践信息抽取
近期以chatgpt等文生成LLMS爆火,国内也逐渐开源了中文版的chatgpt,本文以清华大学开源的6b的chatglm为例,实践one-shot微调,设计prompt咒语在信息抽取领域的实验效果。本文通过one-shot微调chatglm-6b在信息抽取领域上的实验,输出效果还可以,当然如果有资源微调更大参数量的LLMS。原创 2023-03-26 20:01:17 · 7194 阅读 · 4 评论 -
LLaMA:7B参数量的Baby版ChatGPT窥探
本文通过造一些prompt初步窥探了7B版本的LLaMA,所生成的结果比较依赖于prompt的质量,有资源可以尝试65B参数量的版本。原创 2023-03-09 10:51:36 · 10101 阅读 · 2 评论 -
给BERT补充其他特征的编码器实践
特征工程是传统的机器学习基石,然而,随着BERT等预训练语言模型的发展,文本语义表示得到了极大的改善,本文将实践一种多特征编码器。原创 2023-03-01 10:18:29 · 601 阅读 · 0 评论 -
BigBird:大鸟模型中文生成式长文本摘要实践
本文介绍了一种用于中文长文本摘要的生成式模型-BigBird大鸟模型,通过实践将开源的中文生成预训练bart-chinese-base转换成可以用于BigBird中文权重并用于训练中文长文本生成式摘要,也通过实践验证了其可行性。原创 2023-02-27 16:38:49 · 3926 阅读 · 6 评论 -
中文文本时间抽取、解析及标准化工具
中文文本时间抽取、解析及标准化工具。原创 2022-10-28 15:05:09 · 898 阅读 · 0 评论 -
KBQA的主要流程及部分Top竞赛方案总结
给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案主要是面向开放领域的知识图谱的问答。通过分词、主题实体提及识别、实体连接关系识别、语义匹配、启发式答案选择的Pipeline方式构建问答系统,该系统最多能解决两跳(two-hop)的问题。原创 2022-09-28 21:46:21 · 2255 阅读 · 0 评论 -
基于深度学习的KBQA方法(Joint)pipline改进思考(二)
在span片段识别的ner模型时,模型的span是枚举query产生的,如:姚明的老婆是谁?此时,可以将所有的候选属性当作是训练RE网络的样本,训练仍然是。这样的优势就是只需训练一个BERT模型即可,也能减少推理速度。在知识库中查询答案时返回top1的属性对应的答案即可。在成功识别出“姚明”这个实体后,我们可以通过。因此,端到端的联合模型显得就很有必要了。:“1”或“0”,将所有候选输入经过“”损失函数即可拿到所有候选属性的。公众号:自然语言处理及深度学习。中召回所有与“姚明”相关的。原创 2022-09-28 21:40:16 · 456 阅读 · 0 评论 -
Path-Ranking:KBQA中path生成、召回、粗排与精排
通过实体链接获取到了问题中的实体,路径生成则是从实体出发,遍历KG,生成所有可能的答案路径,在过程中对路径进行剪枝。原创 2022-09-27 11:54:16 · 658 阅读 · 0 评论 -
浅尝KBQA中使用语义角色标注进行约束挂载
语义角色标注是一种浅层语义分析技术,以句子为单位,分析句子的谓词-论元结构,其理论基础来源于Fillmore(1968)年提出的格语法,不对句子所包含的语义信息进行深入分析。具体来说,语义角色标注的任务就是以句子的谓词为中心,研究句子中各成分与谓词之间的关系,并且用语义角色来描述他们之间的关系。例如如下所示:A0:施事者、主体、触发者A1:受事者PSR:持有者PSE:被持有者。原创 2022-09-19 15:04:27 · 324 阅读 · 0 评论 -
基于深度学习的KBQA方法(pipline)的一些思考(一)
介绍:链式:SPARQL 多个三元组呈递进关系,x->y->z,非交集关系。分类模型:BERT+Linear,使用分类模对query中的关系做预测。因此,针对不同的问题类型在逻辑上进行处理也是回答问句的方向。获得问句中的实体:姚明。问句的答案对应三元组里面的主语,spo=0。问句的答案对应三元组里面的谓语,spo=1。问句的答案对应三元组里面的宾语,spo=2。模型:BERT+Linear对query。作用:判断问句是单挑问题还是多跳问题。模型:BERT+Linear。模型:BERT+Linear。原创 2022-09-17 14:58:28 · 766 阅读 · 0 评论 -
使用句法依存分析实现KBQA中的约束挂载
本文内容主要讲解通过句法依存实现KBQA中约束挂载的流程原创 2022-09-14 22:23:51 · 449 阅读 · 0 评论 -
HMM(隐马尔可夫)中文分词
一、隐马尔可夫模型 隐马尔可夫模型(Hidden Markov Model,HMM)是用来描述一个含有隐含未知参数的马尔可夫过程。1、举例理解 假设我手里有三个不同的骰子。第一个骰子是我们平常见的骰子(称这个骰子为D6),6个面,每个面(1,2,3,4,5,6)出现的概率是1/6。第二个骰子是个四面体(称这个骰子为D4),每个面(1,2,3,4)出现的概率是1/4。第三个骰子有八个面(称这个骰子为D8),每个面(1,2,3,4,5,6,7,8)出现的概率是1/8。 假设我们开始掷骰子,我们先原创 2020-09-19 10:52:39 · 6554 阅读 · 4 评论 -
TF-IDF算法和余弦相似度算法计算文本相似度(纯手撕)
一、TF-IDF算法 TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF-IDF的主要思想是:如果某个单词在一篇文章中原创 2020-09-06 12:05:26 · 10672 阅读 · 4 评论 -
正向最大匹配算法(中文分词)
一、最大匹配法 最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。最大匹配算法有三种: 1、正向最大匹配 2、逆向最大匹配 3、双向匹配 三种算法原理都一样,以正向为例,是从前向后扫描的过程。如下:二、使用北大训练集实现正向最大匹配1、数据集(从中选取北大的训练集)2、代码实现# -*- coding: utf-8 -*-"""@au原创 2020-08-30 17:49:42 · 14661 阅读 · 1 评论 -
中文分词并字典化
一、数据集准备二、代码实现import csvimport fnmatchimport osimport refrom collections import OrderedDictimport jiebatext_list = []def word_frequency_analysis(path): # print("111") files = os.listdir(path) # files为列表,存储的是path里面的所有文件名 for filena原创 2020-08-29 17:34:23 · 628 阅读 · 0 评论 -
文本分类(朴素贝叶斯算法)
一、贝叶斯定理引入1、朴素贝叶斯: 朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单,但有时会牺牲一定的分类准确率。2、贝叶斯公式:3、换成分类任务的表达式 那么我们最终求的p(类别|特征)即可!就相当于完成了我们的任务。二、数据集介绍1、原始数据集2、测试数据集 为了减少任务量,测试数据集为自己在原始数据集上打乱后所得。三、文本分类步骤四、TF-IDF逆文本频率指数概念 TF-IDF(term frequency–inv原创 2020-08-28 17:58:05 · 4444 阅读 · 1 评论