
NLP
文章平均质量分 79
NLP基础 + 预训练模型 +大语言模型 专栏
tiki_taka_
我要在这个世界 留一点我的足迹,证明我的存在。
展开
-
Prompt Tuning训练过程
对于不同的任务,仅需要插入不同的prompt 参数,每个任务都单独训练Prompt 参数,不训练预训练语言模型,这样子可以大大 缩短训练时间,也极大的提升了模型的使用率。例如,下图的BERT/BART/ERNIE 均为预训练语言模型,对于人类提出的问题,以及线索,预训练语言模型可以给出正确的答案。前面两个阶段都依赖于有监督学习,但是这个阶段里的预训练可以不需要有监督的数据,极大的降低了对监督语料的依赖。更注重于目标的设计,合理设计预训练跟微调阶段的目标函数,对最终的效果影响深远。原创 2023-09-04 17:22:17 · 1559 阅读 · 0 评论 -
Rasa 多轮对话机器人
Rasa NLU:提取用户想要做什么和关键的上下文信息Rasa Core:基于对话历史,选择最优的回复和动作通道(channel)和动作(action):连线对话机器人与用户及后端服务系统。tracker store、lock store和event broker等辅助系统组件之间的顺序关系至关重要。例如,NER组件需要前面的组件提供分词结果才能正常工作,因此前面的组件中必须有一个分词器。组件是可以相互替换的。例如,清华大学开发的分词器和北京大学开发的分词器均能提供分词结果。原创 2023-09-04 17:17:25 · 2970 阅读 · 0 评论 -
大语言模型(LLM)发展历程
大语言模型发展历程,分为 Encode-only、Encode-Decode、Decoder-only原创 2023-07-05 17:34:48 · 581 阅读 · 0 评论 -
chatglm+langchain
Langchain + chatglm 本地QA 过程原创 2023-07-03 14:47:47 · 3113 阅读 · 0 评论 -
ChatGLM6B LORA微调
chatglm + LORA 微调原创 2023-07-03 14:43:23 · 1817 阅读 · 1 评论 -
大语言模型model官方文件整理【roberta_wwm,bert_wwm,bert,xlnet....】
bert/roberta/xlnet/macbert/electra等等tiny、base、small、large、xlarge等等版本,tensorflow和torch版本原创 2023-06-27 15:02:55 · 2803 阅读 · 0 评论 -
TensorFlow2.2 安装包依赖
tf2.2 依赖第三方包版本匹配,Keras、transformers、bert4keras、rasa原创 2023-06-05 09:16:51 · 1230 阅读 · 0 评论 -
语言模型主流
主流的语言模型学习资料原创 2023-06-05 09:09:38 · 624 阅读 · 0 评论 -
LSTM 输入和输出格式Keras
假如数据集是(5000,28,128),其中5000指的是样本个数,(28,128)便是具体每个样本的行列数,28就是lstm中的时间步数;假如定义一个lstm层为 LSTM(output_dim= 256,activation=,input_shape= (28,128)),那么每个时间步输出的是一个元素个数为256的一阶向量,所有时间步集合起来就是(28,256)的二阶向量。至于模型是用所有时间步的输出,还是只用最后一个,就看具体怎么设计了。对应:(N,T,F)=&g...原创 2021-05-17 18:00:42 · 3908 阅读 · 1 评论 -
使用keras-bert实现 谭松波 酒店评论 文本分类(情感分析)
Keras-Bert 实现文本分类以下文档可下载:https://pan.baidu.com/s/1UfnIWmFMhqAIXl8LouJNWQ 提取码:9m5u复制这段内容后打开百度网盘手机App,操作更方便哦项目的地址在Github:https://github.com/Luomiou/keras-bert-目录Keras-Bert 实现文本分类项目的地址在...原创 2019-07-09 21:40:23 · 14777 阅读 · 54 评论 -
读书笔记之3中英文分词工具
此文章全为图片,详细请下载docx原创 2018-12-29 09:59:41 · 300 阅读 · 0 评论 -
读书笔记之3中文自然语言处理完整流程
转自:https://blog.youkuaiyun.com/dongdouzin/article/details/80814037第一步:获取语料语料,即语言材料。语料是构成语料库的基本单元。所以简单地使用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。一个文本集合成为语料库(Corpus),当有几个这样的文本集合的时候,我们称之为语料库集合(Corpora)已有语料:...转载 2018-08-31 20:33:39 · 378 阅读 · 0 评论 -
读书笔记2之中文分词流程HanLP
句子切分: 系统读取带分词的字符串。输入的是一个句子或者一篇文章。如果是篇章则系统会首先进行句子切分,然后调用多线程,对每个切分的句子再进行分词。 导入词典: 根据输入的配置信息,导入相应的词典。 进入粗分阶段: 首先,对句子进行字符级切分,即将输入的句子切分为单个UTF-8编码的字符数组 然后,一元切分。查询核心词典,将字符切分的结果与词典最大匹配,匹配结果...原创 2018-08-20 17:04:40 · 826 阅读 · 0 评论 -
读书笔记之语法语料库和语义知识库
语法语料库和语义知识库 文末有文档下载地址:本文档是自己在读硕士期间学习 自言语言处理 的读书笔记 语言资源库的分类: 通用性和专用性、异质性和同质性、动态性和静态性、共时性与历时性、平行与双语,5个相互对立的特征揭示了一个重要的原则,任何语料选择都是一种平衡性的结果。 语法语料库:训练分词、命名实体、磁性标注、句法解析、语义组块、论元角色。分词语料...原创 2018-08-20 16:40:27 · 1579 阅读 · 0 评论