
深度学习
文章平均质量分 84
TFATS
NLP大模型从业者,AGI忠实信奉者。
展开
-
LLM主流框架:Causal Decoder、Prefix Decoder和Encoder-Decoder
前缀语言模型可以根据给定的前缀生成后续的文本,而因果语言模型只能根据之前的文本生成后续的文本。在模型架构代表LLM注意力机制是否属于Decoder-Only纯单向YESFlan-T5输入双向NO输入双向,输出单向YES。原创 2024-01-12 13:12:58 · 7338 阅读 · 3 评论 -
什么是RoPE-旋转位置编码?
我们知道句子中不同词语之前的位置信息十分重要,但是self-attention框架无法直接利用位置信息,因此研究者提出了许多方法将位置信息编码到学习过程中。一是绝对位置编码方法,将位置信息直接加入到输入中;二是相对位置编码方法,研究者通过微调attention的结构,使它具有识别token位置信息的能力。本文作者详细梳理了位置编码的流派,提出了一种旋转位置编码方式RoPE,并从数学角度证明RoPE带来的诸多优点。原创 2024-01-12 11:04:22 · 3618 阅读 · 1 评论 -
安装 NVSwitch GPU 服务器的 cuda 驱动版本、nvidia-docker 指南
安装 NVSwitch GPU 服务器的 cuda 驱动版本、nvidia-docker 指南。原创 2022-12-12 12:35:22 · 4277 阅读 · 1 评论 -
升级 GPU 服务器 cuda 驱动版本指南
升级 GPU 服务器 cuda 驱动版本指南。原创 2022-08-19 15:09:16 · 5122 阅读 · 3 评论 -
基于 Bert 的多任务改造
一. Bert 的多任务认识以bert为代表的预训练模型多任务可以应用在多种场景。1. 主辅任务:比如我们当前进行任务A,但是我们可以构造一个辅助任务B一起参与训练,来达到提高任务A性能的目的,比如人为的去构造一个辅助任务 MLM(Bert 预训练语言遮蔽模型)这样的辅助任务,辅助去提高任务A,线上推理时并不输出任务B的结果。2. 并行任务:本身就需要进行多个任务,比如ABC,一样重要,但任务类型相似,如果分开训练,那么就需要3个模型,此时可以尝试共享一个模型,即共享大部分参数,差异化小部分参原创 2022-05-07 15:34:36 · 2153 阅读 · 0 评论 -
Sentence-Bert论文中英文比对翻译
Sentence-Bert论文全名: Sentence-BERT: Sentence Embeddings using Siamese BERT-NetworksSentence-Bert论文地址:https://arxiv.org/abs/1908.10084Sentence-Bert论文代码:https://github.com/UKPLab/sentence-transformersAbstractBERT (Devlin et al., 2018) and RoBERTa (Liue.翻译 2021-11-05 17:02:46 · 1691 阅读 · 0 评论 -
手把手教你用BERT做NER命名实体识别
一,从GitHub下载Bert源码和模型关于Bert的详细介绍和如何下载此处就不再赘述了,想了解的直接查看GitHub-Bert自行了解和下载。以下地址也可直接下载。1,下载Bert代码终端执行: git clone https://github.com/google-research/bert.git2,下载中文-base模型Bert-Base中文模型地址二,下载数据三,修改processors四,修改label五,修改create_model六,修改sh文件七,修改horovod多原创 2021-09-18 15:53:25 · 6987 阅读 · 2 评论 -
基于TensorFlow1使用Horovod实现BERT在单节点上的多GPU卡训练
一,下载从github中下载tensorflow1版本的bert代码和预训练模型1,下载bert代码地址:google-research/bert2,下载预训练模型,此处可选择bert-base中文版本,如下图:3,如官网所示创建执行脚本-方便传参,如下图所示:二,修改创建执行脚本根据机器的GPU个数,Horovod运行多卡训练gpu_num=$(nvidia-smi --query-gpu=name --format=csv,noheader | wc -l)horovodrun原创 2021-09-01 15:48:49 · 1014 阅读 · 1 评论 -
分类指标:准确率、精确率、召回率、F1 score以及ROC、AUC、宏平均、加权平均
本文将介绍:混淆矩阵(Confusion Matrix)准确率(accuracy)召回率(recall)精确率(precision)F1scoreROC和AUC宏平均(macro avg)微平均(micro avg)加权平均(weighted avg)一,混淆矩阵(Confusion Matrix)在n分类模型中,使用n行n列的矩阵形式来表示精度,纵列代表n个分类,在每行中的n个数据代表分别预测在每个类别的个数,完美的预测应该是一个列序数=行中有数据的索引数的一条斜线。TP:原创 2021-06-29 15:32:00 · 10025 阅读 · 0 评论 -
Keras(三)实现深度神经网络
pass#!/usr/bin/env python3# -*- coding: utf-8 -*-import matplotlib as mplimport matplotlib.pyplot as pltimport numpy as npimport sklearnimport pandas as pdimport osimport sysimport timeimport tensorflow as tffrom tensorflow import keras# 1,打印原创 2020-11-20 16:18:49 · 761 阅读 · 1 评论 -
sigmoid函数求导、求极值(史上最详细)
在机器学习、深度学习中,激活函数有时会使用到Sigmoid函数。本文将详细介绍:使用python包matplotlib绘制Sigmoid函数图形Sigmoid函数详细求导过程Sigmoid函数求极值的两种方法Sigmoid函数:一,使用python包matplotlib绘制Sigmoid函数图形1,python绘制Sigmoid图形代码如下:import numpy as npimport matplotlib.pyplot as pltdef sigmoid(x): .原创 2020-11-20 16:17:51 · 4359 阅读 · 0 评论 -
Keras(二)回归模型实战
本文将介绍如下内容:下载并使用sklearn中的数据集使用“pprint”查看数据集样例拆分数据集中的数据为 训练数据、验证数据、测试数据在将数据带入到模型之前,先进行预处理-训练、验证、测试数据标准化构建回归模型、模型层级图、编译模型(添加损失函数、优化器)、添加回调函数一,下载并使用sklearn中的数据集import matplotlib as mplimport matplotlib.pyplot as pltimport numpy as npimport sklearn原创 2020-11-18 16:58:11 · 711 阅读 · 0 评论 -
Keras(一)分类模型实战
本文将介绍如下内容:导入、打印使用的python库的版本信息从keras.datasets中提取图片数据集-“训练数据”、“验证数据”、“测试数据”查看单、多张图片分类模型之模型构建查看模型的图结构训练模型绘图表示模型参数的变化过程数据的标准化回调函数一,导入、打印使用的python库的版本信息import matplotlib as mplimport matplotlib.pyplot as pltimport numpy as npimport sklearnimpo原创 2020-11-16 15:18:19 · 1089 阅读 · 0 评论 -
TensorFlow和keras的前世今生以及keras和tf.keras的对比
一,Keras和TensorFlow的历史纠葛Keras 最初是由 Google AI 开发人员/研究人员 Francois Chollet 创建,并于 2015 年 3 月 27 日将 Keras 的第一个版本 commit 并 release 到他的 GitHub。TensorFlow 从 Keras v1.1.0 发行版开始成为 Keras 的默认后端(在 v1.1.0 之前,Keras 的默认后端都是 Theano)。tf.keras 在 TensorFlow v1.10.0 中被引入Te原创 2020-10-21 13:46:08 · 1099 阅读 · 0 评论 -
linux系统安装anaconda、tensorflow2.0、pytorch,简单代码对比pytorch、tensorflow1.0、tensorflow2.0
在安装好ubuntu系统后,我们将开启深度学习的进程,首先是配置python语言、多种深度学习框架、以及各种安装包的环境。本文将介绍如下内容:linux系统中安装anacondalinux系统中安装tensorflow2.0linux系统中安装pytorch简单对比pytorch、tensorflow1.0、tensorflow2.0一,linux系统中安装anaconda1,在网站中下载anacondahttps://mirrors.tuna.tsinghua.edu.cn/anaco原创 2020-10-20 14:46:24 · 989 阅读 · 0 评论 -
Haffman树和其python代码的实现
哈夫曼树的构建和编码1, 哈夫曼树编码的python代码实现''' huffman编码'''import copyclass Node: def __init__(self, name, weight): self.name = name #节点名 self.weight = weight #节点权重 self.left = None #节点左孩子 self.right = None #节点右孩子 s原创 2020-08-10 18:11:12 · 631 阅读 · 1 评论