自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 资源 (2)
  • 收藏
  • 关注

原创 小样本学习综述

小样本学习综述📕[1]潘雪玲,李国和,郑艺峰. 面向深度网络的小样本学习综述 [J]. 计算机应用研究, 2023, 40 (10): 2881-2888+2895. DOI:10.19734/j.issn.1001-3695.2023.02.0074.主要是该论文的一些摘要。背景:然而,标注数据的收集与获取需要消耗大量的人力与时间,并且在某些领域(例如医学、军事和金融等)中,由于隐私安全等问题无法获得充足的样本。研究人员提出小样本学习(few-shotlearning)。

2025-03-21 15:57:45 603 1

原创 神经网络的基本知识

它能够学习大量的输入与输出之间的映射关系,而不需要任何输入和输出之间的精确的数学表达式,只要用已知的模式对卷积网络加以训练,网络就具有输入输出对之间的映射能力。:全连接层将前一层的所有输出与当前层的每个神经元连接,能够整合前一层的局部或全局特征,生成新的特征表示。Softmax 通过指数运算放大高分值的类别,抑制低分值的类别,使得高分值的类别概率更接近 1,低分值的类别概率更接近 0。RNN不同于前向神经网络,它的层内、层与层之间的信息可以双向传递,更高效地存储信息,通常用于处理信息序列的任务。

2025-03-15 22:50:06 1116 1

原创 大模型后训练+微调

首先回顾大模型的训练流程。大模型的训练流程包括预训练和后训练。预训练是使用大规模的训练语料训练模型,主要是让模型获得先验知识,能够完成基本的补全任务(理解:让模型读书,让它学会一些基本预测。比如:第一个字是“中” 学会预测第二个词是“国”)后训练是经过指令微调和偏好优化,让模型的输出具有某些特定格式,能够满足人类偏好。什么是指令微调?指令微调就是用一些人工标注的数据去训练模型,让模型会做题,会根据问题输出正确的答案。

2025-03-15 18:36:06 690

原创 概率论的基本知识

逆概率还不懂,改天再想想。

2025-03-13 16:04:57 491

原创 线代的基本知识

仿射函数(Affine Function)是线性函数的推广形式,它由一个线性变换和一个平移组成。仿射函数在几何上表示为一个线性变换后加上一个常数偏移。

2025-03-13 15:24:03 244

原创 自然语言处理预训练模型的研究综述

第一个任务是Mask LM(MLM),为了解决GPT完全舍弃下文的问题,不再进行整个句子的预测而是对某个词去做预测,首先屏蔽一定百分比的词,然后通过模型实现对屏蔽词的预测,来进行训练。二是预测的是屏蔽掉的是词而非句子,会使整个句子预训练的收敛速度更慢。N-gram是自然语言处理领域中具有显著历史意义的特征处理模型,基本思想是将文本内容按照字节大小为N的滑动窗口进行操作,形成长度是N的字节片段序列,然后对所有的序列的出现频度进行统计,并且按照实现设定好的阈值进行过滤,形成了这个文本的特征向量空间。

2025-03-12 20:51:09 623

原创 BERT、T5、GPTs,Llama

(本系列是课程笔记)Encoder-only 架构的代表——BERT结构特点:只有编码器(1)编码器结构:每个编码器layer中包含一个多头自注意力(无mask)和FFN(2)双向:每个位置可以看到序列前后的位置(无mask)双向:每个位置可以看到序列前后的位置(无mask)BERT-base 包含 12 个 Transformer 层,每层中的多 头注意力机制 包含 12 个头, 隐状态的维度为 768,总参数 量约 110M,与 GPT 的参数量相当。

2025-03-08 13:55:58 1190

原创 Transformer的基本知识点

(本系列是课程笔记)背景:1.循环模型RNN、LSTM是当时序列模型的主流,但是循环模型需要序列化计算,难以并行,计算效率较差,并且难以捕捉长距离依赖关系。2.注意力机制,可以捕捉长距离依赖,聚焦关键信息,并行度较高。【总结思路:循环模型摒弃,seq2seq比较好保留,注意力机制也保留】(1)去掉了循环神经网络结构(效率低,无法并行训练)(2)遵循seq2seq结构,encoder+decoder(3)大量重复使用attention(attention is all you need)编码器。

2025-03-07 22:17:34 910

原创 常见的模型结构

感觉,Q是当前关注的词的向量,K是这个句子里每个词的向量,Q和K分别计算一下相似度,就知道 【我要查的词】 和这个句子里的哪个词相似度最高了,这几个词的注意力得分最高,那么在这个句子里 它们和我要查找的东西最有关系,最后在加权求和,就能得到这个句子调整过注意力后,最终要输出的东西。⭐因为K 和V 是相同的,所以可以理解为:我先用V的分身去和Q计算一下相似度,我就知道应该关注V的哪一部分了,然后再用V的注意力权重 加权求和 ,最后得到output。Q是查询向量,K是关键向量,V代表数值向量。

2025-03-06 16:47:56 629

原创 大模型的基础知识

embedding(本系列是课程笔记)NLP中如何对文本进行预处理(将文本转换为训练数据)?词元化:分词,变成token 最后再嵌入转换变成训练数据三个基本概念:token(词元)、tokenization(词元化/分词)、词表。Subword Tokenization: Byte Pair Encoding (BPE,字节对编码)核心思路:不断将最频繁出现的一对词元合并成一个词元。刚开始每个字符为一个词元,然后找一直成对出现的将他们合并成新的词元,一直循环。

2025-03-06 12:26:24 1186

原创 大模型概述

在某些情况下,可能需要根据特定需求自定义损失函数。4. 优化器选择优化器用于更新模型参数以最小化损失函数。

2025-03-06 10:51:49 701

原创 大模型简介

大语言模型:拿到一个很复杂的数据集,然后用一个算法去压缩它,得到一个相对较小的模型,然后针对任务再用一点点数据集来调整。

2025-03-05 23:05:23 271

原创 anaconda配置pytorch

安装pytorch

2025-03-01 15:42:06 524

原创 大模型简介

刚开始是基于规则的,后期是基于概率的。然后呢,我们要把这些概率建模成条件概率,然后就知道这个词后边可能是哪个词了。理解:将概率,建模成条件概率,然后每次选概率最大的。理解为: Today后面出现is的可能性最大。图灵机(Turing Machine)是由英国数学家艾伦·图灵(Alan Turing)于1936年提出的一种抽象计算模型,用于严格定义“可计算性”的概念。它是计算机科学的理论基础,为现代计算机的设计和计算理论奠定了数学基础。图灵机的核心思想。

2025-02-06 19:46:59 270

原创 进程同步、互斥

P0先说自己想进,然后谦让让P1先进,但此时P1不想进,所以P0进入临界区,若此时⑥执行,那就是P1说他想进了,然后P1谦让让P0先进,P1循环检查时发现此时的条件是(P0想进,并且此时turn=0)所以P0继续访问,P1等待,直到P0访问完改成P0不想访问了,P1才能继续访问。P0说P0想进,然后P1说P1想进,然后P0说P1先进,然后P1说P0先进,最后turn=0,等到P0检查时条件为(P1想进,但turn=0,不等于1)所以P0先访问临界区。对临界资源的访问,必须互斥地进行。(就是无法实现互斥)。

2024-10-19 20:33:49 530 1

原创 机器字长、存储字长、指令字长;时钟周期、机器周期、指令周期、存取周期

机器字长、指令字长和存储字长,三者在数值上可以相等也可以不等,视不同机器而定。一个存储单元中的二进制代码的位数称为存储字长。存储字长等于MDR的位数,而数据字长是数据总线一次能并行传送信息的位数,它可以不等于MDR的位数。🌳🌳🌳前言:本文总结了计算机组成原理中的各种周期。目录时钟周期机器周期指令周期存取周期总结存取周期错题1.时钟周期也称节拍、T周期或CPU时钟周期,它是CPU操作的最基本单位2.一个机器周期又包含若干时钟周期。

2024-10-18 17:48:06 1415

原创 python基础知识——正则

正则表达式由需要匹配的字符串和一些特殊字符组成,可以在字符串当中匹配出需要查找的对象。

2024-10-18 16:41:00 163

原创 第六章 6.5 文件传送协议FTP+6.6电子邮件+6.7万维网WWW

HTTP定义了浏览器(即万维网客户进程)怎样向万维网服务器请求万维网文档,以及万维网服务器怎样把万维网文档传送给浏览器。

2024-09-30 16:57:47 638

原创 第六章 6.1应用层概述+6.2客户-服务器方式和P2P方式+6.3 动态主机配置协议DHCP+6.4域名系统

应用层:解决通过应用进程的交互来实现特定网络应用的问题应用层是计算机网络体系结构的最顶层,是设计和建立计算机网络的最终目的,也是计算机网络中发展最快的部分。

2024-09-30 15:48:00 769

原创 第五章 5.3传输控制协议 TCP报文段的首部格式+

TCP是面向字节流的,TCP的全部功能需要依靠其首部中的各字段来实现。

2024-09-30 15:03:10 683

原创 第五章 5.2 UDP和TCP的对比

必须使用“三报文”握手来建立TCP连接,TCP连接建立成功后,才能基于已建立好的TCP连接进行数据传输。接收方的TCP,一方面从所接收到的TCP报文段中取出数据载荷并存储在接收缓存中。TCP不保证接收方应用进程所接收到的数据块,与发送方应用进程所发出的应用层报文之间具有对应大小的关系。TCP根据发送策略,从发送缓存中提取一定数量的字节,构建TCP报文段并进行发送。UDP对应用进程交付下来的报文,既不合并也不拆分,而是保留这些报文的边界。(单播、多播、广播)TCP提供的是面向连接的可靠的数据传输服务。

2024-09-30 10:27:49 318

原创 第五章 运输层 5.1运输层概述

第2~4章依次介绍了计算机网络体系结构中的物理层、数据链路层和网络层,它们共同解决了将主机通过异构网络互联起来所面临的问题,实现了主机到主机的通信。然而在计算机网络中实际进行通信的真正实体,是位于通信两端主机中的进程。如何为运行在不同主机上的应用进程提供直接的逻辑通信服务,就是运输层的主要任务。运输层协议又称为端到端协议。主机A中的运输层使用不同的端口,对应不同的应用进程,然后通过网络层及其下层传输应用层报文。

2024-09-30 10:17:43 955

原创 第四章 4.9 IPv6+IPv4

长度为4个比特,用来表示IP协议的版本。通信双方使用的IP协议的版本必须一致。目前广泛使用的IP协议的版本号为4(即IPv4)。

2024-09-30 08:33:08 711

原创 第四章 4.6 虚拟专用网和网络地址转换+4.7 IP多播+4.8 移动IP

基于源树多播路由选择只用洪范法会出现广播分组在环路中兜圈并充斥整个网络的情况。如果本路由器有好几个邻居路由器都处在到源点的最短路径上,也就是存在好几条同样长度的最短路径,那么只能选取一条最短路径。选取的规则是这几条最短路径中的邻居路由器的IP地址最小的那条最短路径。利用反向路径广播RPB算法生成的广播转发树,不会存在环路,因此可以避免广播分组在环路中兜圈。举个例子:R2收到R1转发来的广播分组后,发现R1就在R2自己到源点的最短路径上,因此R2向其邻居路由器R3和R4转发该广播分组。

2024-09-30 07:43:19 1066

原创 第四章 4.3+4.4+4.5 静态路由配置+RIP+OSPF+BGP+路由器的基本工作原理+网际控制报文协议

静态路由配置静态路由配置静态路由配置概述静态路由配置是指用户或网络运维人员使用路由器的相关命令给路由器人工配置路由表。人工配置方式简单、开销小、但不能及时适应网络状态(流量、拓扑等)的变化,一般只在小规模网络中采用。默认路由如何转发IP数据报到因特网中的某个网络?使用一条默认路由条目,替代了去往因特网中众多网络的海量路由条目。默认路由条目中的目的网络0.0.0.0/0,其中 0.0.0.0表示任意网络,而网络前缀“/0”(相应的址掩码为0.0.0.0)是最短的网络前缀。

2024-09-28 11:07:37 749

原创 第四章 IPv4地址+分类编址+划分子网+无分类编址+IPv4数据报

长度为4个比特,用来表示IP协议的版本。通信双方使用的IP协议的版本必须一致。目前广泛使用的IP协议的版本号为4(即IPv4。

2024-09-28 08:32:17 610

原创 第四章 网络层概述 面向连接的虚电路服务+无连接的数据包服务+软件定义网络SDN概述+OpenFlow协议

在网际层和IP协议配合使用的还有四个协议,分别的网际控制报文协议ICMP、网际组管理协议IGMP、逆地址解析协议RARP、地址解析协议ARP。IP协议使用逆地址解析协议RARP、地址解析协议ARP,网际控制报文协议ICMP、网际组管理协议IGMP使用IP协议。网际协议IP可以互连各种不同的网络接口。1.面向连接的虚电路服务。2.无连接的数据报服务。面向连接的虚电路服务。

2024-09-28 08:32:05 977

原创 第三章 802.11无线局域网

无线局域网无线局域网无线局域网的组成IEEE于1997年制定出了无线局域网的协议标准802.11,802.11无线局域网是目前应用最广泛的无线局域网之一,人们更多地将其简称为Wi-Fi(Wireless Fidelity,无线保真度)。802.11无线局域网可分为以下两类:有固定基础设施的 、无固定基础设施的固定基础设施是指预先建立的、能够覆盖一定地理范围的、多个固定的通信基站。有固定基础设施的802.11无线局域网采用星型网络拓扑,位于其中心的基站被称为接入点,其英文缩写词为AP。

2024-09-27 18:13:31 16

原创 第三章局域网的概述+ IEEE 802标准+以太网简介+无线局域网简介

本章就主要介绍局域网的概念,局域网分为以太网、无线局域网、令牌环网、FDDI网、ATM网。然后介绍了以太网,无线局域网的概念

2024-09-26 09:46:19 219

原创 第三章 广域网+PPP协议+HDLC协议

广域网的通信子网主要使用分组交换技术。

2024-09-25 18:27:15 21

原创 第三章 局域网--以太网,MAC地址,CSMA/CD,集线器,交换机,虚拟以太网VLAN,以太网的发展

⭐星型拓扑有单点故障问题、环形拓扑也有单点故障问题。总线型拓扑没有单点故障问题。 逻辑链路控制子层 LLC子层: 介质访问控制子层 MAC子层:

2024-09-25 16:13:33 780

原创 第三章 介质访问控制:多路复用技术,动态划分信道,ALOHA协议、CSMA协议、CSMA/CD协议、CSMA/CA协议、令牌传递协议。

介质访问控制就是,采取一定的措施,使得两对节点之间的通信不会发生互相干扰。静态划分信道:多路复用技术。动态划分信道,ALOHA协议、CSMA协议、CSMA/CD协议、CSMA/CA协议、令牌传递协议。

2024-09-25 09:24:10 945

原创 第三章 数据链路层的概述+封装成帧+透明传输+差错控制+可靠传输+流量控制

应用层通过应用进程间的交互来完成特定的网络应用进行会话管理和数据表示运输层进程之间基于网络的通信(进程的标识,例如端口号)出现传输差错如何处理(可靠传输和不可靠传输)网络层标识网络和网络中的各主机(网络和主机共同编址,例如IP地址)路由器转发分组(路由选择协议、路由表和转发表)数据链路层标识网络中各主机(主机编址,例如MAC地址)从比特流中区分出地址和数据(数据封装格式)协调各主机争用总线(媒体接入控制)以太网交换机的实现(自学习和转发帧)检测数据是否误码(差错检测)出现传输差错如何处理(可靠传输和不可靠传

2024-09-24 21:27:44 616

原创 2.2 信道的极限容量

香浓定理、奈奎斯特定理

2024-09-24 19:05:13 146

原创 2.1 数据通信基础知识

传输方式:串行和并行、同步和异步、单向双向传输。码元、速率、波特、带宽。编码方式,归零、不归零、曼彻斯特编码、差分曼彻斯特,调制。

2024-09-24 16:35:57 320

原创 2.3 物理层的特性+传输介值+物理层设备+信道复用技术

传输媒体并不包含在计算机网络体系结构中。 由于外导体屏蔽层的作用, 同轴电缆抗干扰特性比双绞线好,被广泛用于传输较高速率的数据,其传输距离更远,但价格较双绞线贵。单模光纤、多模光纤多模光纤,多条光波在多模光纤中不断地全反射(只适合于建筑物内的近距离传输)。单模光纤,光在单模光纤中一直向前传播(适合长距离传输且衰减更小)。(单模光纤的发光源是能是半导体激光器,不能是发光二极管)。

2024-09-23 21:28:00 275

原创 1.6 计算机网络体系结构

常见的三种计算机网络体系结构

2024-09-23 20:22:33 639

原创 1.5 计算机网络的性能指标

计算机网络性能的评价指标

2024-09-23 17:15:23 781

原创 静态变量vs常变量

静态变量:变量的存储空间在程序开始运行时就已分配,它的值可以被改变 →读/写数据区常变量:它的值在运行过程中不可改变 →只读代码/数据区理解一下静态变量和常变量。静态变量不是指其值不能改变的量,而是指这些变量的存储空间在程序开始运行时就已分配,并且在程序整个运行期间都存在‌。

2024-09-17 17:03:40 340

原创 dic= json.loads()双引号变单引号以及dic=json.dumps()出现acsll问题

默认输出ASCLL码,如果把这个该成False,就可以输出中文。1. dic= json.loads()双引号变单引号。2.dic=json.dumps()出现acsll问题。使用json.dumps转换, 转换回双引号。双引号还是双引号,但是字变成aacsll了。问题:双引号自动变单引号。

2024-03-13 11:53:22 611

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除