自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

芒果不茫的博客

nlp打工人

  • 博客(47)
  • 收藏
  • 关注

原创 【DeepSeek三部曲】DeepSeek-R1论文详细解读

详细讲解DeepSeek-R1技术报告,按照论文的顺序逻辑来详细解读,不缺少任何有用的原文内容,去掉没有意义的话来精简论文,并增加论文模糊知识点的内容思考。

2025-02-17 00:43:57 1239

原创 逐行讲解transformers中model.generate()源码

本文逐行解析transformers源码中的.generate()函数,让你知道除了模型生成还做了哪些额外操作,加深你对底层代码的理解

2024-10-23 01:56:54 5892 7

原创 逐行讲解大模型解码超参数大全(temperature、top-k、top-p等所有参数)

大模型解码策略除了temperature、top-k、top-p,你还知道哪些呢,本文全面解析transformers源码中的所有策略

2024-10-23 01:54:11 2538 2

原创 MiniMax-01中Lightning Attention的由来(线性注意力进化史)

MiniMax-01首次将线性注意力应用于超大规模模型,其核心技术是Lightning Attention。本文探讨线性注意力的起源、长期未能大规模应用的原因,以及Lightning Attention如何突破限制,实现高效计算,为大规模模型训练提供新思路。

2025-01-26 20:30:00 1716

原创 Transformers库的模板困境:apply_chat_template的版本变迁与解决方案

在 Transformers 库高版本中,默认对话模板的移除导致 apply_chat_template 无法正常使用。本文通过分析 command-r+ 等旧版模型的源码,找到了原有的默认模板定义,并介绍了如何在代码中显式传入模板的方法,提供了一个简单且向后兼容的解决方案。

2025-01-14 20:24:27 2261

原创 逐行讲解大模型流式输出 streamer 源码

本文详细讲解了大模型流式输出的源码实现,包括TextStreamer 基础流式输出和TextIterateStreamer 迭代器流式输出。此外,还提供了两种主流Web框架(Streamlit和Gradio)的部署方案,设计前端界面进行大模型流式输出对话演示。模型提供了本地加载以及vllm部署两种方法,帮助读者快速应用部署大模型。

2025-01-01 14:50:16 2567 4

原创 Cake:双向并行KV 缓存,加速LLM推理

深入理解大模型推理部署的细节,参考Cake文章学习不一样的模型部署思路,加深大模型的理解。

2025-01-01 14:34:52 744

原创 如何在windows中使用hfd.sh aria2c下载huggingface文件

介绍如何在windows下使用hfd.sh+aria2c下载huggingface模型文件,并具体介绍hfd.sh的下载及使用方法,windows下aria2c的安装方法。

2024-09-01 01:47:39 3013 5

原创 LLM评估 | 大模型评估方法调研--论文解读(持续更新ing)

调研大模型评估方法,最新论文解读

2024-07-30 13:00:18 1923

原创 逐行讲解旋转位置编码RoPE源码(ChatGLM系列)

旋转位置编码详细代码解析,ChatGLM的改动,以及一点思考

2024-05-19 20:38:00 2318

原创 逐行讲解python实现A*路径规划

python实现AStar路径规划算法,代码详细解释,可方便扩展其他功能

2024-04-08 15:16:03 2776 8

原创 深度学习踩坑记录(持续更新ing)

记录博主调试代码过程中碰到难以解决的bug

2024-03-12 16:17:38 1547 1

原创 懒得玩游戏--帮我做数独

最近玩上了一款类似于数独的微信小程序游戏,名字叫数独趣味闯关,过了数独的关卡之后会给拼图,玩了几关之后摸清套路了就有点累了,但是还想集齐拼图,所以就编了个程序自动解数独。

2024-01-14 20:37:34 829

原创 pyqt安装后designer.exe位置

在安装PyQt6或者PyQt5之后需要找到designer.exe位置进行后续操作,但可能由于多方面原因,位置并不固定。本文整理了网络上有关designer.exe位置的信息,读者可以一一尝试,如果在其他位置找到,也可评论区补充。

2024-01-03 01:18:47 1892 2

原创 超详细推导逻辑回归公式与代码实现(二分类与多分类)

本文使用梯度下降法对逻辑回归进行训练,使用类似于神经网络的方法进行前向传播与反向更新,使用数学公式详细推导前向传播与反向求导过程,包括二分类和多分类问题,最后用python代码实现鸢尾花分类(不使用算法库)

2023-07-27 22:03:35 1401

原创 RoPE旋转位置编码图形化理解

很多博文用公式描述RoPE的作用,看来看去还是似懂非懂,本文用图形的方式直观且形象化的展示RoPE的作用

2023-07-15 21:31:35 1242

原创 TFIDF代码实现与sklearn库代码分析

介绍了tfidf的理论与细节,对于sklearn库中的方法进行常用参数详解,并将手动计算结果与之对比,最后复现了tfidf。

2023-07-01 20:29:36 458 1

原创 NER实体级别与token级别指标代码实现——precision(精确率)、recall(召回率)、F1分数

本文详细介绍token级别与实体级别指标的不同,并给出各自的代码实现,附有详细注释,打印关键信息,显示可视化结果。

2023-06-07 16:49:55 1483 3

原创 【论文精读】 专注于文档信息抽取的Layout 系列模型

详细讲述Layout系列模型,包括LayoutLM、LayoutLMv2、LayoutXLM、LayoutLMv3,深挖技术细节,模型各部分组成与训练方法。

2023-02-27 00:07:31 1207

原创 pip镜像源(临时使用+全局配置)

pip豆瓣源、清华源、阿里源、中科大源地址,临时配置和全局配置教程

2023-02-09 23:05:48 741 2

原创 逐行讲解BiLSTM+CRF实现命名实体识别(NER)

使用BiLSTM+CRF做中文命名实体识别(NER),数据处理、建立词表、模型构建、训练过程书写等,代码有详细注释,若有遗漏或不详细可评论补充。

2023-02-05 21:51:21 10895 53

原创 报错记录:TypeError: classification_report() takes 2 positional arguments but 3 were given

在使用sklearn_crfsuite.metrics.flat_classification_report函数的时候突然报错:TypeError: classification_report() takes 2 positional arguments but 3 were given,这里对该函数进行了详细剖析,找到报错原因,并给出解决办法

2023-01-14 22:27:49 1405 4

原创 逐行讲解HMM实现命名实体识别(NER)

使用HMM做中文命名实体识别(NER), 获取中文原始数据集,对其进行训练、验证、预测,代码有详细注释,若有遗漏或不详细可评论补充。

2022-11-02 21:05:44 3854

原创 逐行讲解CRF实现命名实体识别(NER)

使用sklearn_crfsuite的CRF工具做中文命名实体识别(NER), 获取中文原始数据集,处理成sklearn_crfsuite所需要的格式,代码有详细注释,若有遗漏或不详细可评论补充。

2022-10-07 22:31:24 10101 12

原创 手推多分类precision(精确率)、recall(召回率)、F1分数

按照样例手推precision、recall、F1分数,以及多分类时macro、micro、weighted的计算方法,并给出代码实现验证

2022-10-07 20:45:44 6733

原创 超详细推导样本方差和总体方差(n-1的由来)

样本方差为什么除以n-1,本文进行详细数学推导,并介绍自由度的个人理解

2022-09-22 15:39:07 10286 6

原创 Linux 文本编辑器Vim

Linux Vim文本编辑器的使用命令与操作方式

2022-09-17 14:22:20 208

原创 Linux常用命令

linux常用命令详细介绍

2022-09-13 14:40:40 427

原创 L1L2正则化图形解读

在学习L1、L2正则化的过程中一定看过下面这两幅经典图,看过之后确实懂了L1和L2正则化的区别,无非是一个相交在坐标轴,一个不在坐标轴。但这一圈圈等高线怎么来的,L1正则化一定相交在坐标轴吗?为什么会相交在坐标轴呢?本篇文章从头开始画出这幅图,并介绍其由来。

2022-09-10 17:06:56 800

原创 手推BN、IN、LN、GN

通过实例说明BN、IN、LN、GN如何取均值和方差来进行标准化的,附代码实践证明,手推与pytorch工具箱进行对比

2022-09-01 13:18:50 619 1

原创 Java全栈大数据学习笔记NO.14(MySQL-1)

MySQL介绍mysql里面可以创建很多的数据库,例如,创建一个企业OA系统的数据库数据库里可以有很多张table,数据是存储在table里,如:部门编号部门名称部门地址备注1开发部大连高新园区2人事部大连高新园区表里的列也叫做字段,一行数据也叫做一条记录创建一个员工表(Employee)编号 Empno姓名 Ename性别 sex职务 Job工资 Salary所在部门编号 Deptno1开发部大连高新园区

2021-06-30 12:34:44 382

原创 Java全栈大数据学习笔记NO.15(JAVASE-2)

JAVASE-2一、继承1.1 为什么用继承1.2 继承的语法1.3 继承的特点1.4 super和this1.5 子父类的构造方法执行顺序问题1.6 方法的重写、覆盖,子类的方法覆盖父类继承过来的方法1.7 父类里的哪些成员可以被子类继承1.8 抽象类和抽象方法二、多态三、接口3.1 什么是接口3.2 接口的语法一、继承1.1 为什么用继承  为了实现代码的重用,将多个类里的共同的属性和方法,写在一个类里作为父类,需要写的类作为子类,继承父类里的属性和方法,子类和父类要符合 is-a的关系。1.2

2021-04-06 22:54:38 486

原创 Java全栈大数据学习笔记NO.14(JAVASE-1)

JAVASE-1一、类和对象什么是对象什么是类类和对象的关系是什么java程序中怎么使用对象怎么创建类通过类创建对象,并使用对象对象数组二、方法方法的调用面向对象解决方法的思路局部变量与成员变量的区别三、构造方法特点和执行的时间点无参构造方法和带参构造方法方法重载static的作用封装一、类和对象什么是对象什么是类  类是对象的集合,就是一个概念,通过这个概念,可以知道同一类的对象具有的共同的属性和方法,只是属性值不同而已。  类是抽象的。类和对象的关系是什么  类和对象的关系是抽象和实体(

2021-04-05 23:02:06 497 2

原创 Java全栈大数据学习笔记NO.13(jQuery-2)

jQuery-2一、jq操作css样式二、jq的尺寸三、json遍历四、jq的each循环一、jq操作css样式addClass() 向被选元素添加一个或多个样式removeClass() 从被选元素删除一个或多个样式toggleClass() 对被选元素进行添加/删除样式(类)的切换操作上面几条语句的用法如下,点击不同按钮应用不同功能.important{/* css中写 */ font-weight: bold; font-size: 40px;}.blue{ color: b

2021-02-23 14:59:29 142

原创 Java全栈大数据学习笔记NO.12(jQuery-1)

jQuery一、jQuery二、jq的使用三、jq的基本语法四、jq的选择器五、jq的事件六、jq的效果七、jq的动画八、jq的回调九、jq方法的链接十、jq操作内容和属性一、jQueryjQuery简介jQuery是由美国人John创建于2006年,它是目前最流行的js程序库,它对js的对象和函数进行封装,设计思想是write less,do more。jq能干什么访问和操作DOM对象控制页面样式对页面事件进行处理扩展新的jq插件与Ajax技术完美结合jq的优势体积

2021-02-23 13:29:21 808

原创 Java全栈大数据学习笔记NO.11(JavaScript提升2)

JavaScript提升2一、一、

2021-02-23 00:46:37 256

原创 Linux学习笔记--提升

Linux学习笔记--提升一、远程登录Linux二、XShell5使用一、远程登录Linux  由于我们在实际工作中,手里的电脑和Linux系统所在的电脑常常分处两地,所以需要远程登录到Linux进行操控。这里就需要两个软件:  XShell5:远程登录到Linux的软件;  XFtp5:远程上传和下载文件的软件;如果希望安装好XShell5就可以远程访问Linux的话,需要有一个前提,就是Linux启用了SSHD服务,该服务会监听22号端口,相当于开启了一个耳朵来与外界进行通信。启用方法为在终端

2021-02-16 19:24:24 248

原创 Linux学习笔记--基础

linux学习笔记一、学习初衷二、环境搭建一、学习初衷  本来想学一下Git,但Git需要用到很多linux指令,正好之前做嵌入式开发就想学linux来着,趁此机会学习一下,在此记录学习笔记。  linux 应用的广泛度很高,也很出名,想学的人自然知道linux的好处,在此就不重复那些了,下面直接进入学习。二、环境搭建  由于linux是一个操作系统,而我们用的windows也是操作系统,所以需要安装一个虚拟机,然后在虚拟机上安装一个linux系统来学习。  在此之前首先说一下linux的发行版

2021-02-13 17:12:52 211

原创 Java全栈大数据学习笔记NO.10(JavaScript提升1)

JavaScript提升一、数组二、数组常用的方法三、类和对象四、String常用方法和属性一、数组由于 JavaScript 是弱类型语言,所以在数组的赋值中不做类型区分,各种类型的变量都可以放到同一个数组中,定义方法有以下几种,并且可以用 .length 来获取数组长度:var arr1 = [99,98,"hello","world",true];var arr2 = new Array(11,22,"张三",false,0,33);var arr3 = new Array(10); //创

2021-02-06 22:39:34 241

原创 Java全栈大数据学习笔记NO.9(JavaScript基础)

一、JavaScript简介JavaScript是一种直译式脚本语言,是一种动态类型、弱类型、基于原型的语言,内置支持类型。它的解释器被称为JavaScript引擎,为浏览器的一部分,广泛用于客户端的脚本语言,用来给HTML网页增加动态功能。二、JavaScript特点脚本语言:是一种解释型的脚本语言,C、C++等语言都是先编译后执行,而JavaScript是在程序的运行过程中逐行进行解释。基于对象:是一种基于对象的脚本语言,它不仅可以创建对象,也能使用现有的对象。简单:采用的是弱类型的变量类型

2021-02-02 00:19:50 264

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除