- 博客(97)
- 收藏
- 关注

原创 GPT + Transformer + LSTM + Attention
Transformer 用自注意力 + 并行计算重塑序列处理,GPT 将其推向文本生成极致,但其 “智能” 本质是 token 模式的统计拟合,与人类具身智能存在本质鸿沟
2024-10-22 08:00:00
746

原创 最全最细机器学习笔记__吴恩达
吴恩达《Machine Learning》精炼笔记完整版,研一自用版,如果对大家有用,那我也很高兴,一起进步。
2024-09-23 18:11:31
2978
3
原创 Dif-Fusion:第一个基于扩散模型实现的红外光与可见光图像融合的论文
论文主要创新点:提出了第一个基于扩散模型 (Diffusion) 实现的红外光与可见光图像融合模型,但模型不止简单的依赖于 Diffusion,而是一个新颖的 two-stage 的图像融合模型。Dif-Fusion 利用扩散模型的生成能力,直接在潜在空间中建模多通道数据的分布,避免了传统方法中对颜色信息的损失。传统的红外与可见光图像融合方法通常将多通道图像转换为单通道进行处理,忽略了颜色信息的保留,导致融合图像色彩失真。
2025-05-29 18:57:13
674
原创 图像融合质量评价指标
摘要:本文介绍了6种图像融合质量评估指标:MI(互信息)衡量信息保留量,适用于多模态融合;VIF(视觉保真度)模拟人眼感知,适合自然场景;SF(空间频率)反映细节丰富度;Qabf(边缘保留质量)适用于无参考图像评估;SD(标准差)快速衡量对比度;DeltaE量化色彩差异。表格对比了各指标的优缺点与应用场景,MI计算简单但对空间结构不敏感,VIF符合人眼感知但计算复杂,SF快速反映细节但无法区分噪声,Qabf对边缘敏感,SD计算快速,DeltaE专用于色彩评估。
2025-05-28 09:34:27
720
原创 数字图像处理基础教程 __ 冈萨雷斯
图像反转(Image Inversion)是一种简单直观的图像处理操作,属于灰度变换的一种。其核心思想是将图像的灰度值按一定规则进行反向映射,使亮区和暗区互换,从而实现特殊的视觉效果或增强特定细节。L 为图像的灰度级总数(如 8 位图像 (L=256 ),灰度范围 0~255);( L-1 ) 代表最大灰度值(如 255)。
2025-05-27 23:55:26
454
原创 【数字图像处理】_笔记
这是一份数字图像处理学习笔记,内容涵盖七章知识。第一章介绍数字图像、处理定义、研究内容、应用及发展趋势;第二章讲解图像数字化、表示、模式、像素关系、直方图和质量评价;第三章阐述图像增强的点运算、代数运算、邻域运算及频域滤波等方法;第四章探讨图像复原,涉及噪声、模糊、畸变等处理;第五章讲述形态学处理的基础、运算、算法及应用;第六章分析图像分割的阈值、区域、边界及神经网络分割方法;第七章介绍图像描述与特征提取,包括灰度、边界、区域、纹理描述和多种特征提取算法。
2025-05-26 21:51:43
651
原创 【数字图像处理】怎么学?
颜色处理底层原理可从经典书籍如《Color Science》《Digital Color Imaging Handbook》及论文(如 CIECAM02、Retinex 理论)入手,结合在线课程(如 Coursera 色彩科学)和开源工具(OpenCV、MATLAB)实践。图像融合失真源于传感器差异、色彩空间不统一等,研究高保真融合可从:①预处理(色彩校正、亮度均衡);②多分辨率 / 特征融合;③深度学习(CNN/GAN 提取鲁棒特征);④引入视觉感知模型优化权重;⑤时序一致性约束(视频场景)。先从静态图
2025-05-23 21:02:08
744
原创 基于自动编码器的图像融合方法
基于自动编码器(Autoencoder, AE)的图像融合方法是一种利用深度学习技术,通过编码-解码结构提取图像特征并融合多源图像信息的策略。通过编码器提取图像的潜在特征,再通过融合策略将这些特征结合,最终通过解码器重构出融合后的图像。:将输入图像压缩为低维的潜在特征(Latent Representation),捕捉关键信息。:从潜在特征中重构出原始图像。训练目标是最小化输入与重构输出之间的差异(如均方误差),使潜在特征能有效表征输入数据。
2025-05-22 15:37:28
459
原创 Diff-Retinex 2023 ICCV
Retinex模型利用这种颜色恒常性,可以在动态范围压缩、边缘增强和颜色恒常三个方面打到平衡,因此可以对各种不同类型的图像进行自适应的增强,不同于传统的只能增强图像某一类特征的方法。多尺度自适应增益Retinex算法综合了前两种算法,先分解成不同尺度的图像,然后使用自适应增益函数对每个尺度的图像进行增强,最后重建图像以达到增强效果。多尺度Retinex算法将图像分解成不同尺度的图像,对每个尺度的图像进行增强,以保留不同尺度的细节信息。照度图的输入是光源的位置、强度和颜色,输出是表面上不同位置的照度值。
2025-05-15 18:53:08
778
原创 图像融合的方法及分析
众所周知,灰度图像是呈现黑色与白色之间不同级别颜色深度的图像,主要为亮度信息。而彩色图像的每个像素值包括了R、G、B 3个基色分量,每个分量决定了其基色的强度。因此,在图像融合时,不同图像采用不同的融合方法。本文对其分别进行了分析。颜色深度指的是图像中颜色的丰富程度,以二进制位来衡量。在灰度图像里,颜色深度体现为从黑色到白色之间的过渡层次。
2025-05-07 14:05:49
827
原创 解读提示工程(Prompt Engineering)
Prompt提示是什么呢?Prompt提示是模型接收以生成响应或完成任务的初始文本输入。我们给AI一组Prompt输入,用于指导模型生成响应以执行任务。这个输入可以是一个问题、一段描述、一组关键词,或任何其他形式的文本,用于引导模型产生特定内容的响应。例如,在chatGPT中,用户通常使用 prompt 来与大语言模型进行交互,请求回答问题、生成文本、完成任务等。模型会根据提供的 prompt 来生成一个与之相关的文本,尽量符合用户的要求。
2025-05-06 10:45:47
653
原创 大模型系列——解读RAG
模型有固定的输入序列长度,即使输入上下文的窗口很大,一个或几个句子的向量也比一个在几页文本上取平均值的向量更能代表它们的语义意义 ,所以数据分块是一个有意义的技术。数据块的大小是一个需要考虑的参数,它取决于使用的嵌入模型及其token容量,标准的transformer编码模型,如BERT 的句子转换器,最多只能使用512个token,OpenAI ada-002能够处理更长的序列,如8191个token,但这里的折衷是足够的上下文,让 LLM 能够推理以及特定的足够文本嵌入,以便有效地执行搜索。
2025-05-05 23:59:51
939
原创 一文看懂大模型核心参数调优用法与实战
目前大部分集成大模型开发用作后端响应,基本上生产环境用的都是OpenAI Python 的SDK,我也推荐大家用OpenAI Python 的SDK,统一、规范易于理解。而且目前市面上的模型基本都兼容OpenAI的SDK,能容易集成其他大模型的API打造多模态大模型并用ASWL,因此本文将主要探讨OpenAI SDK的一些常用参数在创建大模型对话是可以使用哪些参数来强化优化回答效果。每一个参数都是调节“风格”“稳定性”“长度”“成本”的旋钮,合理配置就像调音师手中的推子,最终奏出你理想中的“AI交响乐”。
2025-05-03 11:15:00
568
原创 神经网络结构——CNN、RNN、LSTM、Transformer !!
本文将从什么是CNN?什么是RNN?什么是LSTM?什么是Transformer?四个问题,简单介绍神经网络结构。神经网络结构通过卷积和池化操作有效地处理高维图像数据,降低计算复杂度,并提取关键特征进行识别和分类。循环神经网络(RNN):一种能处理序列数据并存储历史信息的神经网络,通过利用先前的预测作为上下文信号,对即将发生的事件做出更明智的决策。长短期记忆网络(LSTM):一种特殊的循环神经网络,通过引入内存块和门控机制来解决梯度消失问题,从而更有效地处理和记忆长期依赖信息。(RNN的优化算法)
2025-05-03 08:15:00
1038
原创 第十三章:Prompting 情感分析
本文我们将运用 Transformers 库来完成情感分析任务,并且使用当前流行的 Prompting 方法。Prompting 方法的核心思想就是借助模板将问题转换为与预训练任务类似的形式来处理。例如要判断标题 “American Duo Wins Opening Beach Volleyball Match”的新闻类别,就可以应用模板“This is aNews: x”将其转换为“This is a。
2025-04-30 11:00:00
1256
原创 第十一章:文本摘要任务
文本摘要可以看作是将长文本“翻译”为捕获关键信息的短文本,因此大部分文本摘要模型同样采用 Encoder-Decoder 框架。当然,也有一些非 Encoder-Decoder 框架的摘要模型,例如 GPT 家族也可以通过小样本学习 (few-shot) 进行文本摘要。
2025-04-30 10:00:00
871
原创 第十五章:预训练大语言模型
大语言模型的构建过程可以分为预训练和微调两个阶段。通过在大规模语料上进行预训练,大语言模型可以获得通用的语言理解与生成能力,并且学习到较为广泛的世界知识。本章将按顺序依次介绍预训练中的各个步骤,原始数据的收集、数据预处理、分词、以及预训练过程中的数据调度方法。
2025-04-29 15:30:00
873
原创 第十四章:大语言模型技术简介
正如1.2节统计语言发展史所述,在规模扩展定律(Scaling Laws)被证明对语言模型有效之后,研究者构建出了许多大语言模型。尤其是 2022 年底面向普通消费者的 ChatGPT 模型的出现,正式标志着自然语言处理进入大语言模型时代。本章将简要梳理大语言模型的技术要点以及构建过程,方便读者快速了解如何训练以及使用大语言模型。
2025-04-29 10:00:00
1255
原创 人工智能期中考试题_2025.4.29
推理是指从已知的事实或前提中,运用一定的规则和方法,推导出新的结论或知识的过程。在人工智能中,推理是实现智能系统能够根据已有的知识进行思考、决策和解决问题的重要手段。演绎推理(Deductive Reasoning):从一般到个别,结论必然为真(如三段论)。归纳推理(Inductive Reasoning):从个别到一般,结论具有或然性(如科学归纳法)归结演绎推理是基于一阶谓词逻辑的一种推理方法,其基本思想如下。
2025-04-28 23:21:39
604
原创 7.9K star!免费解锁Cursor Pro功能,这个开源神器太强了!
项目采用Python开发,最新版本已支持Cursor 0.48.x,累计获得7.9K星标,被开发者誉为"AI编程加速器"。"无需付费即可畅享AI编程神器Cursor的Pro功能,支持Windows/macOS/Linux全平台!
2025-04-27 23:09:39
451
原创 第九章:序列标注任务
我们的第一个实战任务是序列标注 (Sequence Labeling/Tagging),其目标是为文本中的每一个 token 分配一个标签,因此 Transformers 库也将其称为 token 分类任务。常见的序列标注任务有(Named Entity Recognition) 和命名实体识别 NER 旨在识别出文本中诸如人物、地点、组织等实体,即为所有的 token 都打上实体标签(包含“非实体”)。词性标注 POS 旨在为文本中的每一个词语标注上对应的词性,例如名词、动词、形容词等。
2025-04-27 10:00:00
771
原创 第八章:快速分词器
通过前面章节的介绍,我们已经对 Transformers 库有了基本的了解,并且上手微调了一个句子对分类模型。从本章开始,我们将通过一系列的实例向大家展示如何使用 Transformers 库来完成目前主流的 NLP 任务。在开始之前,我们先回顾一下在第五章《模型与分词器》中已经介绍过的分词器 (Tokenizer),进一步了解分词器的一些高级功能。
2025-04-26 10:00:00
992
原创 一个非常快速的 Latex 入门教程【Part 2】
LaTeX是一个让你的文档看起来更专业的排版系统,而不是文字处理器。它尤其适合处理篇幅较长、结构严谨的文档,并且十分擅长处理公式表达。它是免费的软件,对大多数操作系统都适用。如果你习惯于使用微软的 Office Word 处理文档,那么你会觉得 LaTeX 的工作方式让你很不习惯。Word 是典型的「所见即所得」的编辑器,你可以在编排文档的时侯查看到最终的排版效果。但使用 LaTeX 时你并不能方便地查看最终效果,这使得你专注于内容而不是外观的调整。一个 LaTeX 文档是一个以.tex。
2025-04-25 22:24:20
704
原创 一个非常快速的 Latex 入门教程【Part 1】
LaTex的主要优势是它会将文档的内容和排版区分开来,这就好像是 html和 css 的关系。LaTex 中所有的命令都以开头,后面可以跟一个花括号,代表这个命令的参数。由于我们需要在文档中显示中文,这里需要使用一个叫作ctexart 的文档类型,它支持简体中文和英文的混排。所有位于之前的内容被都被称作是前言(preamble),它就像是HTML当中的 head 标签。你可以在这里设置文档的格式,页面的尺寸,也可以指定文档中需要导入的宏包等等。
2025-04-25 21:32:22
849
原创 第十二章:抽取式问答
本文我们将运用 Transformers 库来完成抽取式问答任务。自动问答 (Question Answering, QA) 是经典的 NLP 任务,需要模型基于给定的上下文回答问题。通常采用纯 Encoder 框架(例如 BERT),它更适用于处理事实性问题,例如“谁发明了 Transformer 架构?”,这些问题的答案通常就包含在上下文中;而则通常采用 Encoder-Decoder 框架(例如 T5、BART),它更适用于处理开放式问题,例如“天空为什么是蓝色的?
2025-04-25 10:44:31
649
原创 第七章:微调预训练模型
在上一篇《必要的 Pytorch 知识》中 ,我们介绍了使用 Transformers 库必须要掌握的 Pytorch 知识。本文我们将正式上手微调一个句子对分类模型,并且保存验证集上最好的模型权重。
2025-04-25 10:00:00
939
原创 第六章:必要的 Pytorch 知识
在上一章中,我们介绍了Model类和Tokenizers类,尤其是如何运用分词器对文本进行预处理。Transformers 库建立在 Pytorch 框架之上(Tensorflow 的版本功能并不完善)DataLoader因此,本章将介绍 Pytorch 的一些基础概念以及后续可能会使用到的类,让大家可以快速上手使用 Transformers 库建立模型。
2025-04-24 10:00:00
1648
原创 第四章:开箱即用的 pipelines
""""""可以看到,pipeline 自动选择了预训练好的模型来完成任务。与文本生成类似,我们也可以通过max_length或min_length参数来控制返回摘要的长度。
2025-04-22 10:00:00
724
原创 第三章:注意力机制
正如在前两章所说,自从 2017 年 Google 发布之后,各种基于 Transformer 的模型和方法层出不穷。尤其是 2018 年,OpenAI 发布的和 Google 发布的模型在几乎所有 NLP 任务上都取得了远超先前最强基准的性能,将 Transformer 模型的热度推上了新的高峰。Transformer 模型之所以如此强大,是因为它抛弃了之前广泛采用的循环网络和卷积网络,而采用了一种特殊的结构——注意力机制 (Attention) 来建模文本。
2025-04-21 23:42:14
876
原创 第一章:自然语言处理
自然语言处理(Natural Language Processing,NLP)是一门借助计算机技术研究人类语言的科学。虽然该领域的发展历史不长,但是其发展迅速并且取得了许多令人印象深刻的成果。在上手实践之前,我想先给大家简单介绍一下自然语言处理的发展历史以及 Transformer 模型的概念,这对于后面理解模型结构会有很大帮助。本章将带大家快速穿越自然语言处理的发展史,了解从统计语言模型到大语言模型的发展历程。
2025-04-21 23:10:48
1279
原创 第二章:Transformer 模型
Transformer 模型本质上都是预训练语言模型,大都采用自监督学习 (Self-supervised learning) 的方式在大量生语料上进行训练,也就是说,训练这些 Transformer 模型完全不需要人工标注数据。自监督学习是一种训练目标可以根据模型的输入自动计算的训练方法。例如下面两个常用的预训练任务:基于句子的前 n 个词来预测下一个词,因为输出依赖于过去和当前的输入,因此该任务被称为因果语言建模。
2025-04-21 22:58:52
1452
原创 从外网访问局域网服务器的方法+Linux文件和命令+解决Ubuntu系统/usr/lib/xorg/Xorg占用显卡内存问题
端口映射是一种网络技术,它在网络地址转换(NAT)中发挥着关键作用,能够实现外网对局域网内服务器或设备的访问。
2025-04-20 23:43:35
509
原创 一文带你看懂Zero-shot, One-shot和Few-shot的区别 !
机器学习按样本量需求分为传统监督式学习、Zero-shot Learning、Few-shot Learning、One-shot Learning。传统监督式学习依赖海量数据反复训练;Zero-shot Learning 无需任务示例,借助预训练知识预测,能应对类别失衡与长尾分布;Few-shot Learning 旨在让模型学会辨别事物异同,凭借小数据集(Support set)辅助判断新类别;One-shot Learning 是 Few-shot Learning 的特殊情况,每类仅有一个样本。后三
2025-04-18 10:50:32
1199
原创 数据集dataset
TNO、MSRS、M3FD 和 LLVIP 均为包含红外与可见光图像对的数据集,适用于不同场景下的多模态融合与目标检测研究。考虑 退化场景(例如,强光、低照度、低源图像质量、非刚性失真)聚焦校园环境中的行人、车辆等目标。覆盖多类目标(如行人、车辆、动物)覆盖典型场景(如道路、建筑等)。
2025-03-21 11:36:29
419
原创 回顾Transformer,并深入讲解替代方案Mamba原理(图解)
Mamba 是基于选择性状态空间模型的新型架构,通过动态调整矩阵参数和步长实现内容感知推理,结合并行扫描算法与硬件融合技术,突破 Transformer 的二次复杂度瓶颈。其采用 HiPPO 矩阵初始化捕捉长程依赖,离散化技术支持线性时间递归推理与卷积并行训练,在长文本生成任务中性能接近同规模 Transformer,且理论支持无限上下文长度。该模型通过动态参数设计和硬件协同优化,为低延迟推理场景提供高效解决方案,成为长序列建模领域的重要创新方向。
2025-03-17 23:50:54
1207
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人