- 博客(25)
- 收藏
- 关注
原创 C,C++,C#
C、C++ 和 C# 是三种不同的编程语言,虽然它们名称相似,但在设计目标、语法特性、运行环境和应用场景上有显著区别。:快速开发企业应用或跨平台桌面软件(.NET MAUI)。:需要高性能 + 面向对象(如游戏、量化交易)。:需要极致性能或底层开发(如操作系统、驱动)。// C 只能用结构体模拟。想学游戏/高性能 →。
2025-04-08 13:33:39
1565
2
原创 Visual Decoding and Reconstruction via EEG Embeddings with Guided Diffusion
通过引导扩散的脑电图嵌入实现视觉解码和重构本文提出了一种新颖的基于脑电图(EEG)的视觉解码和重建框架,在图像分类、检索和重建任务中实现了最先进的性能。该框架包括一个名为自适应思维映射器(ATM)的定制大脑编码器,将神经信号投射到与图像嵌入共享的子空间中,以及一种分两个阶段的图像生成策略,分别从EEG数据中提取高级和低级视觉特征。该框架的多功能性在EEG和MEG数据上得到了证明,突出了使用低成本、便携式EEG进行广泛的脑机接口应用的潜力。
2025-04-06 20:41:31
1324
原创 VIT改进
优先加载CNN部分的预训练权重(如ImageNet预训练ResNet),ViT部分可从头训练或微调。:仅替换模型的一部分(如将ResNet的最后阶段替换为Transformer)。:若使用ViT处理CNN特征,需重新设计位置编码(如可学习的2D位置编码)。参考模型:CoAtNet(CNN+Transformer混合堆叠)。:资源受限时,结合MobileNet等轻量CNN与蒸馏后的ViT。:用卷积处理局部窗口,再用Transformer跨窗口交互。:用大型CNN或ViT作为教师模型,训练混合结构的小模型。
2025-04-03 14:24:02
899
原创 AI知识点储备
误差反向传播是BP算法的一部分,负责梯度计算,而BP算法则涵盖了从初始化到参数更新的整个训练过程。推理是模型从训练到实际应用的核心步骤,通过前向计算对新数据进行预测。与训练不同,推理更注重效率和实时性,通常需要针对具体场景进行优化。在网络中,**归一化(Normalization)**是一种对数据进行标准化处理的技术,目的是将数据调整到特定的范围或分布,以改善模型的训练效果和稳定性。归一化通常作用于网络的输入数据或中间层的激活值。
2025-04-03 14:14:04
807
原创 ViT代码学习及实战
parser.add_argument('--num_classes', type=int, default=14)我的类别是14。靠了,好怪,原来是输入数据集文件夹排列不对,把所有图片都认为是train类了,在尝试花数据集后才恍然大悟。我认为:花数据集大小是手势的大约3倍,且只有5类,而手势有14类,每类的数据集很小,所以效果差。加载的预训练权重文件本来就没有这个key,所以在删除检索的时候检索不到,所以报错,只提升了一点,效果依然不是很好,估计还是数据集太小了。把删除的代码删了就好了。
2025-03-20 14:15:22
932
原创 yolov5学习及手势识别实战
YOLOv5通过CSPDarknet主干网络PANet特征融合和多尺度检测头,在保持实时性的同时提升了检测精度。工程优化:自适应锚框、动态损失平衡、高效数据增强。架构改进:Focus模块减少计算量,C3结构增强特征复用。灵活性:提供多种模型尺寸(s/m/l/x)适应不同硬件需求。
2025-03-19 14:27:32
790
原创 DDIM去噪扩散隐式模型
DDIM通过非马尔可夫假设和确定性生成,在保持生成质量的同时大幅提升效率,并扩展了图像反演等应用场景。其核心贡献在于重新定义了扩散模型的生成路径,为后续研究(如Stable Diffusion等)奠定了基础t=P1C7DDPM算法https://zhuanlan.zhihu.com/p/666552214。
2025-03-16 16:15:58
941
原创 U-Net架构
UNet是一种经典的卷积神经网络架构,解决了传统方法在数据量不足时面临的挑战。最初由医学图像分割任务提出,后被广泛应用于扩散模型(如DDPM、DDIM、Stable Diffusion)中作为噪声预测的核心网络。核心结构包括一个收缩路径(downsampling path)和一个对称的扩展路径(upsampling path)。收缩路径通过多次下采样操作捕获上下文信息,而扩展路径则通过上采样操作结合底层特征和高层特征,实现精确的像素级分割。
2025-03-16 16:02:46
1253
原创 FiLM,条件特征调制
FiLM的作用是通过外部条件信息(如任务标签、上下文信息等)对EEG嵌入(embeddings)进行动态调整,从而增强模型的表达能力。
2025-03-14 17:15:33
93
原创 时序掩码信号建模
Temporal Masked Signal Modeling(时序掩码信号建模)是一种自监督学习方法,其核心原理是通过随机掩码(mask)时间序列中的部分信号,并让模型基于上下文信息预测被掩码的部分,从而学习信号的时序依赖性和内在表征。这一方法广泛应用于语音、视频、传感器数据等时序信号的处理中。
2025-03-14 17:07:49
388
原创 ICML 2021 | CLIP论文解读
fixedset ofrestrictedlimitsspecifyLearningdirectlyfromrawbroadersource of我们证明,预测哪张图片配哪个标题这一简单的预训练任务,是在从互联网上收集的 4 亿个(图片、文本)数据集上从头开始学习SOTA 图像表征的有效且可扩展的方法。我们通过在超过30个不同的现有计算机视觉数据集上进行基准测试来评估该方法的性能,这些数据集涵盖OCR、视频动作识别、地理定位以及多种细粒度物体分类等任务。
2025-03-14 16:51:12
930
原创 NIPS 2017 | Transformer论文精读:Attention Is All You Need
主流的序列转换(sequence transduction)模型都是编码器(encoder)和解码器(decoder)架构,并基于复杂的循环或卷积神经网络实现。目前性能最好的模型还加入了注意力机制将编码器和解码器连接起来。我们提出了一种新的简单网络架构——Transformer,其仅使用注意力机制,完全不需要循环和卷积单元。
2025-03-13 20:08:02
761
原创 自回归(Autoregressive)模型详解
自回归(, AR)是序列生成任务中的核心范式,广泛应用于自然语言处理(如GPT)、语音合成、时间序列预测等领域。仅依赖于之前,即通过逐步预测下一个元素的方式构建完整序列。通过循环单元维护隐状态(Hidden State),逐步传递历史信息。隐状态 ht=f(ht−1,xt),其中 xt 是当前输入(通常是上一步的输出 yt−1)。串行计算导致训练和推理速度慢,长距离依赖易丢失。使用**掩码自注意力(Masked Self-Attention)**实现并行训练,同时保证自回归特性。
2025-03-13 18:57:37
1318
原创 局部敏感哈希(Locality-Sensitive Hashing, LSH)
用于高维最近邻(Approximate Nearest Neighbor, ANN)的高效算法。其核心思想是通过哈希函数将相似的数据点以高概率映射到同一个“桶”中,从而在查询时仅需比较同一桶内的数据,大幅降低计算复杂度。的碰撞概率高:若 d(x,y)≤R,则 P[h(x)=h(y)]≥p1;的碰撞概率低:若 d(x,y)≥cR(c>1),则 P[h(x)=h(y)]≤p2(p1≫p2)。注:d(x,y)是数据点之间的距离度量(如欧氏距离、余弦相似度等)。
2025-03-13 18:42:31
340
原创 Attention相关知识点
若窗口大小k=32,则复杂度降为O(n×k)=O(n)。保留少量全局块,允许跨块关注关键位置(如文档开头/结尾)。:整合局部、全局和随机注意力,理论保证逼近全注意力效果。:如步长注意力(每隔s个位置关注一次)或对角线注意力。:结合局部窗口注意力与全局注意力(特定位置全局关注)。:确定需全局关注的关键位置(如分类标记[CLS])。:每个位置随机选取固定数量的其他位置进行计算。:结合局部与随机注意力,平衡局部与全局信息。:每个位置仅关注部分相关位置,而非全部。:每个位置仅关注前后固定窗口内的位置(如。
2025-03-13 18:28:25
227
原创 ICLR2021 | ViT论文精读:用transformer 去做大规模的图像识别
虽然 Transformer 架构已成为自然语言处理任务的事实(de-facto)标准,但它在计算机视觉方面的应用仍然有限。在视觉领域,注意力要么与卷积网络结合使用,要么用来取代卷积网络的某些组件,同时保持其整体结构不变。我们的研究表明,这种对卷积网络的依赖并非必要,直接应用于图像块序列的纯Transformer 可以在图像分类任务中表现出色。
2025-03-13 15:45:44
1161
原创 EEG至图像生成的文献综述
脑机接口(BCI)和生成性人工智能(GenAI) 的集成开辟了大脑信号解码的新领域,实 现了辅助交流、神经表征学习和多模式集 成。BCI,特别是那些利用脑电图(EEG)的 BCI,提供了一种将神经活动转化为有意义输出的非侵入性方法。深度学习的最新进 展,包括生成对抗网络(GAN)和基于变 换器的大型语言模型(LLM),显著改善了 基于 EEG 的图像、文本和语音生成。本文 对基于 EEG 的多模态生成的最新进展进行 了文献综述,重点关注(i)通过。
2025-03-05 17:43:32
815
原创 AlexNet论文:ImageNet Classification with Deep Convolutional Neural Networks
To make training faster, we used 非饱和神经元 + GPUTo reduce overfitting过拟合 in the fully connected layers we employed a recently developed regularization正则化 method called “dropout”
2025-03-03 16:37:36
889
原创 BrainDreamer基于语言引导的EEG图像生成2024.9.21
核心贡献:实现语义连贯且可控的EEG到图像生成方法:构建EEG-文本-图像三级跨模态映射框架开发语言指导的跨模态注意力机制创新点:通过文本提示实现生成图像属性的实时编辑(如"将狗变为猫")在本文中,我们提出了 BrainDreamer,这是一种新的端到端语言引导生成框架,可以通过模仿人类推理从脑电图 (EEG) 大脑信号生成高质量的图像。具体来说,BrainDreamer 由两个主要的学习阶段组成。1)模态对齐,2) 图像生成。在对齐阶段,我们提出了一种新颖的基于掩码的三重对比学习策略。
2025-03-02 18:31:25
743
原创 EEG图像生成知识点
只是为了学习脑电信号,也称脑电图(EEG,)是大脑神经元活动产生的电信号。神经元通过突触连接彼此,形成复杂的神经网络。当神经元激活时,会产生生物电现象,这些电信号可以通过电极放置在头皮上或直接植入大脑来捕捉。研一,老师方向是脑机接口,让自学EEG 我现在自学了eeglab的预处理,接下来应该学习什么?- 形宙数字的回答 - 知乎EEG信号的分析和处理通常会涉及以下一个或多个方面:信号的预处理(预处理也需要多个步骤)、ERP时域分析、时频分析、信号的功率谱计算、功能连接、溯源分析等等。EEGLAB。
2025-03-02 11:53:01
629
原创 2023.6.30DreamDiffusion: Generating High-Quality Images from Brain EEG Signals
DreamDiffusion是一种直接从脑电图(EEG)信号生成高质量图像的新方法,无需将思想转化为文本。DreamDiffusion 利用预训练的文本到图像模型(如 Stable Diffusion)从 EEG 信号生成图像。它采用时间掩码信号建模来预训练 EEG 编码器,以获得有效且稳健的 EEG 表示。该方法进一步利用CLIP 图像编码器提供额外的监督,以更好地将 EEG、文本和图像嵌入与有限的 EEG-图像对齐。EEG 信号嘈杂且信息有限,难以提取有效的表示。
2025-03-02 11:29:28
959
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人