自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 常用激活函数介绍

激活函数输出范围计算复杂度梯度消失额外参数适用场景Sigmoid(0,1)高有无早期神经网络、二分类任务Tanh(-1,1)高有无RNN、零均值数据ReLU[0,∞)低有无CNN、深度网络Leaky ReLU(-∞,∞)低无有深度网络,防止神经元死亡PReLU(-∞,∞)低无有计算机视觉,灵活学习负半轴参数ELU(-∞,∞)中等无有深度网络,稳定收敛Swish(-∞,∞)高无有Google 高效网络。

2025-03-27 17:53:42 263

原创 整理一下损失函数(Loss Function)

损失函数(Loss Function)是机器学习和深度学习中用于量化模型预测值与真实值之间差异的函数,是模型优化的目标。通过最小化损失函数,模型逐步调整参数以提高预测准确性。不同任务和场景需要选择不同的损失函数。现在深度学习模型中最主要的梯度下降法就是基于损失函数的梯度来计算的,所以损失函数十分重要,常见的损失函数包括:均方误差是一种衡量预测值与真实值之间差距的指标。它计算的是所有预测误差(即预测值减去真实值)的平方之后的平均值。它先计算每一个样本的误差(预测值减真实值),然后平方(这样可以避免正负抵消,并

2025-03-26 20:12:48 683

原创 《DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding》论文阅读

在DeepSeek-VL的基础上进行了两个主要的升级:一个是采用了DeepSeek-V2中的MLA以及DeepSeekMoE架构,一个是动态平铺视觉编码策略(dynamic tiling vision encoding strategy)来处理具有不同纵横比的高分辨率图像。并且介绍了DeepSeek-VL2-Tiny, DeepSeek-VL2Small and DeepSeek-VL2三个不同参数量大小的模型,分别有1.0B, 2.8B and 4.5B激活的参数。

2025-03-22 00:11:13 571 1

原创 《Learning Transferable Visual Models From Natural Language Supervision》论文解读

CLIP(对比语言-图像预训练)提出了一种多模态对比学习框架,通过从互联网海量图像-文本对中学习视觉与语言的语义对齐,突破传统视觉模型依赖固定类别标签的局限。将图像分类转化为图文匹配任务,使用自然语言作为监督信号,在30个视觉任务上实现无需微调的零样本(zero-shot)迁移,性能媲美全监督模型(如ImageNet上76.2%准确率,与ResNet-76.1%相当)。CLIP的核心是一个双塔神经网络图像编码器:将图片转换为特征向量(支持ResNet或Vision Transformer)。文本编码器。

2025-03-21 17:40:05 821

原创 《DeepSeek-V3 Technical Report》阅读解析

提出了DeepSeek-V3 ,与V2一样采用MLA以及DeepSeekMoE架构,一个具有671B总参数的巨大模型,每个token都激活37B。提出auxiliary-loss-free strategy for load balancing,从而最大程度地减少了由于寻找负载平衡而产生的性能下降,研究了Multi-Token Prediction (MTP),提升了模型的性能并且加快了模型推理的解码。在海量的数据和巨大GPU集群上训练,在各项任务中表现优异。

2025-03-16 17:46:01 706

原创 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》阅读解析

解读DeepSeek-V2

2025-03-15 21:08:57 737

原创 《DeepSeek LLM :Scaling Open-Source Language Models with Longtermism》文章阅读解析

在本文中,广泛研究了语言模型的缩放行为,并将发现应用于两种广泛使用的大型模型配置,即7B和67B。我本文研究旨在为将来的开源LLMS缩放奠定基础,为该领域的进一步发展铺平了道路。具体而言,首先检查了批量规模和学习率的缩放定律,并以模型大小找到了它们的趋势。在此基础上,对数据和模型尺度的缩放定律进行了全面研究,成功揭示了最佳模型/数据扩展分配策略,并预测了大规模模型的预期性能。DeepSeek LLM在模型架构上参考了LLaMA,但用多步学习率调度程序代替了余弦学习率调度程序。

2025-03-14 21:05:20 912

原创 《DeepSeek-VL: Towards Real-World Vision-Language Understanding》阅读解析

解析DeepSeek VL文章

2025-03-14 15:19:11 792

原创 【linux利用内核编译法和模块添加法添加系统调用

本文为本人大三下学期linux实验课程所写,如有不妥之处欢迎前辈们批评指正系统:ubantu20.04在开始实验之前请确保你的ubantu分区大小达到50G以上,可用空间在25G以上。(1)查看系统内核版本开发之前首先得确定系统的内核版本是哪一个,可以通过apt-cache search linux-source来查看。(2)安装内核版本源码可以使用apt-get install linux-source-5.4.0下载相应版本的内核源码,下载后被存放在/usr/src下。

2022-05-17 21:22:33 2458 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除