
网络结构
文章平均质量分 76
万年枝
分享多模态方向论文和机器学习方面论文,主要涉及图像领域和文本领域,欢迎小伙伴和我交流;同时接python机器学习、数据处理、图像分类、文本生成等项目。和大家共同进步,不断深入人工智能领域!!!
展开
-
torch中维度操作总结(repeat,squeeze,unsqueeze,flatten,transpose)
python里的flatten(dim)表示,从第dim个维度开始展开,将后面的维度转化为一维.也就是说,只保留dim之前的维度,其他维度的数据全都挤在dim这一维。即repeat的参数是对应维度的复制个数,上段代码为0维复制两次,1维复制两次,则得到以上运行结果。如果指定位置参数,执行 torch.squeeze(A,1) ,A的维度变为 (1,3),中间的维度被删除。如果执行 torch.unsqueeze(A,1),数据的维度就变为了 (2,1,3)flatten() 是对多维数据的降维函数。原创 2025-02-28 14:55:51 · 640 阅读 · 0 评论 -
如何使用torch.DataParallel
【代码】如何使用torch.DataParallel。原创 2024-07-25 15:00:44 · 169 阅读 · 0 评论 -
ICCV2023:FLatten Transformer: Vision Transformer using Focused Linear Attention
self-attention 的二次计算复杂度一直是将Transform模型应用于视觉任务时面临的一个持续挑战。另一方面,线性注意力通过精心设计的映射函数逼近Softmax操作,以其线性复杂性提供了一种更有效的替代方案。然而,当前的线性注意力方法要么遭受显着的性能下降,要么引入了映射函数的额外计算开销。在本文中,我们提出了一种新颖的聚焦线性注意力模块,以实现高效率和表现力。具体而言,我们首先从两个视角分析了导致线性注意力性能下降的因素:聚焦能力和特征多样性。为了克服这些限制,我们引入了一个简单而有效的映射函原创 2024-03-01 15:48:33 · 1677 阅读 · 0 评论 -
ICCV2023:A Dynamic Dual-Processing Object Detection Framework Inspired by the Brain‘s Recognition Me
目标检测的两种方法:CNN-based 和 Transformer-based, 前者将该任务视为 a dense local matching problem, and the latter sees it as s sparse global retrieval problem.Research in neuroscience has shown that the recognition decision in the brain is based on two processes, namely f原创 2024-03-01 11:17:08 · 942 阅读 · 0 评论 -
One Wide Feedforward is All You Need -- working
transformer网络结构下,为减少参数量和计算量,如何优化FFN呢?原创 2023-10-31 15:14:14 · 204 阅读 · 0 评论