
传知代码
文章平均质量分 97
编程未来,从这里启航!解锁无限创意,让每一行代码都成为你通往成功的阶梯,帮助更多人欣赏与学习;更多内容详见:www.aspiringcode.com
Eternity._
计算机爱好者,阿里云专家博主,C/C++爱好者,祝大家天天开心,事事如意
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【论文复现】基于深度学习的高效时序预测
为了解决长期未来复杂的时间模式,作者将Autoformer作为分解体系结构,通过设计内部分解模块,使深度预测模型具有内在的渐进分解能力。同时作者提出了一种在序列级别上具有依赖关系发现和信息聚合的自相关机制。我们的机制超出了以前的自注意力家族,可以同时提高计算效率和信息利用率。原创 2024-12-29 08:00:00 · 957 阅读 · 7 评论 -
【论文复现】如何穿透模糊,还原图片真实面貌
在我们日常生活中,照片是记录美好瞬间、传递情感与记忆的重要载体。然而,由于拍摄环境、设备限制或手抖等因素,许多珍贵的照片往往伴随着模糊与不清晰,让那份本应清晰可见的回忆变得朦胧。但如今,随着人工智能技术的飞速发展,图像去模糊技术就像一把神奇的“魔法棒”,能够穿透这些生活中的“迷雾”,让模糊的照片重获新生,还原其真实而动人的风采。原创 2024-12-28 08:00:00 · 932 阅读 · 4 评论 -
【论文复现】图像压缩算法
输入的特征向量经过一个11的卷积,我们知道11卷积能够很好的糅合各通道之间的信息,然后下一步就是在通道维度对这个特征向量做一个切割,分别送入到Transformer块和残差块里进行学习。采用这种并行式的处理,一方面可以减小参数量,另一方面,能够分别学习各自擅长学习的特征。然后对各自得到的结果向量,先进行一个Concatenate,然后同样经过一个1*1卷积,对其各自的特征进行一个交互。原创 2024-12-27 13:00:00 · 1379 阅读 · 2 评论 -
【论文复现】FAST-VQA
现实世界视频分辨率的提高对于深度视频质量评估(VQA)在效率与准确性之间提出了一个难题。一方面,保持原始分辨率将导致不可接受的计算成本。另一方面,现有的实践方法,如图像缩放和裁剪,会因为细节和内容的丢失而改变原始视频的质量,因此对质量评估是有害的。原创 2024-12-27 00:48:51 · 972 阅读 · 0 评论 -
【论文复现】你知道什么是图片盲水印吗?
图片盲水印是一种隐秘信息嵌入技术,能够将水印嵌入到图像中,而不影响其外观和质量。该技术的独特之处在于,嵌入的水印在人眼无法察觉的情况下嵌入,并且在提取过程中无需原始图像。这种方法广泛应用于版权保护、数字内容验证和信息安全等领域,通过复杂的算法确保水印的稳健性和抗攻击性,即使图像经过压缩、裁剪或其他处理,水印仍然能够有效提取和识别。原创 2024-12-26 14:30:30 · 1085 阅读 · 3 评论 -
【论文复现】FCOS:2D目标检测算法
FCOS提出了一个全卷积的单阶段目标检测器,以逐像素预测的方式解决目标检测,类似于语义分割。FCOS通过消除预先定义的锚框集合,完全避免了训练过程中与锚框相关的复杂计算,例如与锚框相关的所有超参数,而这些参数通常对最终的检测性能非常敏感。原创 2024-12-25 20:11:05 · 1078 阅读 · 3 评论 -
【论文复现】进行不同视角图像的拼接
无论对于日常的娱乐需求还是一些专业性的测绘工作,都需要我们基于这些“残缺”的图片来构建出完整的图像。原创 2024-12-25 06:00:00 · 1371 阅读 · 10 评论 -
【论文复现】农作物病害分类(Web端实现)
农作物病害是国家粮食安全的一个主要威胁,是决定农作物产量和质量的主要因素。 由于传统方法缺乏必要的基础设施,并且极大程度依赖于人工经验,故诸多地区难以迅速高效地防治病害,从而影响农业的发展。因此,精确诊断农作物病害对于促进农业可持续发展至关重要。原创 2024-12-24 19:25:10 · 1112 阅读 · 4 评论 -
【论文复现】深度学习革新音乐转录
自动音乐转录(AMT)作为音乐信息检索(MIR)的一个重要分支,其目标是将音频信号转换成可读的乐谱形式,这在音乐分析、教育、制作等多个领域都有着广泛的应用。AMT的发展历程可以划分为两个主要阶段:早期基于规则的方法和现代基于深度学习的技术。原创 2024-12-24 00:51:34 · 1342 阅读 · 4 评论 -
【论文复现】基于LSTM的情感分析
标签数据集包含5万条IMDB影评,专门用于情绪分析。评论的情绪是二元的,这意味着IMDB评级< 5导致情绪得分为0,而评级>=7的情绪得分为1。没有哪部电影的评论超过30条。标有training set的2.5万篇影评不包括与2.5万篇影评测试集相同的电影。此外,还有另外5万篇IMDB影评没有任何评级标签。原创 2024-12-23 18:42:23 · 1456 阅读 · 2 评论 -
【论文复现】基于图神经网络的知识追踪方法
将知识结构构建为图,其中节点对应于概念,边对应于它们之间的关系,将知识追踪任务构建为图神经网络中的时间序列节点级分类问题。原创 2024-12-23 00:29:37 · 1381 阅读 · 10 评论 -
【论文复现】掩码自回归编码器
掩码自动编码器MAE是一种可扩展的计算机视觉自监督学习器。MAE的基本思路是:屏蔽输入图像的随机补丁,并重建丢失的像素,原创 2024-12-22 19:01:43 · 1106 阅读 · 1 评论 -
【论文复现】猴痘图像分类
本项目通过设计一个基于深度学习的图像分类模型,旨在帮助医学界精准识别猴痘(Monkeypox)病例。我们采用了DenseNet架构,并结合SE(Squeeze-and-Excitation)通道注意力机制,以提高模型在识别猴痘皮肤病变方面的准确性和鲁棒性。这个模型的训练与应用,不仅能提升诊断效率,还能为公共卫生防控提供智能支持。原创 2024-12-22 00:46:32 · 1157 阅读 · 4 评论 -
【论文复现】股票评论的情感分类器
由于Transformer模型的强大表征学习能力,可以在大规模文本数据上进行预训练,并且具有适用性广泛的特点,因此Transformer模型已经被广泛应用于自然语言处理领域,它能够各种任务上取得了优异的表现,包括情感分析。本篇使用股票市场上的股民评论数据作为训练数据,股票市场受到投资者情绪和情感的影响很大,通过对股票评论进行情感分析,可以帮助分析师和投资者更好地了解市场参与者的情绪状态,从而预测市场走势原创 2024-12-21 10:00:00 · 1454 阅读 · 5 评论 -
【论文复现】微表情识别系统
面部表情图像预处理是面部表情识别的重要步骤,主要目的是在于提取特征之前排除一切与面部表情无关的干扰因素。例如,环境光照、姿势和不同背景等。在干扰排除后,将人类面部直接与公共参考系相对接、使每个面部特征对应的语义位置精准无误。人脸检测、人脸对齐、数据增强、人脸一是实现面部表情图像预处理的主要方法。原创 2024-12-21 00:45:09 · 1181 阅读 · 1 评论 -
【论文复现】找出图像中物体的角点
该方法对算力几乎没有任何要求,依据图像邻域内灰度值的分布特点来对图像中各区域的角点进行判断。不像深度学习需要依靠大量数据的训练且对数据集分布有依赖性,所以时至今日依然在工业界有着很高的应用价值。原创 2024-12-20 06:00:00 · 998 阅读 · 0 评论 -
【论文复现】图像高清化
图像超分辨率是指从低分辨率图像恢复高分辨率图像的过程,是计算机视觉和图像处理中的一类重要技术。它在实际应用中有广泛的用途。随着深度学习的发展,超分辨率方法的性能取得了巨大飞跃。然而,由于这些超分辨率方法大多是有监督的,因此它们受限于特定的训练数据,其中低分辨率图像是从其高分辨率对应图像中预先获得的。然而,真实的低分辨率图像很少遵循这些限制,导致最先进方法在真实应用场景中性能不佳。原创 2024-12-20 00:38:04 · 786 阅读 · 0 评论 -
【论文复现】多视图3D目标检测位置嵌入变换
PETR体系结构具有许多优点,它既保留了原始DETR的端到端的方式,又避免了复杂的2D到3D投影和特征采样。原创 2024-12-19 06:00:00 · 851 阅读 · 8 评论 -
【论文复现】通用的图像分割模型
图像分割研究像素分组问题,对像素进行分组的不同语义产生了不同类型的分割任务,例如全景分割、实例分割或语义分割。虽然这些任务中只有语义不同,但目前的研究侧重于为每个任务设计专门的架构。原创 2024-12-18 20:41:21 · 1552 阅读 · 1 评论 -
【论文复现】DETR3D:3D目标检测
DETR3D介绍了一种多摄像头的三维目标检测的框架。与现有的直接从单目图像中估计3D边界框或者使用深度预测网络从2D信息中生成3D目标检测的输入相比,DETR3D直接在3D空间中进行预测。DETR3D从多个相机图像中提取2D特征,使用3D对象查询的稀疏集来索引这些2D特征。使用相机变换矩阵将3D位置链接到多视图图像。最后对每个目标单独进行边界框预测,使用集合到集合的损失来衡量真值和预测之间的差异。原创 2024-12-17 00:51:44 · 1555 阅读 · 5 评论 -
AI绘画一键生成美图:变成画家
Stable diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。它建立在自注意力机制和扩散过程的基础上。它的设计灵感来自于扩散过程模型(Diffusion Models),这些模型在自然图像建模领域取得了巨大成功。原创 2024-12-15 14:16:50 · 808 阅读 · 3 评论 -
【论文复现】探索视觉与语言模型的可扩展性
视觉与语言结合模型的兴起标志着一个重要的发展阶段。这些多模态模型不仅能够理解图像内容,还能够处理和生成与图像相关的语言描述,极大地推动了跨模态交互和理解的进展。从社交媒体的内容标签到自动图像标注,再到复杂的视觉问答和场景理解任务,这些模型在多个应用场景中展现出了巨大的潜力。原创 2024-12-15 00:46:53 · 1097 阅读 · 0 评论 -
【论文复现】FastBEV论文解读
本文介绍了一种名为Fast-BEV的快速且强大的鸟瞰视图感知基线框架,旨在解决现有BEV解决方案在执行车辆内推理时需要大量资源或性能不佳的问题。原创 2024-12-14 22:48:18 · 1037 阅读 · 0 评论 -
【论文复现】Noise2Noise图像去噪
该论文证明了,对于同一张干净图片,如果分两次污染它所用的噪声同分布且0均值的情况下,那么用这一对噪声图像进行网络训练即noise2noise的训练方法就能达到与用干净-噪声图像对即noise2clean的训练方法接近的去噪效果。原创 2024-12-13 09:17:05 · 752 阅读 · 2 评论 -
【论文复现】BLIP:VLP任务的新框架
视觉语言预训练(VLP)提高了许多视觉语言任务的性能。然而,大多数现有的预训练任务只擅长基于理解的任务或者基于生成的任务。此外,同时使用Web收集的有噪声的图像-文本对来扩展数据集虽然在很大程度上提高了性能,但这是一个次优的监督来源。原创 2024-12-12 10:35:42 · 766 阅读 · 7 评论 -
【论文复现】基于曲率的图重新布线
大多数图神经网络(Graph Neural Networks, GNN)使用消息传递范式,其中节点特征在输入图上传播。最近的研究表明,来自远距离结点的信息流失真,是限制依赖远程交互的任务的消息传递效率的重要因素。该限制被称为“过度挤压”(Over-squashing)。原创 2024-12-11 08:47:59 · 1126 阅读 · 9 评论 -
【论文复现】无监督目标检测最新CVPR解读
与传统全监督学习不同的是,无监督学习要求在数据完全无标记的情况下从数据集中学习到一定知识。常见的方法包括预训练、启发式算法等。传统的DBSCAN直接对点云进行聚类,从而拟合粗糙的边界框。原创 2024-12-10 09:28:10 · 1454 阅读 · 2 评论 -
【论文复现】联合模态融合+图对比学习
多模态情感识别旨在识别多种模态中每个话语的情感,这在人机交互应用中越来越受到关注。当前基于图的方法未能同时描述对话中的全局上下文特征和局部多样的单模态特征。此外,随着图层数量的增加,它们很容易陷入过度平滑的情况。原创 2024-12-09 00:54:27 · 910 阅读 · 4 评论 -
【论文复现】分割万物-SAM
Segment Anything(SAM)是 Meta/FAIR 提出的以 data-centric AI 理念搭建的机器视觉分割模型,堪称图像分割领域的 GPT!SAM 在 1100w 张图片上镜像训练,拥有分割万物的能力。无论是庞然大物、还是精细入微,都可以准确区分。原创 2024-12-07 11:55:30 · 1289 阅读 · 15 评论 -
【论文复现】YOLOv7论文讲解
YOLO v7论文(YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors)被收录于计算机视觉顶会CVPR2023,这也是时隔 6 年,YOLOv 系列再登顶会 CVPR!我们知道CVPR是计算机视觉方面的三大顶级会议之一,上一次被收录还是YOLO v2,这也可以看到YOLO v7很强大,也被很多人所认可。原创 2024-12-06 00:54:58 · 935 阅读 · 12 评论 -
【论文复现】用二维图像渲染3D场景视频
**NeRF(Neural Radiance Fields)**是一种神经辐射场,用于将图像转换为3D场景表示。然而,在不同分辨率的训练或测试图像观察场景内容时,NeRF的渲染过程可能会产生过度模糊或伪影的图像。对于传统NeRF来说,使用多条光线对每个像素进行超采样的渲染方案是不实际的,因为渲染每条光线需要对MLP进行数百次查询。原创 2024-12-05 06:00:00 · 954 阅读 · 9 评论 -
【论文复现】隐式神经网络实现低光照图像增强
低光图像增强是图像处理领域的一个重要研究方向,旨在改善在低照度条件下拍摄的图像质量。低光条件下的图像往往具有低对比度、噪点增加和细节丢失等问题。低光图像增强方法通过调整图像的亮度、对比度、色彩平衡等方面来提高图像的质量和视觉感知效果。原创 2024-12-04 18:32:35 · 1782 阅读 · 0 评论 -
【论文复现】BEVFormer
BEVFormer,用于学习具有时空Transformer的统一BEV表征,以支持多个自动驾驶感知任务。BEVFormer利用空间和时间信息,通过预定的网格状BEV查询向量与空间和时间域交互。原创 2024-12-04 09:49:08 · 1107 阅读 · 0 评论 -
【论文复现】事件因果提取
事件因果提取(ECE)旨在从纯文本中推导出因果事件对。在这里,一个因果事件对包含一个因果组件和一个结果组件,每个组件表示具有特定事件类型及其事件参数和事件角色的事件。给定一段文本,事件因果提取系统需要预测出其中所有的因果事件对原创 2024-12-03 09:36:04 · 1475 阅读 · 8 评论 -
【论文复现】DETR[端到端目标检测]
在目标检测需要许多手工设计的组件,例如非极大值抑制(NMS),基于人工经验生成的先验框(Anchor)等。DETR这篇文章通过将目标检测作为一个直接的集合预测问题,减少了人工设计组件的知识,简化了目标检测的流程。给定一组固定的可学习的目标查询,DETR推理目标和全局图像的上下文关系,由于DETR没有先验框的约束,因此对于较大的物体预测性能会更好。原创 2024-12-02 02:02:25 · 1525 阅读 · 9 评论 -
【论文复现】StreamPETR
相比于传统的时空交互网络,StreamPETR引入了对象查询的概念,使得运动补偿更加方便。同时,该方法还采用了混合注意力层,以实现更高效的重复预测去除和特征聚合。此外,该方法还设计了一个灵活的记忆队列,可以根据需要自由控制最大内存大小和保存间隔。原创 2024-12-01 13:48:50 · 1310 阅读 · 6 评论 -
【论文复现】动态键值记忆网络解决知识追踪
在DKVMN模型中,不同于MANN将所有的信息存储在单一矩阵中,DKVMN使用键值对来存储信息。具体地,模型将概念和对应的掌握水平存储在键矩阵和值矩阵中。在每个时间戳,DKVMN接收一个练习标签作为输入,并输出学生对该练习的正确答案的概率。随后,模型使用这个练习和响应的组合来更新值矩阵中相应概念的掌握水平。通过这种方式,DKVMN能够更有效地追踪学生对不同概念的掌握情况,从而提高了KT的效果。原创 2024-12-01 06:00:00 · 1140 阅读 · 3 评论 -
【论文复现】从零开始搭建图像去雾神经网络
基于集成学习的双分支非均质去雾网络由两个子网络组成,即迁移学习子网和数据拟合子网。每个子网有着特定的目的:迁移学习子网利用预先训练的权重从输入图像中提取鲁棒全局表示;数据拟合子网对当前数据进行处理。融合层采用这两个子网络的级联特征图,并输出无雾图像。原创 2024-12-01 01:21:25 · 2074 阅读 · 0 评论 -
【论文复现】自监督行为识别-时空线索解耦
为了解决自监督在面临的三个挑战,该文分别提出三种方法分别应对。首先在时空信息混淆的问题上,作者提出双向接口编码器;数据增强方面,分别在时间、空间上分设置不同的数据增强策略;方法的可迁移性方面设置了跨越对比损失,详细架构可见下文。原创 2024-11-30 23:20:07 · 1371 阅读 · 0 评论 -
【论文复现】基于BERT的语义分析实现
文本分类是指给定文本a,将文本分类为n个类别中的一个或多个。常见的应用包括文本话题分类,情感分类,具体的分类方向有有二分类,多分类和多标签分类。文本分类可以采用传统机器学习方法(贝叶斯,svm等)和深度学习方法(fastText,TextCNN等)实现。原创 2024-11-30 23:06:31 · 1135 阅读 · 0 评论