文献研读
文章平均质量分 94
和图像处理、深度学习、脑机接口相关论文研读
打码的老程
我是写代码写到吐了的算法工程师,平时爱好读书,种菜,人生最大的追求是希望退休那一天,能买到一块地,遛着哈士奇,开着拖拉机。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
论文研读13 Single-Shot Multi-Person 3D Pose Estimation from Monocular RGB 3
我们使用了MPI-INF-3DHP [33] 训练集中的14个可用摄像机视角中的12个(仅使用了3个俯视图中的一个),并创建了40万张MuCo-3DHP的复合帧,其中一半未进行外观增强。缩放增强、边界框抖动和围绕摄像机最近主体的裁剪的组合导致了许多带有边界截断的示例,除了由于合成而自然发生的人与人之间的遮挡。我们可以看到,对于大多数序列,我们的方法在所有关节类型上都取得了更高的准确性,仅在某些序列(Test-Seq18,19,20)中的某些关节类型上表现略逊于LCR-net。翻译 2024-10-08 12:25:02 · 666 阅读 · 0 评论 -
论文研读13 Single-Shot Multi-Person 3D Pose Estimation from Monocular RGB 2
我们方法的核心是一种新颖的公式化方法,使我们能够在场景中即使存在强遮挡的情况下,使用一次完全卷积网络的前向传递来估计多人的姿态。我们的方法基于位置图公式化 [34],通过在各自的2D关节像素位置推断3D关节位置,进一步加强了3D姿态推理与图像证据之间的联系。我们首先回顾位置图公式化方法,然后描述我们的方法。位置图 [34]位置图是一个关节特定的特征通道,用于在关节的2D像素位置存储3D坐标x、y或z。对于每个关节,估计三个位置图以及一个2D像素位置热图。后者在图像平面上以置信度图的形式编码关节的2D像素位置翻译 2024-10-08 12:18:43 · 351 阅读 · 0 评论 -
论文研读13 Single-Shot Multi-Person 3D Pose Estimation from Monocular RGB 1
我们提出了一种新的单次方法,用于从单目RGB摄像头在一般场景下进行多人3D姿态估计。我们的方法使用了一种新颖的抗遮挡姿态图(ORPM),即使在被场景中其他人或物体部分严重遮挡的情况下,也能进行完整的人体姿态推断。ORPM输出固定数量的图,编码场景中所有人的3D关节位置。通过身体部位关联 [8],我们可以在不明确预测边界框的情况下推断出任意人数的3D姿态。为了训练我们的方法,我们引入了MuCo-3DHP,这是第一个展示复杂多人互动和遮挡的真实图像的大规模训练数据集。翻译 2024-10-08 12:13:44 · 557 阅读 · 0 评论 -
论文研读—— An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition2
3. 模型架构3.1 图卷积神经网络图卷积神经网络(GCN)是学习图结构数据表示的一种通用且有效的框架。各种 GCN 变体在许多任务上取得了最先进的结果。对于基于骨架的动作识别,设 Gt={Vt,Et}G_t = \{ V_t, E_t \}Gt={Vt,Et} 表示在时间 ttt 的单帧人类骨架图,其中 VtV_tVt 是 NNN 个关节点的集合,EtE_tEt 是骨架边的集合。节点 vtiv_{ti}vti 的邻居集合定义为:N(vti)={vtj∣d(vti,vtj)≤D} N(v_{ti翻译 2024-10-03 12:29:30 · 487 阅读 · 0 评论 -
论文研读—— An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition3
该数据集包含 60 种不同的人类动作类别,分为三大类:日常动作、交互动作和健康相关动作。数据集总共有 56,880 个动作样本,这些样本由 40 位不同的受试者执行。每个动作样本包含 RGB 视频、深度图序列、3D 骨架数据和由三台 Microsoft Kinect v2 摄像机同时捕捉的红外视频。我们关注的 3D 骨架数据由每帧 25 个身体关节的 3D 位置组成。该数据集有两种评估协议:跨受试者 (CS) 和跨视角 (CV)。翻译 2024-10-03 12:58:20 · 756 阅读 · 0 评论 -
论文研读—— An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition1
摘要基于骨架的动作识别是一个重要任务,要求从骨架序列中理解人体动作的运动特征。最近的研究表明,探索骨架序列的空间和时间特征对该任务至关重要。然而,如何有效地提取区分性的空间和时间特征仍然是一个挑战性问题。在本文中,我们提出了一种新颖的基于注意力增强图卷积LSTM网络(AGC-LSTM)用于从骨架数据中进行人体动作识别。所提出的AGC-LSTM不仅可以捕捉空间配置和时间动态中的区分性特征,还可以探索空间和时间领域之间的共现关系。翻译 2024-10-03 10:22:02 · 372 阅读 · 0 评论 -
论文研读 ——11. Attention Is All You Need 4/4
在WMT 2014英语-德语翻译任务中,大型Transformer模型(表2中的Transformer (big))超越了此前报道的最佳模型(包括集成模型)超过2.0 BLEU,创下了28.4的新最先进BLEU分数。该模型的配置列在表3的底部。训练在8块P100 GPU上耗时3.5天。即使是我们的基础模型,也超越了所有先前发布的模型和集成模型,而且其训练成本只是任何竞争模型的一小部分。Pdrop0.1。翻译 2024-08-15 13:05:19 · 354 阅读 · 0 评论 -
论文研读 ——11. Attention Is All You Need 3/4
x1...xnz1...zn, withxizi∈Rd在本节中,我们将比较自注意力层与常用于将一个变量长度符号表示序列x1...xn映射到另一个相同长度序列z1...zn的循环层和卷积层的各个方面,其中xizi∈Rd,例如典型序列转换编码器或解码器中的隐藏层。为了说明我们使用自注意力的动机,我们考虑了三个需求。第一个需求是每层的总计算复杂度。翻译 2024-08-15 12:46:25 · 241 阅读 · 0 评论 -
论文研读 ——11. Attention Is All You Need 2/4
x1...xnzz1...zn. Givenzy1...ym大多数竞争性的神经序列转换模型都采用编码器-解码器结构 [5, 2, 35]。在这种结构中,编码器将符号表示的输入序列x1...xn映射为连续表示的序列zz1...zn。给定z后,解码器则逐个生成符号的输出序列y1...ym。在每一步中,模型是自回归的 [10],即在生成下一个符号时,会将之前生成的符号作为额外的输入。翻译 2024-08-13 15:13:41 · 287 阅读 · 0 评论 -
论文研读 ——11. Attention Is All You Need 1/4
主流的序列转换模型通常基于复杂的循环神经网络或卷积神经网络,这些网络包括编码器和解码器。性能最好的模型还通过注意力机制将编码器和解码器连接起来。我们提出了一种新的简单网络架构,称为Transformer,它完全基于注意力机制,彻底摒弃了循环和卷积。在两个机器翻译任务上的实验表明,这些模型不仅在质量上优于现有模型,而且更易于并行化,所需的训练时间显著减少。在WMT 2014英译德翻译任务中,我们的模型达到了28.4的BLEU分数,相比现有的最佳结果(包括集合模型)提高了超过2个BLEU分数。翻译 2024-08-13 13:09:52 · 343 阅读 · 0 评论 -
论文研读 —— 10. PCA-Kalman: device-free indoor human behavior detection with commodity Wi-Fi (3/3)
在这篇论文中,我们提出了一种使用无处不在的Wi-Fi检测室内活动的方法,称为PCA-Kalman,并从商用现成的(COTS) Wi-Fi设备中提取CSI信号。进一步地,实验结果显示,在三个不同的测试区域,这种方法的检测率为95%。从图13可以看出,随着窗口大小的增加,三个系统的检测率都在增加,但当窗口大小超过某个设定的阈值时,人员的不同行为状态会导致CSI的时间差异。我们还注意到,除了在所有区域的区域3测试外,PCA取得了出色的结果,因为区域3距离发射机和接收机很远,导致信号中的人员变化不太明显。翻译 2023-08-16 21:09:21 · 504 阅读 · 0 评论 -
论文研读 —— 10. PCA-Kalman: device-free indoor human behavior detection with commodity Wi-Fi (2/3)
另外,为了行为检测的目的,我们生成了三个测试集,包括三个不同的测试区域。室内人体行为检测的基础设施由无线接入点(AP)组成,用于数据传输,监测点(MP)用于数据检索,以及一个用于数据处理的服务器。在我们的系统中,使用PCA-Kalman算法在C程序中处理获得的数据。最后,获得估计位置的状态。从图6中可以观察到,当测试者执行不同的操作时,CSI信号的变化显著不同。更重要的是,实时测试数据是在真实的实验环境中收集的。首先,我们让一名志愿者遍历所有的参考点,并在参考点上进行日常动作,如站立、跳跃、蹲下和坐下。翻译 2023-08-13 21:46:38 · 314 阅读 · 0 评论 -
论文研读 —— 10. PCA-Kalman: device-free indoor human behavior detection with commodity Wi-Fi (1/3)
开放获取人类行为检测在各种应用领域中变得越来越重要。在本文中,我们分别在视线环境、非视线环境和穿墙环境实验中提出了一种基于信道状态信息(CSI)和主成分分析(PCA)的无设备室内人类行为检测方法。我们将此方法分为两部分。首先是在线阶段。通过收集不同时间段的CSI原始数据包,并使用PCA算法的特性来减少原始CSI数据的维度,建立了一个指纹数据库。然后,通过卡尔曼滤波算法去除一些异常值,我们将获得更稳定的数据,并为对接实验做好充分准备。翻译 2023-08-13 15:36:53 · 1289 阅读 · 0 评论 -
论文研读 —— 9. DensePose From WiFi
计算机视觉和机器学习技术的进步已经导致RGB摄像头、LiDAR和雷达中2D和3D人体姿势估计的重大发展。然而,图像中的人体姿势估计受到遮挡和照明的不利影响,这在许多关注的场景中是常见的。另一方面,雷达和LiDAR技术需要专门的硬件,价格昂贵,耗能大。此外,在非公共区域放置这些传感器会引发严重的隐私问题。为了解决这些局限,最近的研究已经探索了使用WiFi天线(1D传感器)进行身体分割和关键点身体检测。本文进一步拓展了WiFi信号与计算机视觉中常用的深度学习体系结构的结合,以估计密集的人体姿势对应关系。翻译 2023-02-12 23:34:39 · 4104 阅读 · 0 评论 -
论文研读 —— 8. Through-Wall Human Pose Estimation Using Radio Signals
本文展示了通过墙壁和遮挡准确估计人体姿势的方法。我们利用WiFi频率中的无线信号穿过墙壁并反射到人体的事实。我们引入了一种深度神经网络方法,该方法解析这些射频信号以估计2D姿势。由于人类无法注释射频信号,我们使用最先进的视觉模型提供跨模态监督。具体来说,在训练过程中,系统使用同步的无线和视觉输入,从视觉流中提取姿势信息,并使用它来指导训练过程。一旦训练完成,网络仅使用无线信号进行姿势估计。我们表明,在可见场景测试时,基于无线的系统几乎与用于训练它的视觉基系统一样准确。翻译 2023-02-06 00:42:15 · 1589 阅读 · 0 评论 -
论文研读 —— 7. Very Deep Convolutional Networks for Large-Scale Image Recognition (3/3)
文章目录A LOCALISATIONA.1 LOCALISATION CONVNETA.2 LOCALISATION EXPERIMENTSB GENERALISATION OF VERY DEEP FEATURESC PAPER REVISIONSA LOCALISATIONIn the main body of the paper we have considered the classification task of the ILSVRC challenge, and performed a t翻译 2022-02-13 14:55:20 · 628 阅读 · 0 评论 -
论文研读 —— 7. Very Deep Convolutional Networks for Large-Scale Image Recognition (2/3)
文章目录3. Classification Framework3.1. Training3.2. Testing3.3. Implementation Details4. Classification Experiments4.1 SINGLE SCALE EVALUATION4.2. MULTI-SCALE EVALUATION4.3. MULTI-CROP EVALUATIO4.4. CONVNET FUSION4.5. COMPARISON WITH THE STATE OF THE ART5. CO翻译 2022-01-29 21:48:43 · 617 阅读 · 0 评论 -
论文研读 —— 7. Very Deep Convolutional Networks for Large-Scale Image Recognition (1/3)
文章目录Authors and PublishmentAuthorsBibtexAbstract1. Introduction2. Convnet Configurations2.1. Architecture2.2. Configurations2.3. DiscussionAuthors and PublishmentAuthorsKaren Simonyan / Visual Geometry Group, Department of Engineering Science, Universit翻译 2022-01-18 17:52:40 · 1411 阅读 · 0 评论 -
论文研读 —— 6. ImageNet Classification with Deep Convolutional Neural Networks (3/3)
文章目录6. Results6.1. Qualitative Evaluations7. DiscussionReferences6. ResultsOur results on ILSVRC-2010 are summarized in Table 1. Our network achieves top-1 and top-5 test set error rates of 37.5%37.5\%37.5% and 17.0%17.0\%17.0% 1. The best performance ac翻译 2022-01-17 20:58:49 · 696 阅读 · 0 评论 -
论文研读 —— 6. ImageNet Classification with Deep Convolutional Neural Networks (2/3)
文章目录3. The Architecture3.1. ReLU Nonlinearity3.2. Training on Multiple GPUs3.3. Local Response Normalization3.4. Overlapping Pooling3.5. Overall Architecture4. Reducing Overfitting4.1. Data Augmentation4.2. Dropout5. Details of learning3. The Architecture翻译 2022-01-17 20:33:51 · 565 阅读 · 0 评论 -
论文研读 —— 6. ImageNet Classification with Deep Convolutional Neural Networks (1/3)
文章目录Authors and PublishmentAuthorsBibtexAbstract1. Introduction2. The DatasetAuthors and PublishmentAuthorsAlex Krizhevsky / University of TorontoIlya Sutskever / University of TorontoGeoffrey E. Hinton / University of TorontoBibtexKrizhevsky A, S翻译 2022-01-17 19:22:18 · 1783 阅读 · 0 评论 -
论文研读 —— 5. FaceNet A Unified Embedding for Face Recognition and Clustering
文章目录Authors and PublishmentAuthorsBibtexCategories0. Abstract1. Introduction2. Related WorkAuthors and PublishmentAuthorsFlorian Schroff / Google Inc.Dmitry Kalenichenko / Google Inc.James Philbin / Google Inc.BibtexSchroff F, Kalenichenko D, Phi翻译 2022-01-12 19:34:53 · 1133 阅读 · 0 评论 -
论文研读 —— 4. You Only Look Once Unified, Real-Time Object Detection (3/3)
Comparison to Other Detection SystemsObject detection is a core problem in computer vision. Detection pipelines generally start by extracting a set of robust features from input images (Haar [25], SIFT [23], HOG [4], convolutional features [6]). Then, c.翻译 2022-01-06 16:00:39 · 1382 阅读 · 0 评论 -
论文研读 —— 4. You Only Look Once Unified, Real-Time Object Detection (2/3)
文章目录2. Unified Detection2.1. Network Design2.2. Training2.3. Inference2.4. Limitations of YOLO2. Unified DetectionWe unify the separate components of object detection into a single neural network. Our network uses features from the entire image to predic翻译 2022-01-05 10:13:30 · 403 阅读 · 0 评论 -
论文研读 —— 4. You Only Look Once Unified, Real-Time Object Detection (1/3)
文章目录Authors and PublishmentAuthorsBibtexCategoriesAbstract1. IntroductionAuthors and PublishmentAuthorsJoseph Redmon / University of WashingtonSantosh Divvala / University of Washington, Allen Institute for AIRoss Girshick / Facebook AI ResearchAli翻译 2022-01-04 20:05:49 · 642 阅读 · 0 评论 -
论文研读 —— 3. Convergence of Q-learning: a simple proof
Authors and PublishmentAuthorsFrancisco S. Melo / Institute for Systems and Robotics, Lisboa, PORTUGALBibtexMelo F S. Convergence of Q-learning: A simple proof[J]. Institute Of Systems and Robotics, Tech. Rep, 2001: 1-4.1 PreliminariesWe denote a M翻译 2021-12-30 21:06:23 · 1203 阅读 · 0 评论 -
论文研读 —— 2. Constrained Least Squares Filtering
文章目录Authors and PublishmentAuthorsCategoriesBibtex0. Abstract1. Introduction2. Frequency Domain Derivation of the Constrained Filter3. Lower Bound on the Lagrange Multiplier4. Practical Implementation5. SummaryReferences总结Authors and PublishmentAuthors原创 2021-11-29 22:00:44 · 2718 阅读 · 0 评论 -
论文研读 —— 1. Modeling Motion Blur in Computer Generated Images
文章目录torch.column_stacktorch.column_stack原创 2021-11-08 19:21:35 · 910 阅读 · 0 评论 -
文献扩展 —— 1. Triplet Loss and Online Triplet Mining in TensorFlow
测试写在 model/tests/test_triplet_loss.py 中,并将我们的 TensorFlow 实现的结果与一个简单的 numpy 实现的结果进行比较。第二件要注意的是,如果任何元素正好是 0.0(例如对角线应该总是 0.0),因为平方根的导数在 0 中是无限的,我们将有一个 nan 梯度。在线三元组挖掘是在 Facenet 中引入的,Brandon Amos 在他的博客文章 OpenFace 0.2.0:更高的准确性和减半的执行时间中对此进行了很好的描述。因此,它的效率要高得多。翻译 2022-10-01 14:38:38 · 957 阅读 · 0 评论
分享