- 博客(140)
- 收藏
- 关注
原创 使用昇腾原生支持的三方库,全部利用外部公开资源,快速体验最近很火的o1推理
当面对用户的请求时,你首先要进行漫长而深入的思考过程,以探索问题的可能解决方案。完成你的想法后,你在回复中提供对解决方案过程的详细说明。她把4个苹果给了她的朋友Mark,然后又买了1个苹果,最后把所有的苹果平均分给了她自己和2个兄弟姐妹。但我们需要运行的Skywork-o1-Open-Llama-3.1-8B入参校验需要的Transformers版本至少要求4.43.2以上,所以需要更新一下。启智社区 --> 个人中心 --> 云脑任务 --> 新建云脑任务 --> 调试任务 --> 昇腾NPU。
2024-12-01 12:17:13
435
原创 Sora后时代文生视频的探索
按常理,这里应该长篇大论地介绍一下Sora发布对各行业各方面产生的影响。不过,这类文章已经很多了,我们今天主要聊聊那些已经成熟的解决方案、那些已经可以“信手拈来”的成果,并以此为基础,看看Sora发布后的时代我们能做些什么。[2] 小诺AI(支持文生视频和图生视频):微信搜索小程序-小诺AI。
2024-03-20 14:50:09
1137
原创 简单尝试:ChatGLM-6B + Stable diffusion管道连接
(高质量,高分辨率,杰作:1.2),(真实感, photo-realistic:1.37),(超详细,女孩 开心,时尚元素,细节丰富,) ( collared shirt:1.1), (卷发:1.2), (运动装:1.3), (唱:1.1), (跳舞:1.2), (高对比度,色彩丰富), ((杰作))2. BLIP2所代表的一类多模态模型走的路线是"扩展赋能LLM模型",思路简单清晰,收益明显。4. 这里只验证了基本管道连接的效果,还有很多可玩的东西,感兴趣留意之后更新。输入ChatGLM增强后结果。
2023-06-03 18:51:20
2034
1
原创 论文阅读-ViTDet:Exploring Plain Vision Transformer Backbones for Object Detection
ViTDet论文梳理
2022-09-03 16:43:36
3271
3
原创 盛唐硬币的另一面:山水田园诗
如果想要描述盛唐,那这两面缺一不可。正是因为同时具有这两面,盛唐才是盛唐。写山水田园诗,那是只有盛唐才能给他们的底气,山水田园诗中的山水田园越美,越宁静,说明盛唐越值得人向往。........................
2022-08-27 22:56:55
398
转载 使用稀疏 4D 卷积对 3D LiDAR 数据中的运动对象进行后退分割
对于激光SLAM来说,如何在动态场景中的姿态估计一直是个难以解决的问题。现在基于激光雷达稀疏点云的物体分割算法已经有很多研究。但去除掉某一类的物体并不是解决激光SLAM在动态物体中的最优选择,停着的车、静止的墙这些才是激光SLAM定位当中真正需要观察的点云信息。本篇工作中,作者对采集到的序列点云帧构建出”后退序列滑动点云窗口“,用提出的新型的4D稀疏卷积算法,通过对采集到到的序列点云帧进行推理,预测出场景中真正移动的物体(如骑行的人)。除此之外,作者采用了贝叶斯滤波的方式,进一步提升了滤波的鲁棒性。....
2022-08-02 19:51:23
468
原创 论文速读:Homography Loss for Monocular 3D Object Detection
是在Monopair的启发下完成的工作。论文提到是提出的结构可以作为一个独立的插件提升3D模型检测效果,因此有兴趣读一下。
2022-07-18 18:29:02
807
原创 Image Matching:SuperGlue论文阅读笔记
写在前面SLAM这个领域有着及其详细的子领域划分,理论上是任何一个小部分都可以使用深度特征学习代替的,差别是谁代替的更加优雅摘要SuperGlue,一种通过联合寻找对应点和拒绝不可匹配点来匹配两组局部特征的神经网络。分配是通过解决一个可微的最优运输问题来估计的,其成本由一个图神经网络预测。引入了一种基于注意力的灵活上下文聚合机制,使SuperGlue能够联合推理底层 3D 场景和特征分配。与传统的手工设计启发式方法相比,SuperGlue通过图像对的端到端训练来学习 3D 世界的几何变换和规律性
2022-05-21 21:17:54
2276
原创 基于可学习特征的图像匹配综述(Image Matching Based on Learnable Features: A Survey)
图像匹配综述中基于深度特征的部分
2022-05-16 11:05:56
2041
原创 SIDE论文阅读笔记
直观感受是相当于Stereo R-CNN和IDA-3D的结合体相较于IDA-3D,将深度估计部分串行在ROI Align之后而不是与其并行,个人认为这是比较合理的,因为这样一来Cost Volume可以与其他分支同时充分利用双目图像隐含的视差信息。此外,本文对于Cost Volume的应用也更加的简洁,即利用注意力机制处理,最后直接回归深度信息。相较于Stereo R-CNN,保持了其大部分的结构。除加入Cost Volume外保持了基本的回归分支,尤其是关键点回归分支,也就是说仍然是利用方程非线性
2022-05-08 11:15:07
297
原创 随记:图优化相关
读MonoPair: Monocular 3D Object Detection Using Pairwise Spatial Relationships论文的时候,发现其在网络框架中加入了一个Pairwise Spatial Constraint。在使用Partwise Spatial Constraint的时候引入图优化的过程。于是详细地了解了一下图优化的求解过程。对图优化的基础部分的了解,是仔细阅读了高博士的博客:深入理解图优化与g2o:图优化篇 - 半闲居士 - 博客园以及g2o的论文:htt
2022-04-11 22:05:20
336
原创 春招刷题(2)
0329of10.斐波那契数列一道很基本的动态规划题目,但确实很能展现出应注意的点比如直接使用递归本题会超出时间的限制class Solution: def fib(self, n: int) -> int: if n < 2: return n else: # dp= [0] * (n+1) dp = [i for i in range(n+1)]
2022-03-29 15:53:56
215
原创 立体视觉跟踪(一):Stereo Vision-based Semantic 3D Object and Ego-motion Tracking for Autonomous Driving
笔记
2022-02-28 14:09:53
3953
原创 以几篇自动驾驶感知论文为例,试着锻炼寻找“领域知识”的能力
一个新领域研究的兴起有时要经历以下几个阶段,首先是得到该领域的一个普遍性的问题,然后将另一个已成熟的领域的一些成熟的方法和技术直接迁移到这个新领域试着解决这个普遍性的问题,接着就会发现两个领域之间的差异性使得直接迁移的方法失效,这时人们会思考这个新领域所特有的一些“本质属性”,通常该本质属性就是产生该领域普遍性问题的根本原因,同时也是使得从其他领域被直接迁移的方法失效的根本原因。在得到该本质属性后,针对其提出的针对性的且极具领域特色的方法才会被认定为解决该领域普遍性问题的基础参照(baseline)。
2022-01-08 22:54:18
2685
原创 SiamMOT:Siamese Multi-Object Tracking论文详读
SiamMOT:Siamese Multi-Object Tracking论文详读
2022-01-03 22:29:50
2329
1
原创 随记(9):CVPR2021关于Tracking的论文速读(3)-终
赶在放假前读完了Rotation Equivariant Siamese Networks for Tracking 1.认为CNN本质是平移等变的,并不是为了处理旋转问题而设计的。所以本文致力于解决视觉目标跟踪中的“旋转”问题。 2.提出旋转等变暹罗网络(细节是包含可控滤波器的组等变卷积层) 3.根据overview展示,是将不同旋转角度的样本分别输入分支的卷积网络,生成的特征图在后阶段融合并进行Group Max Pooling的过程Seeing Behind Objec...
2021-12-31 22:02:39
2228
5
原创 随记(8):CVPR2021关于Tracking的论文速读(2)-11篇
Learning Dynamics via Graph Neural Networks for Human Pose Estimation and Tracking 1.提出了一种新的在线学习姿态动力学的方法,该方法独立于当前帧的姿态检测,因此可以结合当前帧的检测结果做出更优化的姿态估计 2.通过显式地考虑时空和视觉信息的图形神经网络(GNN)来推导这种动力学预测。模型将历史姿势轨迹作为输入,并直接预测每个轨迹在下一帧中的相应姿势。然后,预测的姿势将与检测到的姿势(如果有的话)在同一帧中聚合...
2021-12-30 23:18:08
1935
原创 RetinaTrack方法论解析
关于RetinaNet的细节:retinanet - 纯洁的小兄弟 - 博客园灵魂三问解决了什么问题:单阶段目标检测器与两阶段目标检测器相比,速度上有一定的优势,但运行速度一直被诟病,如何通过一种方法解决这个问题,提出一种运行速度和准确率都较为不错的方法。产生该问题的原因:一般地,我们认为产生上述问题的原因在于单阶段检测器中样本的失衡,负样本比例远远大于正样本,占据样本中多数,影响网络的优化。怎么解决的:使用Focal loss细节...
2021-12-24 22:30:39
1173
1
原创 论文A Strong Baseline for Vehicle Re-Identification速读
写在前面:之前就说过会对重识别这部分着重理解一下,周六偷得浮生半日闲,读一下这篇论文。一、摘要部分解析Vehicle Re-Identification (Re-ID) aims to identify the same vehicle across different cameras, hence plays an important role in modern traffic management systems. The technical challenges require the a
2021-12-18 16:24:12
1311
原创 随记(6):CVPR2021关于Tracking的论文速读(1)-12篇
写在前面:结构都是论文做了什么、怎样做的、以及为什么要这样做正文Alpha-Refine 1.做了一个即插即用的模块,可直接添加到现有的跟踪器上,精细box 2.论文认为对于一个跟踪器box的精细化很重要,但现有方法做不到这点 3.提出精细化的关键是尽可能多地提取和维护详细的空间信息。所以采用逐像素相关、角点预测头和辅助掩码作为核心部件设计了一个模块。CapsuleRRT 1.用胶囊网络做回归跟踪 2.提出胶囊网络更易建模跟踪目标各部分之间的关系,就是说遮...
2021-12-15 17:05:11
2998
原创 随记(7):自动驾驶解决方案-已更新Tesla,Waymo
一、Autopilot解决方案八个摄像头首先是基于单个图像使用Regnets作为backbone使用了BiFPNs特征金字塔使用了yolo作为head以多任务网络形式布置,但是主干只有一个,在尾部加入多个解码器以完成不同任务但是当存在多个摄像头的时候多个摄像头的时候要记住很重要的一点,是在向量空间去训练和标注的。值得说一句,特斯拉并不是舍弃了Lidar,Lidar被特斯拉用来矫正数据。此外也有一个pseudo lidar部分,日后再说。你需要在每个摄像头中都完成检
2021-12-14 16:35:28
639
原创 尝试搜集了一下自动驾驶任务中有关“车道线检测”的工作-整理
尝试写一个整理11.15-12.02:尝试搜集车道线检测部分论文12.01-12.06:搜集半监督方向论文12.06-12.11 :搜集跟踪方向论文并阅读总结12.12-12.12 :开始着手文字编辑:摘要和检测部分abstract自动驾驶任务是一个极其复杂的多任务协作工程,包括但不限于视觉感知任务、激光雷达感知任务、感知融合任务、机械整装任务、智能控制任务、路径规划任务等多个模块。一般地,普遍认为智能驾驶技术在近几年有了一个比较大的突破是因为智能感知任务部分的技术日趋成熟。车道线检测..
2021-12-11 22:22:26
3403
原创 Object Track(十二):经典论文TrackFormer速读
一般base Transformer的工作所使用的的都是Query-Key机制,区别在于在哪部分启动Query-Key或者何时启动Query-Key这篇TrackFormer与昨天的TransTrack对比着看,会很有意思架构图图1:TrackFormer通过与Transformer的注意力执行联合目标检测和跟踪。Object和自回归轨迹查询关于响应包括轨迹初始化、标识和时空轨迹遮挡。图2:TrackForm将多目标跟踪重新定义为set prediction问题,执行joint d.
2021-12-11 11:21:35
2766
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人