
计算机视觉
计算机视觉
_沧海桑田_
ACL/NAACL/EMNLP/COLING审稿人,
MOD大侠梦/MOD禾下霸业作者。
github.com/guotong1988
展开
-
opencv-python,把文本画在图片里
【代码】opencv-python,把文字画在图片里。原创 2025-03-16 20:17:14 · 120 阅读 · 0 评论 -
Mac笔记本conda安装Genesis物理引擎
【代码】conda安装Genesis物理引擎。原创 2025-02-05 17:34:59 · 109 阅读 · 0 评论 -
OpenCV,已知相机参数,跑通双目测距代码
其中相机参数只是样例数据。原创 2025-02-05 09:24:22 · 257 阅读 · 0 评论 -
相机标定 代码示例
【代码】相机标定 代码示例。转载 2025-01-31 11:00:22 · 62 阅读 · 0 评论 -
双目视差 代码示例
【代码】双目视差 代码示例。转载 2025-01-31 10:57:10 · 40 阅读 · 0 评论 -
OpenCV,图片转视频
【代码】OpenCV,图片转视频。原创 2025-01-31 10:12:22 · 108 阅读 · 0 评论 -
OpenCV,视频转图片
【代码】OpenCV,视频转图片。原创 2025-01-31 10:06:27 · 82 阅读 · 0 评论 -
双目测距原理
T = 图像点之间距离 = 摄像头之间距离 + 视差。S = 摄像头之间距离。原创 2025-01-24 17:07:18 · 240 阅读 · 0 评论 -
相机内参的作用原理
由三角形角度关系,得到。可以计算得到真实世界的。原创 2025-01-22 20:12:27 · 263 阅读 · 0 评论 -
Win10,CPU跑通mono_det_demo.py的各mm系列版本
python版本 3.8.10。python代码最前面加上。原创 2024-12-29 11:33:09 · 201 阅读 · 0 评论 -
Mac(M3 chip,macOS15.2),CPU跑通mono_det_demo.py的各mm系列版本
mmcv == 2.1.0mmdet == 3.0.0mmdet3d == 1.2.0mmengine == 0.10.5原创 2024-12-26 22:55:02 · 152 阅读 · 0 评论 -
Building wheel for mmcv (setup.py) ... error 以及 unrecognized command line option ‘-std=c++17’
centos更新gcc版本。原创 2024-12-23 14:11:57 · 152 阅读 · 0 评论 -
Visual SLAM 原理
计算相机位置:RANSAC, Perspective N Point (PnP), 5-Point Algorithm, Feature Matching, Direct Sparse Odometry (DSO)包括:Triangulation, Stereo Vision, LSD-SLAM, EKF-SLAM, Fast-SLAM。提取特征:ORB, FAST, Harris Corner Detector, SIFT, SURF。包括:Bag-Of-Words, FLANN, DBoW2。原创 2024-11-27 17:20:20 · 214 阅读 · 0 评论 -
Visual Odometry原理: ①compute features ②track/match them ③recover camera pose
【代码】the idea of Visual Odometry: ①compute features ②track/match them ③recover pose(Rotation/Translation)原创 2024-11-26 11:20:40 · 187 阅读 · 0 评论 -
SURF, SIFT, BRISK, AKAZE for Feature Detection
We detect features (pure pattern recognition of corners, edges, gradients, …) and then match them from frame to frame. Algorithms like SURF, SIFT, BRISK, AKAZE, etc… are used for the detection and encoding,and others like Brute Force or FLANN can be used f原创 2024-11-26 10:13:20 · 191 阅读 · 0 评论 -
Image-based 3D reconstruction 和 Multi-view stereo
摘自《State of the Art 3D Reconstruction Techniques》,CVPR 2014 tutorial slides。原创 2024-11-19 09:37:32 · 241 阅读 · 0 评论 -
调用Depth-Anything进行深度估计(depth estimation)
【代码】调用Depth-Anything进行深度估计(depth estimation)原创 2024-11-08 11:19:13 · 199 阅读 · 0 评论 -
报错,operator torchvision::nms does not exist
torch和torchvision都要安装gpu版本,或者两个都是cpu版本,原创 2024-10-25 09:57:10 · 1461 阅读 · 0 评论 -
安装指定cuda版本的torch和torchvision
建议去下面链接下载后本地安装。原创 2024-10-25 09:47:12 · 558 阅读 · 0 评论 -
调用Blip2-T5实现image2text
【代码】调用Blip2-T5实现image2text。原创 2024-09-03 09:32:12 · 378 阅读 · 0 评论 -
训练BlipForConditionalGeneration
【代码】训练BlipForConditionalGeneration。原创 2024-09-01 20:12:41 · 280 阅读 · 0 评论 -
使用中文tokenizer和BlipForConditionalGeneration实现中文image caption
【代码】使用Blip的预训练好的imageEncoder并替换其decoder。原创 2024-09-01 19:54:28 · 238 阅读 · 0 评论 -
【code2image】使用bokeh画图,去掉右侧的按钮
【代码】【code2image】使用bokeh画图,去掉右侧的按钮。原创 2024-08-26 21:59:31 · 176 阅读 · 0 评论 -
调用Blip image tokenizer实现image2text
【代码】调用Blip image tokenizer实现image2text。原创 2024-08-22 22:14:28 · 194 阅读 · 0 评论 -
VQ-VAE的 image tokenizer 的原理
VQ-VAE 里的 vector quatization。简单来说,就是要先有一个codebook,这个codebook是一个embedding table。我们在这个embedding table中找到和vector最接近(比如欧氏距离最近)的一个embedding,用这个embedding的index来代表这个vector,就实现了把一个vector表示成离散的token-id。可见这种image tokenizer的方式出来的token词典,肯定是只适用于训练时的图片数据集的。原创 2024-08-21 09:19:58 · 322 阅读 · 0 评论 -
opencv python 入门实例
import cv2import numpy as npimg=np.ones((512,512,3), np.uint8)*255cv2.circle(img,center=(256,256), radius=128, color=(0,0,255), thickness=-1)cv2.circle(img,center=(256,256), radius=80, color=(...原创 2019-04-29 11:07:46 · 1494 阅读 · 0 评论 -
cv2 安装 | ImportError: No module named cv2
yum install opencv-python opencv-devel 然后下载opencv的zip,make了, 然后参考下面的方法做了 https://github.com/rbgirshick/fast-rcnn/issues/92 应该python就能import cv2了原创 2017-03-22 13:46:19 · 2433 阅读 · 0 评论 -
import cv2 报错 Segmentation fault (core dumped)
重新把python装了一遍 以及按照这个把opencv装了一遍 http://blog.youkuaiyun.com/daunxx/article/details/50506625原创 2017-01-11 20:15:32 · 3543 阅读 · 0 评论 -
OpenCV linux 安装
下载到tar包后yum install cmakecmake .makemake install原创 2015-11-25 20:36:58 · 788 阅读 · 1 评论 -
Masked Autoencoders 关键信息解读
摘要的最后一句话:achieves the best accuracy (87.8%) among methods that use only ImageNet-1K data. Transfer performance in downstream tasks outperforms supervised pre-training and shows promising scaling behavior.可见masked autoencoders (MAE) 的应用方法,是预训练好的MAE的encode原创 2022-05-13 16:10:03 · 316 阅读 · 0 评论 -
BA-NET 摘要速览
https://openreview.net/group?id=ICLR.cc/2019/ConferenceBA-NET: DENSE BUNDLE ADJUSTMENT NETWORKS本文介绍一个网络结构,来解决 structure-from-motion(SfM)问题,通过 特征矩阵 bundle adjustment (BA),这个网络结构能够明显的通过 特征矩阵误差 的形式 强化...原创 2020-03-16 10:14:02 · 349 阅读 · 0 评论 -
pix2pix 学习笔记
利用condition-GAN,以一图输入作为condition,生成一图,以完成image-to-image translation这个任务,而普通的GAN貌似只是噪声作为输入,原创 2019-04-12 10:24:42 · 907 阅读 · 0 评论 -
faster rcnn 基本概念
rpn:region proposal network IoU:Intersection-over-Union,交集并集之比 GT:ground truth,GT boxes (x1, y1, x2, y2, label),左上的坐标 和 右下的坐标 + 类别 im:image ROI:region of interest bbox:bounding-box regression:和on原创 2017-01-25 15:13:27 · 1170 阅读 · 0 评论 -
可视化comma.ai的h5图片数据
import cv2import numpy as npimport h5pyf = h5py.File('2016-06-08--11-46-01.h5', 'r')temp = f['X'][0] # 第0张img = temp.swapaxes(0,2).swapaxes(0,1)data = np.array(img[:,:,:])file = 'test.jpg'cv2.i原创 2017-01-13 14:54:56 · 1472 阅读 · 0 评论 -
可视化roadhackers的h5图片数据
import cv2import numpy as npimport h5pyf = h5py.File('135.h5', 'r')dset = f['1458552843.750']data = np.array(dset[:,:,:])file = 'test.jpg'cv2.imwrite(file, data)原创 2017-01-13 14:19:42 · 1621 阅读 · 0 评论