WX Chen
实用技术总结,前沿科技分享,欢迎交流技术和业务
展开
-
虚化背景检测
通过光圈的调整以及加入相位检测像素技术,大光圈单颗摄镜头也可以轻松实现双摄的虚化效果光圈越大,进光量越大,背景虚化效果越好焦距的大小会影响虚化效果。焦距是指从镜头的光学中心到成像面(焦点)的距离。此距离越长,则越能将远方的物体放大成像;此距离越短,则越能够拍摄更宽广的范围,焦距越长越容易产生虚化。(长焦拍得远,短焦拍得广)拍摄一张高动态范围图像,利用机器学习对图片进行前景背景分割,分离出目标,模糊部分背景。结合相位检测像素技术,将手机后置摄像头的(微型)分两块区域,因镜头左右两边看到的视野会原创 2021-12-07 11:00:16 · 880 阅读 · 0 评论 -
字幕检测算法
我们教电脑识别视频字幕字幕定位需要区分字幕区域和背景区域,有效的区分特征包括以下几点:字幕的颜色、字体较为规整,且与背景有较为明显的颜色差异;字幕区域的笔画丰富,角点和边缘特征比较明显;字幕中字符间距固定,排版多沿水平或竖直方向;同一视频中字幕出现的位置较为固定,且同一段字幕一般会停留若干秒的时间。基于边缘密度的字幕定位:首先,对于视频帧灰度图像进行边缘检测,得到边缘图。然后,在边缘图上分别进行水平和竖直方向的投影分析,通过投影直方图的分布,大致确定字幕的候选区域。如果存在多个候选原创 2021-12-07 10:59:10 · 1727 阅读 · 0 评论 -
DeepFill
台湾 余家辉Generative Image Inpainting with Contextual Attention(基于内容感知生成模型的图像修复)这篇文章也被称作deepfill v1,作者的后续工作 "Free-Form Image Inpainting with Gated Convolution" 也被称为deepfill v2。两者最主要的区别是,v2支持任意形状的mask(标记图像待修复区域的罩子 mask?)https://zhuanlan.zhihu.com/p/50620348原创 2021-12-07 10:56:06 · 919 阅读 · 0 评论 -
DIBR简介
Depth-image-based renderingDIBR的核心就是首先利用深度信息将参考图像投影到三维欧式空间,然后再将三维空间点投影到虚拟摄像机的成像平面上。在计算机图形学中被称为3D Image Warping技术。自由视点立体电视https://blog.youkuaiyun.com/u010922186/article/details/40683129DIBR视点合成DIBR技术即(depth image based rendering),基于深度图的图像绘制,解决的主要技术是根据当前视原创 2021-12-07 10:53:32 · 4263 阅读 · 0 评论 -
红蓝3D技术
假设图像A的像素M(x,y)的RBG为(R1,G1,B1),图像B的像素N(x,y)的RGB为(R2,G2,B2),我们所需要的3D图像S对应像素O(x,y)的RGB值可计算如下(红蓝模式):O(R,G,B) = (R1,G2,B2) 或O(R,G,B) = (R2,G1,B1)以上两个公式中,任何一个,都包含了其中一张图像的R信息,和另一张图像的G,B信息,由于红色的补色是青色,这两个是互不包含的关系,因此,以上公式得到的结果中就包含了两张图像的信息了。对于红蓝眼镜,其中两个镜片的颜色正是原创 2021-12-07 10:46:56 · 1225 阅读 · 0 评论 -
2D转3D 业界调研
北京聚力维度科技有限公司公司网址http://www.12dms.com/人工智能实时3D转换平台“峥嵘”聚力维度的科幻成真实验室目前已发展到“峥嵘5号”https://www.chinanews.com/business/2017/09-27/8341641.shtml聚力维度前身为十二维度(北京)科技有限公司,创立于2012年,一直聚焦于将人工智能与影视结合。机器只需要2个小时的转制,后续只需要一名人力对电影进行后期的艺术层补偿与3D感的微调。https://36kr.com/p原创 2021-12-07 10:42:00 · 1043 阅读 · 1 评论 -
结构光和TOF
(单目、双目、结构光、TOF、激光雷达、声纳)目前深度估计采用的技术主要包括双目深度估计(为了提高精度,特斯拉的前置摄像头采用三目深度估计)、单目深度估计、结构光(第一代kinect)、TOF(time-of-flight,第二代kinect采用的技术),以及精度最高但是成本也最高的激光雷达(谷歌等公司在用,谷歌好像收购了一家激光雷达公司,可以把激光雷达的成本降低到了以前的十分之一,好多数据集把激光雷达采集到的深度数据作为训练和评价其他深度估计方法的ground truth),当然还有其他利用非光学信号的原创 2021-12-07 10:30:42 · 1583 阅读 · 0 评论 -
VR和3D设备
3D眼镜只是在你眼睛前方提供了一个荧幕,这个荧幕有3D景深感。你无法控制镜头,所有画面都是预设好的。VR头盔是360度的,虽然荧幕一直在你双眼前方,但是通过你转头,你可以看到不同角度。例如你可以仰望天空,俯瞰大地...这种体验有些像全景图,只是代入感更强(全景里人不能移动,VR可以移动)https://www.zhihu.com/question/40095951VR电影与3D电影最大的不同两者最大的不同,就是前者有交互,后者没有。http://www.cbdio.com/BigData原创 2021-12-07 10:29:35 · 732 阅读 · 0 评论 -
相机内参数和外参数
求解相机内参:相机标定求解相机外参:相机位姿估计相机内参数是与相机自身特性相关的参数,比如相机的焦距、像素大小等;相机外参数是在世界坐标系中的参数,比如相机的位置、旋转方向等。相机标定(或摄像机标定):世界坐标到像素坐标的映射(世界坐标->相机外参->相机坐标->3D到2D投影->图像(物理)坐标->相机内参->像素坐标)1.外参数矩阵。告诉你现实世界点(世界坐标)是怎样经过旋转和平移,然后落到另一个现实世界点(摄像机坐标)上。2.内参数矩阵。原创 2021-12-07 09:32:31 · 8236 阅读 · 0 评论 -
单目深度估计综述
综述monoDepth(2017,Godard)受DispNet的启发(DispNet受FlowNet的启发。FlowNet参考了全卷积网络FCN,没有全连接层)自此以后的深度估计大都基于DispNet。SfMLearner(2017,Zhou)使用的是DispNet网络架构,这是一个带跳跃连接(skip connections)和多尺度边(multi-scale side)预测的编码器-解码器网络,后来的深度估计工作基本都采用这样的结构。DispNet预测的是视差,而视差和深度互为倒数,因此原创 2021-09-13 11:56:02 · 1956 阅读 · 0 评论 -
深度估计数据集
iBims-1100 RGB-D image pairs of various indoor sceneshttps://www.bgu.tum.de/lmf/ibims1/下载链接https://dataserv.ub.tum.de/index.php/s/m1455541NYU Depth Dataset V2(激光雷达)1449 densely labeled pairs of...原创 2020-01-02 15:31:34 · 5550 阅读 · 2 评论 -
2019-CVPR-Google-Learning the Depths of Moving People by Watching Frozen People
从视频中重建了移动对象的景深图。即使拍摄相机和人物同时在运动,也能很好重建景深图。和传统方法最大的改进在于,谷歌的新方法可以用深度学习,从数据中学习人体姿态和形状的先验知识,避开了直接的3D三角测量。构建数据集:选取了YouTube上关于#假人挑战#(Mannequin Challenge)话题的数据,在这种类型的视频中,被拍摄者需做出一个定格动作,且要表现与人体模型一样静止不动,并由摄影师透过移动镜头的技巧进行拍摄。再利用多视角立体(Multi-View Stereo,MVS)算法,就可以获取原创 2021-09-13 11:03:08 · 155 阅读 · 0 评论 -
2018-CVPR-美国康乃尔大学-MegaDepth: Learning Single-View Depth Prediction from Internet Photos
以(RGB图像、深度图)对的形式进行的完全一般训练数据很难收集。像Kinect这样的商用RGB-D传感器已经被广泛用于这种目的,但仅限于室内使用。激光扫描仪已经启用了一些重要的数据集,如Make3D[29]和KITTI[25],但是这些设备操作起来很麻烦(在工业扫描仪的情况下),或者制作稀疏深度地图(在激光雷达的情况下)。我们首先从Flickr下载网络照片,从Landmarks10K数据集[21]中获取一组拍摄良好的地标。然后我们用最先进的SfM和MVS方法在3D中重建每个地标。这就产生了一个SfM模型原创 2021-09-13 11:24:52 · 1088 阅读 · 0 评论 -
2016-CVPR-DeepStereo
2016-CVPR-DeepStereo: Learning to Predict New Views from the World’s Imagery主要解决的问题:首次使用神经网络预测新的视点图主要描述新视点的像素生成是使用将临近视点的图像输入到卷积神经网络中,最后生成新视点的图像。它的有优势主要在,只需要一系列的不同位姿下的图像,然后就可以在不同场景下生成新的视点。https://blog.youkuaiyun.com/CSS360/article/details/102534089查看某个地方的原创 2021-09-13 11:57:58 · 326 阅读 · 0 评论 -
2016-ECCV-Deep3D
Deep3D: Fully Automatic 2D-to-3D Video Conversion with Deep Convolutional Neural Networks目前制作 3D 电影主要有两种方法,并且这两种方法在实际制作中的应用程度基本相同:其一是用特殊的 3D 立体摄像机直接拍摄成 3D 电影其二是先拍摄成 2D 电影,然后人工转制 3D但是这两种方法都不完美,对于第一种方法来说,3D 摄像机昂贵而不方便。而第二种人工转制则需要画家为每一帧画面绘制深度图。要把一张 2D 图原创 2021-09-14 15:05:42 · 330 阅读 · 0 评论 -
2019-TOG-Adobe-(3D Ken Burns)3D ken burns effect from a single image
2D图片3秒变立体,变换视角流畅自然ACM主办的计算机图形学顶级期刊TOGKen Burns effect视界燃烧效果这种特效处理,常常用于纪录片等视频的后期制作,名为Ken Burns Effect。用单个图像合成逼真的相机移动的效果要解决两个基本问题。首先,要设置一个新的相机位置,合成新视图,并且需要准确地恢复原始视图的场景几何结构。其次,根据预测的场景几何结构,要将新视图在连续的时间线上合成,这就涉及到去遮挡这样的图像修复手段。用以训练的数据集是用计算机生成的。研究人员原创 2021-09-14 15:08:30 · 390 阅读 · 0 评论 -
DIBR(虚拟视点合成)算法
确定景深后就可以生成左右视点图像,这里采用基于DIBR(Depth-Image-Based Rendering)模型的虚拟视点合成。原创 2021-09-13 10:41:20 · 2457 阅读 · 0 评论 -
2019-ICCV-台湾大学-Free-form Video Inpainting with 3D Gated Convolution and Temporal PatchGAN
高清还原破损视频 BMVC 2019每个被破损的视频,经过AI还原之后,仿佛从来没有被破坏过一样,完整清晰。可学习的门控时移模块,Learnable Gated Temporal Shift Module,LGTSM整体的模型则是由U-net类生成器和TSMGAN鉴别器构成,LGTSM模块所处的位置就是生成器内,除此之外生成器还包括11个卷积层。基于YouTube视频制作的FaceForensics和FVI数据集,总共视频数量超过16000个。在两个数据集上,LGTSM和目前成绩最好的.原创 2021-09-13 10:22:19 · 86248 阅读 · 0 评论 -
2019-ICCV-Adobe-Free-Form Image Inpainting with Gated Convolution
GatedConv所提出的门控卷积解决了普通卷积将所有的像素视为有效像素的问题,通过为所有层中的每个空间位置的每个通道提供一个可学习的动态特征选择机制来泛化部分卷积。提出了SN-PatchGAN,谱规范化(spectral-normalized)用于稳定训练,加速训练速度GatedConv未中ICCV之前,细网络是单分支的,后来作者修改成了两路分支。虽然这样改善了修复结果,但是两阶段修...原创 2020-03-02 16:35:45 · 587 阅读 · 0 评论 -
Inpainting经典算法
2004-Criminisi算法目标移除修复算法Criminisi 等人论文"Region Filling and Object Removal by Exemplar-Based Inpainting.2004,TIP"中的基于纹理合成的图像补全方法 https://blog.youkuaiyun.com/frank_xu_0818/article/details/18842729算法会优先填充周围信息比较丰富的像素点,因为这些点填充起来较为容易,填充得到的也更加的可靠,这样从周围最可靠的部...原创 2021-09-13 10:20:12 · 2489 阅读 · 2 评论 -
3D电影的视差范围
因为动画电影是由计算机生成,所以就不会有左右眼画面曝光、色彩不一致,反光不一致,进光,垂直视差,画面帧不同步等实拍容易产生的问题,这可以说是3D动画电影的先天优势。《熊出没》的立体效果上,大部分画面设置为正视差,也就是在银幕里边,这种立体效果设置方法,使观众大部分观影时间眼睛汇聚的位置比银幕的位置更远一些。最大正视差基本在1%多一点,这可以使观看时感觉比较舒适,与《一步之遥》中经常出现的3%多的正视差相比,人眼的压力要小很多,这可能也是考虑到会有很多小朋友观看,他们的瞳距比较小的缘故。在负视差方面,原创 2020-05-18 09:24:19 · 2190 阅读 · 0 评论