
应用算法
文章平均质量分 77
主要关注创意生成,超分,视频等创意算法图像上在电商场景下的应用,包括鹿班,羚珑等
Kun Li
自古山高水远路,无一不为风尘苦。
展开
-
水印去除方法
作者说一个好的架构应该在网络中具有尽可能广泛感受野,resnet的感受野增长缓慢,卷积核通常很小,感受野在早期可能不足,对于高分辨率图像效果不好,傅里叶卷积是完全可微的,是传统卷积的替代品,由于覆盖整个图像的感受野,傅里叶卷积允许生成器网络从早期开始考虑全局上下文,并且能够很好的捕获非常常见的周期性结构,比如砖,梯子,窗户等,在所有频率上共享相同的卷积会使模型朝着尺度协方差方向移动。6 款超好用的免费图像去水印工具_apeaksoft free watermark remover-优快云博客。原创 2024-08-15 14:03:52 · 1112 阅读 · 0 评论 -
视觉/AIGC->传统CV
4.OCR方案,一般是先出检测框,再出文本,不规则文本,如何解决?8.transformer相比cnn的优势?3.假新闻,图是真的,caption场景?收集一些面经上的东西,供自己学习和进步。11.SAM的prompt有哪些?检测:dbnet,识别:crnn。9.介绍detr中的query?10.SAM效果好的原因?2.自驾,感知端到决策端。5.OCR数据如何生成?原创 2024-07-15 11:53:33 · 133 阅读 · 0 评论 -
posterlayout:A new benchmark and approach for content-aware visual-textual presentation layout
生成器和判别器都采用上述结构,即以视觉特征作为初始隐藏状态,以设计序列作为输入的CNN-LSTM模型,在生成器中,额外链接了两个全连接层,将CNN-LSTM模型输出解码为生成设计序列中每个元素类型和边界框,将有效元素转换为布局。手动标注低效,目标检测辅助,lama去掉不需要元素,接着,通过搜索收集背景和产品图片,已创建不同质量的画布,同时确保每个类型中的数量均衡,总共由9个类型,包括食品/饮料,化妆品/配饰,电子产品/办公用品、玩具/乐器、服装、体育/交通、杂货、家电/装饰和新鲜农产品。原创 2024-05-28 17:58:58 · 1017 阅读 · 0 评论 -
图片转psd服务,layerdivider
输入psd,可以通过智能解析,将psd整理成可用的图片素材,但输入图片素材,能拿到分层的psd是很困难的。看这两张图,第一张图是color模式+normal,第二张图是sam模式+composite,也就是说第一种是如何分层,color+sam,第二种图层的模式,分成三层还是五层,第一种color是按照颜色,sam则是分割模型,第二种则是对图层分层的分解。本来想着这个服务要是没有webui或者comfyui的插件,我就来写一个,可惜,这两处的插件都有了,因此我就不打算再去重写了,意义不大。原创 2024-05-23 22:02:29 · 1040 阅读 · 0 评论 -
视频剪辑方法总结
视频剪辑这块,传统做法还是不少的,但是我认为目前比较合理的还是基于多模态大模型(基于大模型的视频理解)的做法更好,扩展性更强,否则还是避免不了写一些逻辑和场景受限。汇聚各领域最先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。汇聚各领域最先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。目前用的,主要是切的镜头。通过音频来裁剪视频。原创 2024-04-11 11:18:38 · 1079 阅读 · 0 评论 -
clip4clip:an empirical study of clip for end to end video clip retrieval
从视频中提取帧,采用了CLIP的12层和32patch size的ViT-B/32的图像编码器作为视频编码器,使用Flattened Patches线性投影模块中研究了两种线性投影,分别为2D投影和3D投影,1.ViT flattened patches的线性投影叫2D投影,独立的嵌入每个2D帧块,忽略了帧与帧之间的时序关系,2.3D线性投影,将块嵌入到时间维度上,具体而言,3D线性使用了一个3D卷积核[txhxw]作为线性投影,而不是2D投影中的[hxw]卷积核,其中t,h,w分别是时间,高度和宽度。原创 2023-11-16 17:10:37 · 483 阅读 · 0 评论 -
codeformer:towards robust blind face restoration with codebook lookup transformer
刚好上班又到了我分享论文的时候,顺便分享给大家,有啥想法可以留言交流hhh,这个字幕机翻的有点蠢,大家将就看一下,下次不弄字幕了。vqgan和vqvae是一致的,通过编码器得到特征之后,通过最近邻匹配,训练解码器,这个流程训练好之后,丢掉编码器,只要解码器,但是做无监督生成的话,你就需要有一个对应的index表,这样才能从codebook中找出对应的embedding去得到解码器的输入,那么这个index表是通过gpt2生成的,是自回归预测出来的,有个index表就可以得到输入。原创 2023-08-28 10:52:14 · 1768 阅读 · 0 评论 -
Learning to cartoonize using white-box cartoon representations
对于卡通图像,我们从动画中收集了10000张人脸图像和10000张风景图像。这张图是本文的核心,左边是作者对卡通化的三个解耦,这三个解耦也来自于作者的对卡通作画的观察,首先训练图像是分正常图和卡通图的,首先是一个generator,是个unet结构的encoder-decoder,产生出来的图片和cartoon图片,经过三个解耦的函数分别计算loss,这里有个vgg16要预训练,只用真实图片预训练就可以,预训练之后才是用卡通图和真实图片联合训练,在前向时,只需要一个generator和一个后处理即可。原创 2023-07-17 19:24:00 · 329 阅读 · 0 评论 -
音轨分离 spleeter
当预测出伴奏和人声的幅度谱之后,Spleeter将两者分别进行平方,得到人声能量Engv和伴奏能量Enga,然后使用Maskv = Engv/( Engv +Enga)计算出每个时刻人声在各个频段音乐的占比,同时使用Maska= Enga /( Engv +Enga)计算出每个时刻伴奏在各个频段音乐的占比。unet的网络输入为音频幅度谱,输出为某条音轨的幅度谱。将音乐幅度谱分别输入到人声U-Net和伴奏U-Net中,得到预测的人声U-Net和伴奏U-Net,分别计算预测结果和标准结果的距离并取均值。原创 2023-07-04 10:57:47 · 1052 阅读 · 1 评论 -
autocut
用文本编辑器剪视频. Contribute to mli/autocut development by creating an account on GitHub.在讲 OpenAI Whisper 前先做了一个剪视频小工具【论文精读·44】_哔哩哔哩_bilibili。b.autocut-main\autocut\transcribe.py中。GitHub - mli/autocut: 用文本编辑器剪视频。a.输入inputs,是一个["input.mp4"]的形式。c.transcribe 92行。原创 2023-06-16 15:27:50 · 816 阅读 · 0 评论 -
DragGAN:interactive point-based manipulation on the generative image manifold
DragGAN主要还是应用于图像编辑领域,在图像编辑领域之前有代表性的可控生成的作品包括editgan和styleclip,前者是通过分割图去定点控制生成图,后者是通过文本来实现控制,DragGAN将控制的方式变成了人工交互,通过点移动的方式,draggan的理论框架:点在图像空间中的移动对应于GAN的潜在空间中的移动,利用这一观察结果,制定了一个优化问题,旨在最小化用户输入和生成的图像之间的差异,该优化问题通过一种基于梯度的方法解决,该方法调整GAN的latent code以匹配用户的输入。原创 2023-05-26 16:10:56 · 1245 阅读 · 0 评论 -
Real-ESRGAN:Training Real-World Blind Super-Resolution with Pure Synthetic Data
生成器还是esrgan,对于x1和x2的超分时先进性pixel-unshuffle(pixel-shuffle的反操作,pixel-shuffle可理解为通过图像的通道而对图像尺寸进行放大),以降低图像分辨率为前提,对图像通道数进行扩充,然后对处理后的图像输入网络进行超分重建,对于一幅图像,若只想x2放大变清晰,需先通过pixel-unshuffle进行2被缩小,通过网络进行4倍放大。造成图像模糊的原因,包括,拍摄的手机,传感器噪声,相机模糊,图像编辑,图像在网络中的传输,JPEG压缩以及各种各样的噪声。原创 2023-05-10 16:52:37 · 1297 阅读 · 0 评论 -
中文译英文 模型
本文将如何如何使用HuggingFace中的翻译模型。HuggingFace是NLP领域中响当当的团体,它在预训练模型方面作出了很多接触的工作,并开源了许多预训练模型和已经针对具体某个NLP人物训练好的直接可以使用的模型。本文将使用HuggingFace提供的可直接使用的翻译模型。HuggingFace的翻译模型可参考网址:https://huggingface.co/models?NLP(四十一)使用HuggingFace翻译模型的一次尝试_huggingface 翻译_山阴少年的博客-优快云博客。原创 2023-04-29 11:03:04 · 970 阅读 · 0 评论 -
whisper:robust speech recognition via large-sacle weak supervision
这个思路和之前的bert是一样的,bert是双向的,用的transformer中的encoder模块,本质上一个预训练的大语言模型,训练时使用的完形填空或者预测下一个句子这种预训练的任务,这个gpt是有不同的,gpt是生成式的,用的transformer中的deocder模块,它本身就是一个解码器,不需要bert那样后续还需要微调一个解码器。作者做了一个弱监督数据集,虽然是监督的,但是数据质量相对是较差的,有68w小时,用了一个大型的transformer,当模型足够大时,对多语言多任务是有益的。原创 2023-04-16 15:03:10 · 492 阅读 · 0 评论 -
李宏毅,语音合成
DLHLP 2020] Speech Synthesis (1-2) - Tacotron_哔哩哔哩_bilibili。原创 2023-04-16 11:52:35 · 206 阅读 · 0 评论 -
[PPT] 李宏毅,语音转换,voice conversion
IN是对context进行均值归一化操作,语者的信息也被归一化掉了。原创 2023-04-13 08:28:41 · 207 阅读 · 0 评论 -
李宏毅,语音识别
phoneme:音标,发音的基本单位,lexicon:词表,Grapheme:书写的基本单位,26个字母。align就是mfcc和ab对应的关系,所有可能的概率之和。最小发音单位,他的分布是固定的,发音是固定的。原创 2023-04-12 08:07:01 · 257 阅读 · 0 评论 -
paraformer语音识别
ModelScope 旨在打造下一代开源的模型即 服务共享平台,为泛 AI 开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!,相关视频:人生苦短,我用傅里叶!,人工智能,视觉算法工程师现状以及发展,1-5-NLP专场 大规模表格预训练模型SPACE-T,ModelScope-口语语音处理模型训练,1-2-NLP专场 预训练大模型在 AIGC 文本创作领域的探索和魔搭社区的应用实,1-4基于单向融合的全景图深度估计,【强推】这绝对是B站2023年人工智能入门的天花板教程!原创 2023-04-09 16:16:10 · 980 阅读 · 0 评论 -
DCT-Net工业级轻量化人像漫画
在内容矫正模块上,Gs是一个生成网络,Gt是一个风格迁移网络,ccn对这两个域的图片进行监督,有了ccn之后,就可以通过在隐空间采样获得很多的风格图片,但是目前得到的目标域在几何上时需要对齐的,通过一个几何扩展模块,提高鲁棒性,ttn是一个gan架构,生成器的监督信息是风格图片,unpair的。是图像翻译任务,source是真实图片数据,target是人像卡通图片,前者好获取,后者不好获取,source是丰富的,target是较小的,会有小样本偏置,先校准再翻译,使用校准之后的目标域和源域对应。原创 2023-04-09 14:25:26 · 814 阅读 · 0 评论 -
视觉AI公司项目
以前深度学习没起来之前,基本是基于传统视觉算法opencv来做一些项目,我们称之为传统视觉算法,现在大模型起来之后,基于深度学习分类检测分割似乎也可以被叫做传统视觉项目了,随着评估项目和接触赋能项目的增加,感觉基于基础深度学习算法在行业内赋能还是要软硬一体去做解决方案要更好一点,要更加关注硬件,摄像头和盒子,算法侧有时是在关注如何在有限数据内进行闭环和训练,数增广或者数据爬取有时候是更难的事情,当然这里面也有很多算法难题,比如识别幼童七八九岁这种,也是很有难度的。MEGVII旷视科技-让物理世界更美好。原创 2023-04-08 23:43:45 · 130 阅读 · 0 评论 -
NeRF & Plenoxels
下图有一个滤镜,不透明度是0.6,也就是1的光线只能通过0.6的光线,不透明度和密度的关系如右侧公式所示,dh是滤镜的厚度,不透明度和厚度相除得到密度,想象一下如何物体都是dh的组合,那么可以得到关于密度的积分,T就是光线所剩的透光率。假设空间每个点的颜色是一个固定的值,是不对的,每个点离光源距离不同,颜色是有区别,空间中同一个点从不同角度看,颜色是不一样的,在c中增加观察角度d,即颜色不仅是当前位置的函数,还是观察角度的函数。如果有场景,那么可以渲染不同角度的图片,重建出场景以后,就可以排除连续的图片。原创 2023-04-08 12:31:11 · 693 阅读 · 0 评论 -
DeepFaceLab
extract是从图片中抽出人脸,用s3fd模型,有几个参数,包括full face(从眉毛到下颚),whole face(全脸),videoed extract-video是将视频抽成图片,当然源域和目标域都需要抽取,原作者的requirements里tensorflow-gpu的库有点问题。video video-from-sequence是将推理出来的图片合成视频。我按照正常流程训练完,是有些问题的,这块一共是有5个过程,train是模型训练。原创 2023-04-05 10:14:01 · 608 阅读 · 0 评论 -
modelscope-facefusion
modelscope提前下好的权重的保存路径是?/home/imcs/.cache/modelscope/damo/,不够下载好的权重,在输入中直接写全路径即可,如果是个合格的路径,会直接加载模型的。一些通用架构的东西,非常建议线上modelscope、paddle ai studio、hugging face上找找看,一些常用且开源的实践,如果只是短时间的引用,最近这些demo的要求贼多。modelscope里面用提供notebook先试用,cpu版本就行,阿里云下载权重很快,尝试后,再同步迁移到平台。原创 2023-03-27 10:11:31 · 1340 阅读 · 1 评论 -
BasicVSR++:Improving Video Super-Resolution with Enhanced Propagation and Alignment
【第124期】一个视频弄懂视频和照片的分辨率,万物皆可4K120帧!上图比较明显,首先是传播,由原来的双向改成了二阶网格传播,网格传导更有效的利用双向信息聚合,这个和msdn很像的,以便从不同的时空位置聚合信息,改善了网络中的信息聚合能力,并提高了网络对遮挡区域和精细区域的鲁棒性。在上面的ppt中展示了视频超分的四个相互关联的组成部分,传播,对齐,聚合和上采样,这一点和图像超分有点区别,BasicVSR++主要是在传播和对齐两个组件上相对BasicVSR做了优化和改进。_哔哩哔哩_bilibili。原创 2023-01-13 14:24:39 · 594 阅读 · 0 评论 -
AI视觉任务和应用
统计一些基础任务,我在工作的业务领域中所遇到或者需要调研的应用。人像抠图、物体抠图、视频抠图。原创 2022-12-27 14:24:15 · 179 阅读 · 0 评论 -
resolution-robust large mask inpainting with fourier convolutions
作者说一个好的架构应该在网络中具有尽可能广泛感受野,resnet的感受野增长缓慢,卷积核通常很小,感受野在早期可能不足,对于高分辨率图像效果不好,傅里叶卷积是完全可微的,是传统卷积的替代品,由于覆盖整个图像的感受野,傅里叶卷积允许生成器网络从早期开始考虑全局上下文,并且能够很好的捕获非常常见的周期性结构,比如砖,梯子,窗户等,在所有频率上共享相同的卷积会使模型朝着尺度协方差方向移动。Ladv和Ldiscpl负责生成自然外观的局部细节,后者可以稳定训练,LHRFPL负责监督信号和全局结构的一致性。原创 2022-12-27 13:48:13 · 927 阅读 · 0 评论 -
Smartbanner: Intelligent banner design framework that strikes a balance between freedom and rules
因此在自由度和设计规则的平衡下,我们选择了模板库的布局生成方式,预定义的模板能够提供相对规范的设计布局,通过在模板维度增加设计约束,得到规范的满足广告主要求的元素和布局设计。Smartbanner由规划器,行动器,微调器和生成器构成,其中规划器是为了获取好的布局设计,借助模板召回,获取布局设计模板后,行动器分别对banner中的商品和文案区域进行布局,微调器构建基于美学标准和一些设计规则的评估算法,对布局后的元素,商品,文案做进一步的微调,最后是生成器,生成器将已经制作完成的模板渲染成图。原创 2022-12-25 21:34:21 · 549 阅读 · 0 评论 -
EraseNet:End-to-End Text Removal in the wild
从图上看,backbone之后接了两个分支,最上面的分支是mask分支,dice loss,这个分支最大的作用是判定mask的位置,用mask标签来约束,在推理时不需要,第二个分支是上采样的粗网络分支,这个分支输出去除文字区域的原图,不过是粗略输出,粗略擦除之后接一个精细擦除的refinement网络,这个网络在粗分的基础上做精细擦除,网络做了很多残差的连接和融合。model是一个大的gan结构,loss中包括了gan损失,mask的定位损失,粗输出和精细输出的重建损失,风格和内容损失。原创 2022-08-25 10:33:12 · 1091 阅读 · 0 评论 -
文字擦除技术研究
阿里的自监督的文字擦除,输入是未经过文字ps的原图以及对应文字位置的mask,这个其实很难,因为只给了对应文字的位置,其实没给去掉文字应该恢复回来的背景,即真正的gt。金连文的这篇输入是原图以及对应的经过ps的gt以及文字位置的mask,文字位置的mask是用来做文字擦除位置感知loss的gt的。文字擦除领域其实和图像修复差不多,erasenet中有一段讲述两者区别的描述。...原创 2022-08-18 11:39:29 · 1112 阅读 · 0 评论 -
self-supervised text erasing with controllable image synthesis
这篇论文的核心在看懂这张图,首先STE是一个自监督的框架,它的输入只有一张图,没有gt,整体是一个GAN的架构,输入I,生成器架构包括了合成函数F和一个Text Erasing Module,在经过了合成函数F之后产生了合成图和text mask,此处的text mask是合成时添加到I上的,即Isyn,此图输入Text Erasing Module,输出的是Ipred,Ipred在形式上应当与I相同,事实上输出的Ipred即为fake_img,和real_img构成了判别器的输入。...原创 2022-08-12 14:40:56 · 583 阅读 · 0 评论 -
创意优选技术
这个方向主要关注阿里妈妈团队怎么做,京东和字节也有类似的产品,但总体来说,还是阿里做的比较好,国内外目前关注到的有美团的动态创意优化,阿里妈妈,京东和字节的一些方案,但总的来说,创意优选这块还是得看阿里妈妈。自己复现了一个intelligence creative的框架,照着mm的格式写的,但是总觉得这块还是理解的不够好,慢慢总结,写篇论文梳理一下。...............原创 2022-08-08 21:38:37 · 1419 阅读 · 0 评论 -
智能创意中的尺寸拓展模块
基础的尺寸拓展逻辑核心在确定转换的基准点,确定了转换的基准点,那么所有图层的坐标就可以向目标尺寸进行转换,但是基准点选取的不一样,自然也就造成了转换之后的模板的不同表现形态,这里有个阈值,基本在高宽比正负0.3范围内选择基于左上角的基准点,但此范围之外选择基于模板中心点为基准点。准备一系列模板,当尺寸拓展高宽比不在正负0.3范围,即根据待拓展模板的商品和文案选定辅助模板,将辅助模板尺寸拓展至要拓展的尺寸,再将待拓展的图片中的商品和文案填充到模板尺寸。1.基础的尺寸拓展逻辑。2.辅助模板的尺寸拓展。...原创 2022-07-28 14:03:23 · 393 阅读 · 0 评论 -
爬虫->TpImgspider
技术这块,主要就是requests和xpath。一般的步骤就是先看network,network这块主要看xhr,xhr是异步ajax的标题,现在的一些素材网站也基本都切到ajax上面了,爬一些缩略图的有的时候静态页面也行,加上cookie之后也能爬完,做训练基本是够了,xhr中一般找到返回json的链接,preview中一般会隐藏一些参数,这些参数和主要的xhr链接进行拼接能拿到返回json的链接。爬虫其实在电商算法从业人员的应用中,其实是很广泛的,爬虫本身作为一门技术,是具有很强使用价值的。...原创 2022-07-25 16:29:31 · 262 阅读 · 0 评论 -
clip:learning transferable visual models from natural language supervision
clip属于图文架构,模式上仍然是对比学习,同一对图像和文本是一个正例,否则为负例,在clip的输入上体现就是对齐文本和图像的维度之后,在对角线上的都是正例,在非对角线上是负例,通过一个矩阵就可以构造。一般视觉vit,文本bert,我看到chinese_clip中,文本用的是roBERTa-base/large,图像用的vit-B-16/32,vit-L-14,其实一开始openai只有英文的clip,因此也有不少团队通过蒸馏等一些手段去对齐中文bert。CLIP论文逐段精读【论文精读】-知乎。......原创 2022-07-20 19:46:40 · 2035 阅读 · 1 评论 -
automated creative optimization for e-commerce advertising
Variational AutoEncoder系列 - 知乎在 生成模型(Generative Models)大家族里面,有两个家族特别著名,分别是变分自编码器(Variational Auto Encoder, VAE)和生成对抗网络(Generative Adversarial Networks, GAN)。本文主要是研究VAE,自然先回…https://zhuanlan.zhihu.com/p/57574493变分自编码器VAE:原来是这么一回事 | 附开源代码 - 知乎作者丨苏剑林 单位丨广州火焰信原创 2022-05-01 17:41:08 · 393 阅读 · 0 评论 -
智能多媒体内容设计在阿里巴巴的应用
http://idi.zju.edu.cn/wp-content/uploads/2020/11/59a1dff68908308effc05fb811f9b0ed.pdfhttp://idi.zju.edu.cn/wp-content/uploads/2020/11/59a1dff68908308effc05fb811f9b0ed.pdf淘宝网 - 淘!我喜欢 https://alidesign.taobao.com/work.htm#/iframe/wantoo原创 2022-03-01 19:32:52 · 1041 阅读 · 0 评论 -
Automatic Generation of Visual-Textual Presentation Layout
ACM TOMM 2017最佳论文:让AI接手繁杂专业的图文排版设计工作 近日,美国计算机学会会刊ACM TOMM宣布把2017 Nicolas D. Georganas Best Paper Award授予“Automatic Generation of Visual-Textual Presentation Layout”(图文排版的自动生成算法研究),该论文介绍了如何利用算法实现自动的图文排版。https://www.msra.cn/zh-cn/news/features/acm-tomm-2017-原创 2022-02-15 17:20:53 · 1031 阅读 · 0 评论 -
imagemagick:a gentle introduction to magick++
1.Introducing the magick++ libraryMagick++ (C++), MagickCore (C), MagickWand (C), ChMagick (Ch), JMagick (Java), L-Magick (Lisp),PerlMagick (Perl), MagickWand for PHP (PHP), PythonMagick (Python), TclMagick (Tcl/TK).● 创建新图像,或读取现有图像,● 编辑图像:翻转、镜像、旋...原创 2022-01-18 19:36:59 · 1970 阅读 · 0 评论 -
AB 测试
【AB测试最全干货】史上最全知识点及常见面试题(上篇) - 知乎00、写在前面AB测试我们在工作当中,尤其是在很多的互联网大厂里面,经常是用来验证一个功能最终是否会被上线的重要手段,也是在数据分析面试当中经常会出现的一个考点,所以AB测试的重要性就不言而喻了。但是很多…https://zhuanlan.zhihu.com/p/375902281Evan's Awesome A/B Tools - sample size calculator, A/B test results, and morehttps:原创 2022-01-09 15:20:47 · 2509 阅读 · 0 评论 -
颜色模式,tiff,rgb2cmyk
颜色在计算机中的存储和显示详解_Future_One的专栏-优快云博客_一个像素的一种颜色在计算机中最常用的显示方式是前言       颜色是通过眼、脑和我们生活经验所产生的对光和视觉感受,我们肉眼所见到的光线,是由波长范围很窄的电磁波产生的,不同的波长的电磁波表现为为不同的颜色,对色彩的辨认是肉眼受到电磁波辐射能刺激后所引起的视觉神经感觉。&原创 2022-01-07 14:53:42 · 3120 阅读 · 0 评论