自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

进一寸有一寸的欢喜

如果用10年以上的时间坚持学习和分享某一领域,将会是怎么样喃? “一五计划":2018.06 ~2023.07 : 初步实现了在CV领域每月一篇技术总结。 “二五计划” (2023.07 ~2028.08):计划每周一篇博客,在小的领域出一个超过20篇的

  • 博客(169)
  • 资源 (2)
  • 收藏
  • 关注

原创 【论文目录】2013-2024年AI图像生成技术30篇+经典论文—— 图像生成Diffusion模型演化进程——扩散or自回归 ?

从2013-2024 图像生成,文生图经典论文目录

2025-01-20 16:52:51 1226

原创 【综述+LLMs+中文图书】国内团队大语言模型综述(截止2024.02)——A Survey of Large Language Models

大语言模型使用无标注语料库进行预训练,当模型大小达到一定数量,出现智能涌现,能够进行小模型不具备的能力:下文学习,在未经过特定任务微调的情况下能够理解并响应复杂指令**;以及对新任务的适应性,即基于给定的输入示例就能够推断出相应的输出模式

2024-03-25 18:11:14 2291

原创 【论文综述+多模态】腾讯发布的多模态大语言模型(MM-LLM)综述(2024.02)

多模态大语言模型:Multimodal Large Language ModelsMM-LLM =预训练单模态模型( 含LLMs) + 微调对齐所有模态 + 输出调整MM-LLMs 利用现成的预训练单模态基础模型,特别是强大的大型语言模型(LLMs), 作为认知核心,赋予各种多模态任务能力。LLMs 提供了稳健的语言生成、zero-shot 迁移能力和上下文学习(ICL)等可取特性在这一领域中,主要关注点是通过多模态预训练(MM PT, Pre-Training)+ 多模态指令调整。

2024-02-29 15:43:23 6687

原创 【机器人+硬件】Zeroth Bot 美国开源最简人形机器人—— 负担得起(¥2535)端到端(SIM2REAL,RL)3D打印的 (包括硬件、SDK、 sim环境)基于视觉、强化学习走路、以及语音

Zeroth-01是一种开源端到端类人形机器人,起价为350美元,具有视觉,基于RL的步行和语音。特点带有开源机器人和仿真环境的SIM2REAL转移。深度RL的端到端控制。VLA:可推广视觉语言行动策略。负担能力:我们通过开源硬件和软件使机器人更加负担得起。

2025-03-11 11:22:37 943

原创 【机器人+VLA】2406.OpenVLA: 开源的视觉–语言–动作模型用于训练通才机器人,An Open-Source Vision-Language-Action Model

OpenVLA 是一个开源的视觉–语言–动作模型,拥有 70亿参数(7B) ,通过在 97 万机器人示范片段(episodes)上微调(数据来源 Open X-Embodiment),为通才(generalist)机器人操作策略 (manipulation policies) 设置了新的技术水平

2025-03-06 10:10:14 2676

原创 【机器人+VLA】2410.Pi0_一种(开源)语言视觉控制的通用机器人——A Vision-Language-Action Flow Model for General Robot Control

介绍了 Physical Intelligence 公司开发通用机器人基础模型 π0 的成果及展望。当前 AI 在物理世界应用存在局限,该公司经八个月研发 π0 以迈向人工物理智能目标。π0 基于大规模数据训练,融合图像、文本与动作,能跨多种机器人执行任务并可微调适应复杂场景。其通过独特架构从机器人具身经验获取物理智能,在洗衣、清理餐桌、组装盒子等任务上表现优于其他模型。我们的通才机器人策略使用预先训练。

2025-02-24 18:41:16 418

原创 【机器人+模仿学习】Diffusion Policy: 通过行动扩散的视觉运动策略学习Visuomotor Policy Learning via Action Diffusion

扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法

2025-02-24 17:54:03 820

原创 【机器人】mobile-aloha:可移动可学习遥控操作机器人 Learning Bimanual Mobile Manipulation with Whole-Body Teleoperation

引入了一个低成本的移动操作系统,该系统是双手的,并支持全身远程操作。该系统的成本为 32k,包括板载功率和计算。左:用户远程操作以从冰箱中获取食物。右图:移动ALOHA可以通过模仿学习执行复杂的长期任务

2025-02-24 16:12:28 1074

原创 【机械臂】ACT Policy:使用低成本硬件学习细粒度的双手操作:Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

使机械臂精细化操作,只需要不到2000元

2025-02-24 12:14:03 911

原创 【AI前沿+机器人】Helix:可多机器人协作、能拿起任何东西、整个人形上身控制的、可嵌入式低功耗GPU部署的、通用人形机器人控制的视觉-语言-动作(VLA)模型

Figure 发布 Helix 机器人视觉语言行动模型:•历史上第一个类人机器人上身的高速连续控制模型•可以两台机器人用一个模型控制协作完成任务•可以捡起任何东西,不管他是否原来就认识•历史上第一个在本地GPU运行的机器人模型

2025-02-23 22:06:28 911

原创 【FLUX微调+风格训练】从零免费训练自定义图像风格

免费风格微调的完整教程,基于(找图+清理筛选+打标+训练+推理验证

2025-02-20 18:38:27 301

原创 【DeepSeek-R1】满血版免费网页端使用(不卡顿,支持联网搜索)

卡顿支持联网搜索。

2025-02-18 18:39:44 3211

原创 【ollama安装】国内 linux 环境安装ollama

使用命令行前,请确保已经通过pip install modelscope 安装ModelScope。

2025-02-07 10:59:47 3666 1

原创 【DeepSeek-R1 +1.5B】2060显卡ollama本地部署+open-webui界面使用

deepseek-r1-1.5B本地部署, 仅需2G-3G显存

2025-02-06 18:28:41 2706

原创 【ComfyUI】python调用生图API,实现批量出图

官方给的示例:https://github.com/comfyanonymous/ComfyUI/blob/master/script_examples/websockets_api_example.pyhttps://github.com/comfyanonymous/ComfyUI/blob/master/script_examples/websockets_api_example.pyhttps://github.com/comfyanonymous/ComfyUI/blob/master/scrip

2025-01-23 18:25:12 2201 1

原创 【API】免费调用Qwen-vl2对图像打标

免费调用Qwen-vl2对图像打标

2025-01-13 15:18:35 1391

原创 【ComfyUI+风格】一次题词生成30种+的风格图(可扩展)

基于sdxl风格题词进行开发 (几乎使用所有文生图模型sd1.5 , sdxl ,hunyuan, flux)https://github.com/twri/sdxl_prompt_styler

2025-01-08 18:11:37 351

原创 2024年AI图像生成热门模型回顾

2024.01.04 阿里开源中文文字图像生成2024.01.15 小红书开源InstantID, 上传真人图片的生成ID一致的AI形象2024.02.22 字节开源了 SDXL-Lighting (1,2,4,8步快速出图)2024.03.05 开源了SD3 (重点,因为有论文)2024.03.29 PixArt-Σ (sigma)华为诺亚方舟实验室开源英文4K 文生图模型2024.04 字节提出了视觉自回归文生图模型VAR (2024年某顶会最佳论文)

2025-01-06 18:37:42 1503

原创 【ComfyUI】错觉图片生成(远看李小龙,近看是糖果岩石,花,草,)

错觉图片生成——远看李小龙,近看纸张,花草岩石comfyui + control_v1p_sd15_qrcode_monster

2025-01-03 23:31:15 378

原创 【生活】冬天如何选口罩(医用口罩,N95, KN95还是KP95?带不带呼吸阀门?带不带活性炭?)

日常防护的话,医用口罩或者KN95口罩就可以啦。要是想长时间佩戴N95口罩的话也可以,但疫情防控期间在公共场所就别用带呼吸阀门的N95啦。在高风险环境(像医院、疫情防控期间),一定要选不带呼吸阀门的N95口罩哦。如果是在空气污染或者异味比较重的环境里,带有活性炭层的口罩就是不错的选择啦。

2025-01-02 23:00:21 865

原创 【杂谈+AI绘画】2D形象和场景生成在整体游戏设计中地位

AI如何在2D场景辅助在游戏中生产

2025-01-02 18:33:10 1152

原创 【ComfyUI + 自定义节点】图片叠加掩膜(mask)部分扣掉(变黑)

comfyui添加自定义节点将图片对应掩膜覆盖的区域替换为黑色

2024-12-27 18:15:19 1264

原创 【ComfyUI + 铅笔素描画风】艺术家DaTou发布了的彩色铅笔素描风格生成(真实感超强)

flux1+ 铅笔素描lora

2024-12-20 18:16:18 266

原创 【ComfyUI + 视频理解/反推题词】LLaVA-OneVision:单图、多图、视频任务理解(caption) (2024.08开源)

LLaVA-OneVision是一个开放的大型多模态模型(LMMs)。能同时理解图片和视频。在qwen2 + 多层感知机 + google/siglip-so400m-patch14-384 (视觉编码器)

2024-12-16 23:21:46 854

原创 上传的logo印在生成图片上(in-context lora)

In-Context LoRA + Image-to-Image + Inpainting

2024-12-13 23:27:18 756

原创 【论文+去背景】24.01.BiRefNet:Bilateral Reference for High-Resolution Dichotomous高分辨率二分图像分割的双边参考 (RMBG背后的算法

基于BiRefNet精细化 图片,视频二分分割(前景背景分割)

2024-12-12 21:07:35 1486

原创 【ComfyUI+视频生成】LTX-Video 快速生成视频 + 图生视频 (生成4秒 3090需要20秒)

来自Lightricks的开创性视频生成模型LTX Video (LTXV)。LTXV是一个仅有20亿参数(2B)的基于DiT架构的视频生成模型,能够实时生成高质量视频。它以768x512的分辨率,每秒24帧的速度生成视频,最多生成4秒,支持文生图,图生图。另外,LTX Video 基于开发人员的反馈和真实世界用例构建,可以提供自然逼真的结果。该模型做了高级定制化设计,可以流畅地集成各种外部工具,从而轻松地增强工作流。

2024-12-12 18:55:44 2066

原创 【ComfyUI+多视图生成】MV-Adapter:多视图一致性图片生成(2024.12.09基于SDXL开源)

可以在消费显卡运行的多视图一致性图片生成(文生多图,图生多图)

2024-12-11 23:35:12 1055

原创 PuLID免费在线制作自己AI形象(源码启动,防照片隐私泄露)

字节跳动推出 PuLID-FLUX-v0.9.0 模型,为 FLUX.1-dev 提供了一种无需调整、保持身份 ID 一致性和定制化风格的解决方案。

2024-12-11 10:45:41 586

原创 【ComfyUI】前景分割ComfyUI-BiRefNet-Hugo (无法选定分割的主体,背景鉴别由模型数据,也叫二分分割,显著性分割)

基于ComfyUI和BiRefNet的背景去除法:又叫二分分割,显著性分割

2024-11-27 15:08:01 336

原创 【ComfyUI +BrushNet+PowerPaint】图像修复(根据题词填充目标)——ComfyUI-BrushNet

运行代码上图,中间未_mask.safetensors结果,最右边图未segmentation_mask.safetensors。

2024-11-12 18:32:29 702

原创 【ComfyUI +LaMa】图像修复(根据mask移除目标)——comfyui-lama-remover

LaMA: 图像修复:Resolution-robust Large Mask Inpainting with Fourier Convolutions(使用傅立叶卷积进行分辨率鲁棒的大型掩模修复)

2024-11-11 16:42:44 1085 1

原创 【ComfyUI+在线】Flux+lora生成以假乱真的BAT演讲图片

在云端运行的comfyui+flux+realism_lora

2024-10-31 17:11:04 584

原创 【ComfyUI】生成图细节更清晰——Consistency_Decoder

改进了 stable diffusion 的VAEs 的解码。

2024-09-25 14:23:13 450

原创 【ComfyUI】减少连线的节点——cg-use-everywhere

减少comfyui重复连线,减少连线混乱

2024-09-25 12:07:17 1138

原创 【comfyui】ControlNet 辅助预处理器节点17G资源——controlnet_aux (线稿、深度图、法线、脸部身体姿态估计)(星2.1K)

comfyui controlnet需要的预处理器

2024-09-24 15:09:27 1271

原创 【ComfyUI】控制光照节点——ComfyUI-IC-Light-Native

IC-Light 是一个控制图像照明的项目。“IC-Light”这个名称代表“Impose Constant Light”(我们将在本页末尾简要描述这一点)。目前,我们发布了两种类型的模型:文本条件重新光照模型和背景条件模型。两种类型都将前景图像作为输

2024-09-23 18:49:31 1612

原创 【ComfyUI】自定义节点ComfyUI_LayerStyle——模仿 Adob​​e Photoshop 的图层样式、图层混合、图文混合、添加不可见水印

在ComfyUI画布点击右键- Add Node, 找到 “😺dzNodes”。节点根据功能分为5组:LayerStyle、LayerColor、LayerMask、LayerUtility和LayerFilterLayerStyle: 提供模仿 Adob​​e Photoshop 的图层样式LayerColor:提供颜色调整功能LayerMask:提供遮罩辅助工具LayerUtility : 节点组提供图层合成工具和工作流相关的辅助节点。LayerFilter: 节点组提供图像。

2024-09-19 17:29:03 3236

原创 【ComfyUI】自定义节点ComfyUI-Impact-Pack——人脸、手部、肢体修复

comfyui-impact-pace结合目标检测和SAMs分割模型,工作流修复人脸,手指、肢体

2024-09-18 15:32:18 1819

原创 在线运行PhotoMaker-V2进行ID图片生成 (无需配置环境)

鹅厂开源的AI绘图工具PhotoMaker火爆全网,最近PhotoMaker V2更强大的第二代来了!官方提到,在训练 PhotoMaker V2 时重点提升了 ID 保真度。与 PhotoMaker V1 相比, PhotoMaker V2 引入了新的训练策略,整合了更多的人像数据集,并利用了更强大的 ID 提取编码器。

2024-08-15 10:58:18 644

台大 李宏毅教授VAE+GANs的讲解ppt Unsupervised Learning Generation ppt

台大 李宏毅教授VAE+GANs的讲解ppt 官网:https://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/VAE%20(v5).pdf 也可以参考其他人的资源 https://blog.youkuaiyun.com/sinat_25346307/article/details/79108110

2024-05-27

VAE最简单代码实现,手写字符的预训练模型 checkpoint-8.pth

用作博客演示与复现

2024-05-27

【hugggingface】批量加速下载HuggingFace上的模型

【hugggingface】批量加速下载HuggingFace上的模型

2024-03-06

检测标注软件(labelImg labelme ) (目标检测、分割)

labelImg 可以输出voc和 yolo的标注格式 labelme 可输出json并转化为多种格式 windows下直接运行 链接: https://gitee.com/monkeycc/labelme/releases/tag/v5.2.0.post4 https://github.com/wkentaro/labelme/releases/tag/v5.2.0.post4 https://gitee.com/monkeycc/anylabeling https://github.com/HumanSignal/labelImg https://github.com/HumanSignal/labelImg/releases

2023-09-14

旋转框标注软件rolabelImg(win10可用)

可标记旋转框,用来训练目标检测的最小外接矩形 免编译安装,自己编译好了,开箱即用, 可能有bug,可以下载博主其他资源 资源有问题可以私聊我 相关博文: https://blog.youkuaiyun.com/imwaters/article/details/129064669

2023-02-16

C语言2种方式实现简单单链表的创建

C语言:数组创建单链表;键盘输入数值创建单链表。 int main() { pNode tmp=(pNode)malloc(sizeof(struct Node) ); tmp=creatList(); tmp=inputCreatList(); return 0; }

2020-02-02

图片感兴趣区域ROI获取-鼠标选择矩阵区域+不规则多边形区域(anoconda3.4+spyder+python3.5+opencv3.4)

1.本资源主要是基于python-opencv进行开发的,主要功能是用鼠标提取不规则的ROI以便进行后续处理。 2.https://blog.youkuaiyun.com/imwaters/article/details/80808491博文配套代码,整理了一些参考资料。代码基本是一样的,有分的麻烦还是下载支持一下。

2018-06-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除