- 博客(169)
- 资源 (2)
- 收藏
- 关注

原创 【论文目录】2013-2024年AI图像生成技术30篇+经典论文—— 图像生成Diffusion模型演化进程——扩散or自回归 ?
从2013-2024 图像生成,文生图经典论文目录
2025-01-20 16:52:51
1226

原创 【综述+LLMs+中文图书】国内团队大语言模型综述(截止2024.02)——A Survey of Large Language Models
大语言模型使用无标注语料库进行预训练,当模型大小达到一定数量,出现智能涌现,能够进行小模型不具备的能力:下文学习,在未经过特定任务微调的情况下能够理解并响应复杂指令**;以及对新任务的适应性,即基于给定的输入示例就能够推断出相应的输出模式
2024-03-25 18:11:14
2291

原创 【论文综述+多模态】腾讯发布的多模态大语言模型(MM-LLM)综述(2024.02)
多模态大语言模型:Multimodal Large Language ModelsMM-LLM =预训练单模态模型( 含LLMs) + 微调对齐所有模态 + 输出调整MM-LLMs 利用现成的预训练单模态基础模型,特别是强大的大型语言模型(LLMs), 作为认知核心,赋予各种多模态任务能力。LLMs 提供了稳健的语言生成、zero-shot 迁移能力和上下文学习(ICL)等可取特性在这一领域中,主要关注点是通过多模态预训练(MM PT, Pre-Training)+ 多模态指令调整。
2024-02-29 15:43:23
6687
原创 【机器人+硬件】Zeroth Bot 美国开源最简人形机器人—— 负担得起(¥2535)端到端(SIM2REAL,RL)3D打印的 (包括硬件、SDK、 sim环境)基于视觉、强化学习走路、以及语音
Zeroth-01是一种开源端到端类人形机器人,起价为350美元,具有视觉,基于RL的步行和语音。特点带有开源机器人和仿真环境的SIM2REAL转移。深度RL的端到端控制。VLA:可推广视觉语言行动策略。负担能力:我们通过开源硬件和软件使机器人更加负担得起。
2025-03-11 11:22:37
943
原创 【机器人+VLA】2406.OpenVLA: 开源的视觉–语言–动作模型用于训练通才机器人,An Open-Source Vision-Language-Action Model
OpenVLA 是一个开源的视觉–语言–动作模型,拥有 70亿参数(7B) ,通过在 97 万机器人示范片段(episodes)上微调(数据来源 Open X-Embodiment),为通才(generalist)机器人操作策略 (manipulation policies) 设置了新的技术水平
2025-03-06 10:10:14
2676
原创 【机器人+VLA】2410.Pi0_一种(开源)语言视觉控制的通用机器人——A Vision-Language-Action Flow Model for General Robot Control
介绍了 Physical Intelligence 公司开发通用机器人基础模型 π0 的成果及展望。当前 AI 在物理世界应用存在局限,该公司经八个月研发 π0 以迈向人工物理智能目标。π0 基于大规模数据训练,融合图像、文本与动作,能跨多种机器人执行任务并可微调适应复杂场景。其通过独特架构从机器人具身经验获取物理智能,在洗衣、清理餐桌、组装盒子等任务上表现优于其他模型。我们的通才机器人策略使用预先训练。
2025-02-24 18:41:16
418
原创 【机器人+模仿学习】Diffusion Policy: 通过行动扩散的视觉运动策略学习Visuomotor Policy Learning via Action Diffusion
扩散策略,这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法
2025-02-24 17:54:03
820
原创 【机器人】mobile-aloha:可移动可学习遥控操作机器人 Learning Bimanual Mobile Manipulation with Whole-Body Teleoperation
引入了一个低成本的移动操作系统,该系统是双手的,并支持全身远程操作。该系统的成本为 32k,包括板载功率和计算。左:用户远程操作以从冰箱中获取食物。右图:移动ALOHA可以通过模仿学习执行复杂的长期任务
2025-02-24 16:12:28
1074
原创 【机械臂】ACT Policy:使用低成本硬件学习细粒度的双手操作:Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
使机械臂精细化操作,只需要不到2000元
2025-02-24 12:14:03
911
原创 【AI前沿+机器人】Helix:可多机器人协作、能拿起任何东西、整个人形上身控制的、可嵌入式低功耗GPU部署的、通用人形机器人控制的视觉-语言-动作(VLA)模型
Figure 发布 Helix 机器人视觉语言行动模型:•历史上第一个类人机器人上身的高速连续控制模型•可以两台机器人用一个模型控制协作完成任务•可以捡起任何东西,不管他是否原来就认识•历史上第一个在本地GPU运行的机器人模型
2025-02-23 22:06:28
911
原创 【ollama安装】国内 linux 环境安装ollama
使用命令行前,请确保已经通过pip install modelscope 安装ModelScope。
2025-02-07 10:59:47
3666
1
原创 【DeepSeek-R1 +1.5B】2060显卡ollama本地部署+open-webui界面使用
deepseek-r1-1.5B本地部署, 仅需2G-3G显存
2025-02-06 18:28:41
2706
原创 【ComfyUI】python调用生图API,实现批量出图
官方给的示例:https://github.com/comfyanonymous/ComfyUI/blob/master/script_examples/websockets_api_example.pyhttps://github.com/comfyanonymous/ComfyUI/blob/master/script_examples/websockets_api_example.pyhttps://github.com/comfyanonymous/ComfyUI/blob/master/scrip
2025-01-23 18:25:12
2201
1
原创 【ComfyUI+风格】一次题词生成30种+的风格图(可扩展)
基于sdxl风格题词进行开发 (几乎使用所有文生图模型sd1.5 , sdxl ,hunyuan, flux)https://github.com/twri/sdxl_prompt_styler
2025-01-08 18:11:37
351
原创 2024年AI图像生成热门模型回顾
2024.01.04 阿里开源中文文字图像生成2024.01.15 小红书开源InstantID, 上传真人图片的生成ID一致的AI形象2024.02.22 字节开源了 SDXL-Lighting (1,2,4,8步快速出图)2024.03.05 开源了SD3 (重点,因为有论文)2024.03.29 PixArt-Σ (sigma)华为诺亚方舟实验室开源英文4K 文生图模型2024.04 字节提出了视觉自回归文生图模型VAR (2024年某顶会最佳论文)
2025-01-06 18:37:42
1503
原创 【ComfyUI】错觉图片生成(远看李小龙,近看是糖果岩石,花,草,)
错觉图片生成——远看李小龙,近看纸张,花草岩石comfyui + control_v1p_sd15_qrcode_monster
2025-01-03 23:31:15
378
原创 【生活】冬天如何选口罩(医用口罩,N95, KN95还是KP95?带不带呼吸阀门?带不带活性炭?)
日常防护的话,医用口罩或者KN95口罩就可以啦。要是想长时间佩戴N95口罩的话也可以,但疫情防控期间在公共场所就别用带呼吸阀门的N95啦。在高风险环境(像医院、疫情防控期间),一定要选不带呼吸阀门的N95口罩哦。如果是在空气污染或者异味比较重的环境里,带有活性炭层的口罩就是不错的选择啦。
2025-01-02 23:00:21
865
原创 【ComfyUI + 视频理解/反推题词】LLaVA-OneVision:单图、多图、视频任务理解(caption) (2024.08开源)
LLaVA-OneVision是一个开放的大型多模态模型(LMMs)。能同时理解图片和视频。在qwen2 + 多层感知机 + google/siglip-so400m-patch14-384 (视觉编码器)
2024-12-16 23:21:46
854
原创 上传的logo印在生成图片上(in-context lora)
In-Context LoRA + Image-to-Image + Inpainting
2024-12-13 23:27:18
756
原创 【论文+去背景】24.01.BiRefNet:Bilateral Reference for High-Resolution Dichotomous高分辨率二分图像分割的双边参考 (RMBG背后的算法
基于BiRefNet精细化 图片,视频二分分割(前景背景分割)
2024-12-12 21:07:35
1486
原创 【ComfyUI+视频生成】LTX-Video 快速生成视频 + 图生视频 (生成4秒 3090需要20秒)
来自Lightricks的开创性视频生成模型LTX Video (LTXV)。LTXV是一个仅有20亿参数(2B)的基于DiT架构的视频生成模型,能够实时生成高质量视频。它以768x512的分辨率,每秒24帧的速度生成视频,最多生成4秒,支持文生图,图生图。另外,LTX Video 基于开发人员的反馈和真实世界用例构建,可以提供自然逼真的结果。该模型做了高级定制化设计,可以流畅地集成各种外部工具,从而轻松地增强工作流。
2024-12-12 18:55:44
2066
原创 【ComfyUI+多视图生成】MV-Adapter:多视图一致性图片生成(2024.12.09基于SDXL开源)
可以在消费显卡运行的多视图一致性图片生成(文生多图,图生多图)
2024-12-11 23:35:12
1055
原创 PuLID免费在线制作自己AI形象(源码启动,防照片隐私泄露)
字节跳动推出 PuLID-FLUX-v0.9.0 模型,为 FLUX.1-dev 提供了一种无需调整、保持身份 ID 一致性和定制化风格的解决方案。
2024-12-11 10:45:41
586
原创 【ComfyUI】前景分割ComfyUI-BiRefNet-Hugo (无法选定分割的主体,背景鉴别由模型数据,也叫二分分割,显著性分割)
基于ComfyUI和BiRefNet的背景去除法:又叫二分分割,显著性分割
2024-11-27 15:08:01
336
原创 【ComfyUI +BrushNet+PowerPaint】图像修复(根据题词填充目标)——ComfyUI-BrushNet
运行代码上图,中间未_mask.safetensors结果,最右边图未segmentation_mask.safetensors。
2024-11-12 18:32:29
702
原创 【ComfyUI +LaMa】图像修复(根据mask移除目标)——comfyui-lama-remover
LaMA: 图像修复:Resolution-robust Large Mask Inpainting with Fourier Convolutions(使用傅立叶卷积进行分辨率鲁棒的大型掩模修复)
2024-11-11 16:42:44
1085
1
原创 【comfyui】ControlNet 辅助预处理器节点17G资源——controlnet_aux (线稿、深度图、法线、脸部身体姿态估计)(星2.1K)
comfyui controlnet需要的预处理器
2024-09-24 15:09:27
1271
原创 【ComfyUI】控制光照节点——ComfyUI-IC-Light-Native
IC-Light 是一个控制图像照明的项目。“IC-Light”这个名称代表“Impose Constant Light”(我们将在本页末尾简要描述这一点)。目前,我们发布了两种类型的模型:文本条件重新光照模型和背景条件模型。两种类型都将前景图像作为输
2024-09-23 18:49:31
1612
原创 【ComfyUI】自定义节点ComfyUI_LayerStyle——模仿 Adobe Photoshop 的图层样式、图层混合、图文混合、添加不可见水印
在ComfyUI画布点击右键- Add Node, 找到 “😺dzNodes”。节点根据功能分为5组:LayerStyle、LayerColor、LayerMask、LayerUtility和LayerFilterLayerStyle: 提供模仿 Adobe Photoshop 的图层样式LayerColor:提供颜色调整功能LayerMask:提供遮罩辅助工具LayerUtility : 节点组提供图层合成工具和工作流相关的辅助节点。LayerFilter: 节点组提供图像。
2024-09-19 17:29:03
3236
原创 【ComfyUI】自定义节点ComfyUI-Impact-Pack——人脸、手部、肢体修复
comfyui-impact-pace结合目标检测和SAMs分割模型,工作流修复人脸,手指、肢体
2024-09-18 15:32:18
1819
原创 在线运行PhotoMaker-V2进行ID图片生成 (无需配置环境)
鹅厂开源的AI绘图工具PhotoMaker火爆全网,最近PhotoMaker V2更强大的第二代来了!官方提到,在训练 PhotoMaker V2 时重点提升了 ID 保真度。与 PhotoMaker V1 相比, PhotoMaker V2 引入了新的训练策略,整合了更多的人像数据集,并利用了更强大的 ID 提取编码器。
2024-08-15 10:58:18
644
台大 李宏毅教授VAE+GANs的讲解ppt Unsupervised Learning Generation ppt
2024-05-27
检测标注软件(labelImg labelme ) (目标检测、分割)
2023-09-14
旋转框标注软件rolabelImg(win10可用)
2023-02-16
C语言2种方式实现简单单链表的创建
2020-02-02
图片感兴趣区域ROI获取-鼠标选择矩阵区域+不规则多边形区域(anoconda3.4+spyder+python3.5+opencv3.4)
2018-06-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人