目录
1. 前言
2. 实现思路
2.1. 梳理视频构成
2.2. 捋顺工作流运行思路
3. 工作流实现
4. 资料领取
5. 结语
1. 前言
最近因为一些事情失眠了,半夜总刷短视频,忽然刷到了那种带点古典味的哄睡历史故事,不知道你有没有刷到过?就是画面里有那种像古画一样的背景,配上慢悠悠的旁白,还有个转着圈的小唱片在那儿动 —— 说真的,这种视频看着看着,心里那点烦躁劲儿就没了。下图里的睡前历史说博主就做了 27 条这种视频,粉丝直接涨到 35 万。
不过好多人想学着做,都卡在第一步了。找素材吧,翻来翻去就得两三个小时;写文案更头疼,盯着屏幕到后半夜都写不出几句;好不容易文案弄完了,剪视频的时候调那个关键帧,半天都弄不对…… 其实不用这么费劲,我自己琢磨着用 Coze 搭了个工作流,只要输个朝代名字,从写文案到拼视频,全都是自动弄好的,真就是一键出片。
不过要先说明:这篇文章更像一份创作脚手架—— 我会拆解背后的实现逻辑,但强烈建议你在复用框架时注入独特创意。毕竟短视频平台最忌讳内容复制粘贴,只有在细节里藏着自己的巧思,才能在同质化浪潮中站稳脚跟。
先来看一下Coze工作流实现效果:
2. 实现思路
这个工作流总的来说还是有点难的,我折腾了2天才弄好,接下来就给大家献上它的技术思路,很多学员跟我说看见一个视频不知道如何拆解然后用工作流实现,今天这篇文章就教会大家拆解的思路,以这个哄睡视频为例,要拆解工作流我们需要分为两大步骤:
**1.****梳理视频构成:**这一步是肉眼感知工作流的构成,看一下视频的总体构成有哪些要素,如图片、文案、背景音乐、旁白音频等
**2.捋顺工作流****实现思路:**这一步需要理顺基于Coze实现工作流需要哪些步骤,可以画一个流程图来帮助自己理顺逻辑
2.1. 梳理视频构成
在哄睡视频中,我们可以看到视频有以下构成:
1. 背景图片
2. 背景微缩版图片,唱片的模样,这个图片上有两个关键帧,平移和旋转
3. 背景微缩版图片,类似唱片的外壳
4.唱片外壳的白边(图上忘记标注了,可以自己看一下,唱片外壳有一圈白边)
5. 带有朝代的标题字幕
6. 音乐播放器贴纸1
7. 音乐播放器贴纸2
8. 背景音乐
9. 旁白解说
可以看见,整个视频有9个部分组成,Coze工作流要做的视频就是把这9个部分放入剪映草稿的轨道中。
2.2. 捋顺工作流运行思路
我画了一份流程图来理顺工作流的运行思路。
从上面流程图来看,整个流程还是比较复杂的,用文字来描述可以概括为以下几个步骤:
1. 用户输入朝代名称
2. 基于大模型根据用户输入的朝代生成文案(分为开场白、前半部分和后半部分)
3. 将前半部分文案和后半部分文案转换为两组文案列表(字符串数组)
4. 基于两组文案列表生成配音音频、基于开场白生成配音音频
5. 根据用户输入的朝代生成文生图提示词
6. 生成背景图、生成背景图的微缩版图片(用作唱片和唱片外壳)
7. 处理字幕时间线
8. 处理音频时间线
9. 处理图片时间线
10. 创建剪映空草稿
11. 在剪映草稿中添加图片
12. 在剪映草稿中添加白色地图(唱片外壳外面那圈白边)
13. 添加微缩背景图(作为唱片图)
14. 添加微缩背景图(作为唱片外壳图片)
15. 为唱片图添加圆形蒙版
16. 为唱片图片生成平移关键帧和旋转关键帧
17. 添加贴纸
18. 添加背景音乐
19. 添加解说音频
20. 添加解说字幕
21. 保存草稿
3. 工作流实现
整体工作流如下图,还是按照惯例带大家拆解一下工作流的核心节点:
**开始节点:**开始节点输入的参数为dynasty(朝代名称),用户在试运行时只需要输入任意朝代名称。
**生成文案(大模型):**这个节点的作用是根据开始节点中用户传入的朝代生成4000字左右的视频文案,输出的时候分为了开场白(beginning)、第一部分(story1)和第二部分(story2)。
**文本处理(第一部分、第二部分):**在文本处理节点中,需要把生成的第一部分文本和第二部分文本打散为文案列表,为后续文案配音做准备。
**文案配音(批处理):**对于前面生成的文案列表需要基于批处理节点进行配音操作,并行运行数量设置为3。
speech_synthesis(开场白配音):因为开场白和正文是不同的配音,所以这里我们需要用一个节点单独给开场白文案作配音。
生成背景图(大模型节点):这个节点的作用是基于开始节点用户输入的朝代生成文生图提示词,有很多朋友说提示词写不好,其实提示词都是有基础框架的,只需要告诉大模型它是谁,他会什么,需要他做什么(你要什么结果),做好这几步就行。
生成图片(背景图和背景图微缩版):生成图片用到了两个genImage插件,一个用户于成背景图,一个用于生成微缩版本的背景图(用于制作唱片外壳和圆形唱片)生成背景图的宽高配置为:1920*1080,生成微缩版的背景图配置为1024*1024。
配置音频时间线(开场白、第一部分文案音频、第二部分文案音频):这部分的主要作用是基于audio_timelines插件从前面生成的音频列表中获取时间线,为后续放入剪映草稿的轨道上做准备。
字幕时间线合并处理(代码节点): 在前面的三个audio_timelines节点中我们获得了三大部分(开头、第一部分、第二部分)每段音频的时间线,现在需要基于代码对时间线进行总体合并,合并的原则为第一部分文案音频时间线基于开头文案音频时间线总体做偏移操作、第二部分音频时间线基于第一部分音频时间线总体做偏移操作,详细代码如下。
**字幕合并处理(代码节点):**在这个节点我们需要把前面被分割为三部分的视频文案进行合并,list0为开场白文本,list1为第一部分文案列表,list2为第二部分文案列表,这个代码按照list0、list1、list2的顺序对列表进行了拼接操作,最终输出一个合并后的文案列表。
**音频合并处理(代码):**在这个节点我们需要把前面被分割为三部分的音频进行合并,list0为开场白音频,list1为第一部分文案音频列表,list2为第二部分文案音频列表,这个代码按照list0、list1、list2的顺序对列表进行了拼接操作,最终输出一个合并后的音频列表。
**照片信息处理(背景图、背景微缩图、白底图):**照片信息处理主要基于imgs_infos插件和str_to_list插件,其中imgs_infos主要作用是基于前面生成是时间线来制作图片数据,为后续添加到剪映草稿轨道做前置准备。
str_to_list插件的作用是将字符串转为列表,因为白底照片是以链接地址传入的(字符串),所以需要将其转换为数组,才能传入imgs_infos中制作图片数据。
音频数据的处理如下图:首先基于audio_timelines插件获取背景音乐的时间线,然后基于音频时间线代码将背景音乐与解释音频对齐,最后基于audio_timelines制作背景音乐和解说音频的音频数据,为后续添加到剪映草稿轨道上做前置准备。
**音频时间线代码:**这段代码的主要功能是根据视频总时长和音频总时长,计算音频需要循环的次数,生成音频时间线片段,并将音频链接按相应次循环对应的音频链接数组中。
**标题处理:**这两个节点的作用跟图片和音频一样,最终的目的是制作字幕数据,为后续添加到剪映草稿轨道上做前置准备。
接下来就来到了最后的步骤,将前置生成是图片、音频、字幕数据添加到剪映草稿中,这边统一基于剪映小助手插件完成:
上面的节点我就不一一展开了,说一下难点部分,即唱片制作和唱片关键帧(平移和旋转的制作)。首先是唱片的制作,基于了add_masks插件来添加蒙版,参数设置如下:
平移关键帧针对视频中唱片从唱片壳子里出来的动作,基于keyframes_infos插件实现,参数设置如下:
旋转关键帧针对视频中唱片旋转的动作,依然基于keyframes_infos插件实现,参数设置如下:
上述就是整个工作流的主要流程,整个工作流涉及到几十个节点,流程相对复杂,动手能力强的读者可以根据以上思路研究一下。如果想直接获取工作流,可以加入社群后我拉你进Coze空间直接学习使用。
4. 资料领取
觉得大模型不好用,可能是你不会写提示词,小肥肠为你准备了海量提示词模板、DeepSeek以及Coze相关教程,只需关注gzh后端小肥肠,点击底部【资源】菜单即可领取。
本文的工作流及提示词已经上传至coze空间,感兴趣的朋友可以私信小肥肠详细了解~
5. 结语
回顾这套 Coze 工作流,或许你会觉得流程繁琐,但当工作流跑通的那一刻,看着系统自动生成带着旋转唱片、温润旁白的完整视频,那种成就感远超手动剪辑的疲惫。更重要的是,它解放了重复劳动 —— 你可以把省下的时间花在打磨故事细节上:比如给历史人物加一段鲜为人知的趣闻,或是用独特的方言配音制造记忆点。
**如果这篇保姆级教程对你有帮助,欢迎点个赞/收藏/转发——你的支持是我熬夜肝干货的最大动力!
**
关于AI大模型技术储备
学好 AI大模型 不论是就业还是在工作技能提升上都不错,但要学会 AI大模型 还是要有一个学习规划。最后大家分享一份全套的 AI大模型 学习资料,给那些想学习 AI大模型 的小伙伴们一点帮助!
感兴趣的小伙伴,赠送全套AI大模型学习资料和安装工具,包含Agent行业报告、精品AI大模型学习书籍手册、视频教程、最新实战学习等录播视频,具体看下方。
需要的可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
这份完整版的学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
