
图片生成核心逻辑
好的,我们来分析 Paper2Slides/paper2slides/generator/image_generator.py 文件的核心逻辑、执行步骤和使用方法。
核心逻辑
这个文件的核心是一个名为 ImageGenerator 的类,其主要作用是将结构化的内容计划 (ContentPlan) 转换为最终的视觉产物(一系列幻灯片图片或一张海报图片)。
它通过以下方式实现这一目标:
- 动态构建提示词 (Prompt Engineering): 它不使用单一的静态提示词,而是根据内容计划、用户选择的风格(如学术风、自定义风格)和输出类型(幻灯片/海报),动态地将多个提示词片段(从
prompts目录导入)组合成一个非常详细和精确的指令,用于指导多模态大模型(如 Gemini 3 Pro Image)进行图片生成。 - 上下文感知生成: 在生成幻灯片时,它不仅考虑当前页的内容,还会将整个演示文稿的摘要 (
Full presentation context) 提供给模型,以确保内容和逻辑的连贯性。 - 风格一致性维
订阅专栏 解锁全文
3271

被折叠的 条评论
为什么被折叠?



