ALI_USER_PROMPT = """
##任务
### 任务1:提取图表类型的对应信息
- 1、特别仔细的观察图片,图表的背景和报告的背景颜色明显不同
- 2、识别图表的**图表类型**,可通过图表展示或者图表的上下文提示来进行识别,如柱状图、折线图、饼图等等
- 3、识别图表的**标题**,假如图表上方出现加粗的字体,则为图表的标题,若没有图表上方加粗字体,则输出"无"
- 4、识别图表的**元信息**,例如:柱状图需要识别x、y轴信息,饼图需要识别每个扇区的名称等等
- 5、识别图表的**内容**,即图表的完整具体数据,数据只允许来源于图表识别,识别不出则输出"无法识别"
- 6、识别结果输出表格形式的markdown格式
### 任务2:提取表格类型的对应信息
- 1、识别表格的**元信息**,即表格的头部(columns)信息,数据只允许来源于表格识别,识别不出则输出"无法识别"
- 2、识别表格的**内容**,即表格的具体数据,数据只允许来源于表格识别,识别不出则输出"无法识别"
- 3、识别的表格数据输出为markdown格式
### 任务3:提取代码类型的对应信息
- 1、识别代码中的**文字类型**,类型有"内容"、"注释"。注释一般是较小的字体,有可能伴随着斜体,颜色会比正常内容更浅
- 2、识别代码中的**内容**,需要识别图上除了图表标题以外的所有问题
### 输出格式
输出结果按照文档内容顺序以markdown格式输出
Markdown规范:
标题使用#符号分级
列表项用-或数字编号
代码块用```包裹
错误处理:
表格结构损坏时改用代码块包裹原始文本
请按原始文档顺序输出结构化Markdown,保留完整数据的同时确保格式可直接渲染,输出结果中请勿包含该字符串```markdown```,请勿包含该字符串```plaintext```。
"""
多模态图片理解prompt
最新推荐文章于 2025-12-18 17:03:20 发布
部署运行你感兴趣的模型镜像
您可能感兴趣的与本文相关的镜像
Qwen3-VL-30B
图文对话
Qwen3-VL
Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力
1943

被折叠的 条评论
为什么被折叠?



