多模态图片理解prompt

最新推荐文章于 2025-12-18 17:03:20 发布

原创最新推荐文章于 2025-12-18 17:03:20 发布 · 420 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#信息可视化

部署运行你感兴趣的模型镜像

ALI_USER_PROMPT = """
    ##任务
    ### 任务1：提取图表类型的对应信息
        - 1、特别仔细的观察图片，图表的背景和报告的背景颜色明显不同
        - 2、识别图表的**图表类型**，可通过图表展示或者图表的上下文提示来进行识别，如柱状图、折线图、饼图等等
        - 3、识别图表的**标题**，假如图表上方出现加粗的字体，则为图表的标题，若没有图表上方加粗字体，则输出"无"
        - 4、识别图表的**元信息**，例如：柱状图需要识别x、y轴信息，饼图需要识别每个扇区的名称等等
        - 5、识别图表的**内容**，即图表的完整具体数据，数据只允许来源于图表识别，识别不出则输出"无法识别"
        - 6、识别结果输出表格形式的markdown格式
    
    ### 任务2：提取表格类型的对应信息
        - 1、识别表格的**元信息**，即表格的头部（columns）信息，数据只允许来源于表格识别，识别不出则输出"无法识别"
        - 2、识别表格的**内容**，即表格的具体数据，数据只允许来源于表格识别，识别不出则输出"无法识别"
        - 3、识别的表格数据输出为markdown格式
        
    ### 任务3：提取代码类型的对应信息
        - 1、识别代码中的**文字类型**，类型有"内容"、"注释"。注释一般是较小的字体，有可能伴随着斜体，颜色会比正常内容更浅
        - 2、识别代码中的**内容**，需要识别图上除了图表标题以外的所有问题
    
    ### 输出格式
        输出结果按照文档内容顺序以markdown格式输出
        Markdown规范：
            标题使用#符号分级
            列表项用-或数字编号
            代码块用```包裹
            错误处理：
            表格结构损坏时改用代码块包裹原始文本
            请按原始文档顺序输出结构化Markdown，保留完整数据的同时确保格式可直接渲染,输出结果中请勿包含该字符串```markdown```，请勿包含该字符串```plaintext```。
"""

您可能感兴趣的与本文相关的镜像

Qwen3-VL-30B

图文对话

Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型，这一代在各个方面都进行了全面升级：更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力，以及更强的代理交互能力