多模态图片理解prompt

部署运行你感兴趣的模型镜像
ALI_USER_PROMPT = """
    ##任务
    ### 任务1:提取图表类型的对应信息
        - 1、特别仔细的观察图片,图表的背景和报告的背景颜色明显不同
        - 2、识别图表的**图表类型**,可通过图表展示或者图表的上下文提示来进行识别,如柱状图、折线图、饼图等等
        - 3、识别图表的**标题**,假如图表上方出现加粗的字体,则为图表的标题,若没有图表上方加粗字体,则输出"无"
        - 4、识别图表的**元信息**,例如:柱状图需要识别x、y轴信息,饼图需要识别每个扇区的名称等等
        - 5、识别图表的**内容**,即图表的完整具体数据,数据只允许来源于图表识别,识别不出则输出"无法识别"
        - 6、识别结果输出表格形式的markdown格式
    
    ### 任务2:提取表格类型的对应信息
        - 1、识别表格的**元信息**,即表格的头部(columns)信息,数据只允许来源于表格识别,识别不出则输出"无法识别"
        - 2、识别表格的**内容**,即表格的具体数据,数据只允许来源于表格识别,识别不出则输出"无法识别"
        - 3、识别的表格数据输出为markdown格式
        
    ### 任务3:提取代码类型的对应信息
        - 1、识别代码中的**文字类型**,类型有"内容"、"注释"。注释一般是较小的字体,有可能伴随着斜体,颜色会比正常内容更浅
        - 2、识别代码中的**内容**,需要识别图上除了图表标题以外的所有问题
    
    ### 输出格式
        输出结果按照文档内容顺序以markdown格式输出
        Markdown规范:
            标题使用#符号分级
            列表项用-或数字编号
            代码块用```包裹
            错误处理:
            表格结构损坏时改用代码块包裹原始文本
            请按原始文档顺序输出结构化Markdown,保留完整数据的同时确保格式可直接渲染,输出结果中请勿包含该字符串```markdown```,请勿包含该字符串```plaintext```。
"""

您可能感兴趣的与本文相关的镜像

Qwen3-VL-30B

Qwen3-VL-30B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值