【解决】调用通义千问嵌入模型报错：batch size is invalid, it should not be larger than 10

最新推荐文章于 2025-11-07 15:16:32 发布

原创最新推荐文章于 2025-11-07 15:16:32 发布 · 531 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#batch #开发语言

大模型应用专栏收录该内容

3 篇文章

订阅专栏

基本情况说明

应用功能：
读取本地文件，向量化后存储到本地文件数据库中。

开发框架：
langchain

嵌入模型：
text-embedding-v4

数据库
chroma

报错全部信息：
ValueError: status_code: 400 code: InvalidParameter message: <400> InternalError.Algo.InvalidParameter: Value error, batch size is invalid, it should not be larger than 10.: input.contents

报错情况说明

参考百炼控制台，最大行数有限制存在。
在这里插入图片描述

由于整个调用过程未显式传递batch_size参数，且整个调用过程由Chroma内部调用，导致问题不好定位。

解决方案：

将读取的文档内容进行分割，批量入库。

# 分批处理文档
batch_size = 10
for i in range(0, len(split_docs), batch_size):
    batch_docs = split_docs[i:i+batch_size]
    if i == 0:
        # 第一批文档创建数据库
        vectordb = Chroma.from_documents(
            documents=batch_docs,
            embedding=embedding,
            persist_directory=persist_directory
        )
    else:
        # 后续批次添加到数据库
        vectordb.add_documents(batch_docs)