What is black box/white box testing -- 给大家一些英文原解

本文介绍了软件测试中的两种主要方法:黑盒测试和白盒测试。黑盒测试关注功能需求,不考虑内部结构;而白盒测试则利用内部结构知识来指导测试数据的选择。
### VLLM 加载本地 ModelScope 下载的 rerank 模型 VLLM 是一个高效的推理框架,支持加载本地模型文件并部署为推理服务。在用户提供的场景中,目标模型为 ModelScope 上的 `BAAI/bge-reranker-base`,模型文件路径为 `~/.cache/modelscope/hub/models/AI-ModelScope/bge-reranker-v2-m3/`。要通过 VLLM 加载该模型,需确保模型格式与 VLLM 兼容,并配置正确的模型路径。 #### 模型格式要求 VLLM 生支持 Hugging Face 格式的模型权重。如果通过 ModelScope 下载的模型已经是 Hugging Face 格式,则可以直接加载。若模型为 ModelScope 自定义格式,需先进行转换。ModelScope 提供了模型导出工具,可将模型转换为标准的 Hugging Face 格式,以便 VLLM 能够识别并加载。 #### 配置模型路径并启动服务 在确认模型格式兼容后,可通过如下命令启动 VLLM 服务,并指定模型路径: ```bash python -m vllm.entrypoints.api_server \ --host 0.0.0.0 \ --port 8000 \ --model ~/.cache/modelscope/hub/models/AI-ModelScope/bge-reranker-v2-m3/ ``` 上述命令将加载本地模型并启动一个监听在 `0.0.0.0:8000` 的 HTTP 服务,支持通过 `/generate` 接口进行推理请求[^1]。 #### 模型推理接口调用 启动服务后,可通过 HTTP 请求调用模型接口。以下为示例请求体: ```json { "prompt": "What is the capital of France?", "max_tokens": 50 } ``` 发送请求: ```bash curl -X POST http://localhost:8000/generate \ -H "Content-Type: application/json" \ -d '{ "prompt": "What is the capital of France?", "max_tokens": 50 }' ``` 该请求将触发模型推理并返回结果。 #### 模型优化与部署建议 为了提升推理效率,建议在加载模型时启用张量并行和批处理优化。例如,若系统具备多个 GPU,可使用 `--tensor-parallel-size` 参数指定并行数量以加速推理: ```bash python -m vllm.entrypoints.api_server \ --host 0.0.0.0 \ --port 8000 \ --model ~/.cache/modelscope/hub/models/AI-ModelScope/bge-reranker-v2-m3/ \ --tensor-parallel-size 2 ``` 此配置将使用两个 GPU 进行推理,显著提升服务吞吐量和响应速度。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值