【vllm server 参数】

最新推荐文章于 2025-05-21 12:36:32 发布

蚁小帅

最新推荐文章于 2025-05-21 12:36:32 发布

阅读量883

点赞数 17

CC 4.0 BY-SA版权

文章标签：语言模型

本文链接：https://blog.youkuaiyun.com/qq_23211463/article/details/148045595

这是一段 vllm 中 api_server.py 记录的日志信息，展示了程序启动时传入的命令行参数（Namespace），下面为你详细解释这些参数的含义：

基本运行参数：
- subparser='serve'：表示当前运行的子命令是 serve，即启动服务。
- model_tag='/root/vllm/Qwen/Qwen3-14B-AWQ'：模型的标签，指定了模型的路径或标识。
- config=''：配置文件路径，这里为空表示未指定特定配置文件。
- host='0.0.0.0'：服务监听的主机地址，0.0.0.0 表示监听所有可用网络接口。
- port=8000：服务监听的端口号为 8000。
- uvicorn_log_level='info'：uvicorn 日志级别设置为 info。
- disable_uvicorn_access_log=False：未禁用 uvicorn 的访问日志记录。
网络安全和跨域设置：
- allow_credentials=False：不允许携带凭证（如 cookies）。
- allowed_origins=['*']：允许所有来源的跨域请求。
- allowed_methods=['*']：允许所有 HTTP 方法的跨域请求。
- allowed_headers=['*']：允许所有请求头的跨域请求。
- api_key=“123456''：设置 API 密钥，用于身份验证。
模型相关参数：
- lora_modules=None：未指定 LoRA（Low-Rank Adaptation）模块。
- prompt_adapters=None：未指定提示适配器。
- chat_template=None：未指定聊天模板。
- chat_template_content_format='auto'：聊天模板内容格式自动检测。
- response_role='assistant'：响应角色为 assistant。
- model='/root/vllm/Qwen/Qwen3-14B-AWQ'：指定要加载的模型路径。
- task='auto'：任务类型自动检测。
- tokenizer=None：未指定分词器，可能使用模型默认的分词器。
- hf_config_path=None：未指定 Hugging Face 配置文件路径。
- skip_tokenizer_init=False：未跳过分词器初始化。
- revision=None：未指定模型版本。
- code_revision=None：未指定代码版本。
- tokenizer_revision=None：未指定分词器版本。
- tokenizer_mode='auto'：分词器模式自动。
- trust_remote_code=False：不信任远程代码。
- allowed_local_media_path=None：未指定允许的本地媒体路径。
- load_format='auto'：模型加载格式自动检测。
- download_dir=None：未指定下载目录。
- model_loader_extra_config={}：模型加载器的额外配置，这里为空字典。
- use_tqdm_on_load=True：加载模型时使用 tqdm 进度条。
- config_format=<ConfigFormat.AUTO: 'auto'>：配置格式自动检测。
- dtype='auto'：数据类型自动检测。
- max_model_len=None：未指定模型最大长度。
- guided_decoding_backend='auto'：引导解码后端自动选择。
- reasoning_parser=None：未指定推理解析器。
- logits_processor_pattern=None：未指定 logits 处理器模式。
- model_impl='auto'：模型实现自动选择。
分布式相关参数：
- distributed_executor_backend=None：未指定分布式执行器后端。
- pipeline_parallel_size=1：流水线并行大小为 1。
- tensor_parallel_size=2：张量并行大小为 2。
- data_parallel_size=1：数据并行大小为 1。
- enable_expert_parallel=False：未启用专家并行。
- max_parallel_loading_workers=None：未指定最大并行加载工作线程数。
- ray_workers_use_nsight=False：ray 工作线程不使用 Nsight。
- disable_custom_all_reduce=False：未禁用自定义的全规约操作。
内存和缓存相关参数：
- block_size=None：未指定块大小。
- gpu_memory_utilization=0.9：GPU 内存利用率设置为 0.9。
- swap_space=4：交换空间大小为 4（单位未明确，可能是 GB 等）。
- kv_cache_dtype='auto'：键值缓存数据类型自动检测。
- num_gpu_blocks_override=None：未覆盖 GPU 块数量。
- enable_prefix_caching=None：未明确是否启用前缀缓存。
- prefix_caching_hash_algo='builtin'：前缀缓存哈希算法为内置算法。
- cpu_offload_gb=128.0：启用 CPU 卸载，设置卸载到 CPU 的内存大小为 128GB。
- calculate_kv_scales=False：未计算键值缩放。
- disable_sliding_window=False：未禁用滑动窗口。
- use_v2_block_manager=True：使用版本 2 的块管理器。
随机数和统计相关参数：
- seed=None：未指定随机数种子。
- max_logprobs=20：最大对数概率设置为 20。
- disable_log_stats=False：未禁用日志统计。
量化和缩放相关参数：
- quantization=None：未指定量化方式。
- rope_scaling=None：未指定 RoPE（Rotary Position Embedding）缩放方式。
- rope_theta=None：未指定 RoPE 的 theta 参数。
Hugging Face 相关参数：
- hf_token=None：未指定 Hugging Face 令牌。
- hf_overrides=None：未指定对 Hugging Face 配置的覆盖。
其他参数：
- enforce_eager=False：未强制使用 eager 模式。
- max_seq_len_to_capture=8192：最大捕获序列长度为 8192。
- tokenizer_pool_size=0：分词器池大小为 0。
- tokenizer_pool_type='ray'：分词器池类型为 ray。
- tokenizer_pool_extra_config={}：分词器池的额外配置，这里为空字典。
- limit_mm_per_prompt={}：每个提示的多模态限制，这里为空字典。
- mm_processor_kwargs=None：多模态处理器的关键字参数，这里为 None。
- disable_mm_preprocessor_cache=False：未禁用多模态预处理器缓存。
- enable_lora=None：未明确是否启用 LoRA。
- enable_lora_bias=False：未启用 LoRA 偏差。
- max_loras=1：最大 LoRA 数量为 1。
- max_lora_rank=16：最大 LoRA 秩为 16。
- lora_extra_vocab_size=256：LoRA 额外词汇表大小为 256。
- lora_dtype='auto'：LoRA 数据类型自动检测。
- long_lora_scaling_factors=None：未指定长 LoRA 缩放因子。
- max_cpu_loras=None：未指定最大 CPU 上的 LoRA 数量。
- fully_sharded_loras=False：未启用全分片 LoRA。
- enable_prompt_adapter=None：未明确是否启用提示适配器。
- max_prompt_adapters=1：最大提示适配器数量为 1。
- max_prompt_adapter_token=0：最大提示适配器令牌数为 0。
- device='auto'：设备自动选择。
- speculative_config=None：未指定推测配置。
- ignore_patterns=[]：忽略模式列表为空。
- served_model_name=['Qwen3-14B-AWQ']：提供服务的模型名称为 Qwen3-14B-AWQ。
- qlora_adapter_name_or_path=None：未指定 QLoRA 适配器名称或路径。
- show_hidden_metrics_for_version=None：未指定显示隐藏指标的版本。
- otlp_traces_endpoint=None：未指定 OpenTelemetry Protocol (OTLP) 追踪端点。
- collect_detailed_traces=None：未明确是否收集详细追踪信息。
- disable_async_output_proc=False：未禁用异步输出处理。
- max_num_batched_tokens=None：未指定最大批处理令牌数。
- max_num_seqs=None：未指定最大序列数。
- max_num_partial_prefills=1：最大部分预填充数量为 1。
- max_long_partial_prefills=1：最大长部分预填充数量为 1。
- long_prefill_token_threshold=0：长预填充令牌阈值为 0。
- num_lookahead_slots=0：前瞻槽数量为 0。
- scheduler_delay_factor=0.0：调度器延迟因子为 0.0。
- preemption_mode=None：未指定抢占模式。
- num_scheduler_steps=1：调度器步数为 1。
- multi_step_stream_outputs=True：启用多步流式输出。
- scheduling_policy='fcfs'：调度策略为先来先服务（First Come, First Served）。
- enable_chunked_prefill=None：未明确是否启用分块预填充。
- disable_chunked_mm_input=False：未禁用分块多模态输入。
- scheduler_cls='vllm.core.scheduler.Scheduler'：调度器类为 vllm.core.scheduler.Scheduler。
- override_neuron_config=None：未覆盖神经元配置。
- override_pooler_config=None：未覆盖池化器配置。
- compilation_config=None：未指定编译配置。
- kv_transfer_config=None：未指定键值传输配置。
- worker_cls='auto'：工作线程类自动选择。
- worker_extension_cls=''：工作线程扩展类为空。
- generation_config='auto'：生成配置自动检测。
- override_generation_config=None：未覆盖生成配置。
- enable_sleep_mode=False：未启用睡眠模式。
- additional_config=None：未指定额外配置。
- enable_reasoning=False：未启用推理功能。
- disable_cascade_attn=False：未禁用级联注意力。
- disable_log_requests=False：未禁用请求日志记录。
- max_log_len=None：未指定最大日志长度。
- disable_fastapi_docs=False：未禁用 FastAPI 文档。
- enable_prompt_tokens_details=False：未启用提示令牌详细信息。
- enable_server_load_tracking=False：未启用服务器负载跟踪。
- dispatch_function=<function ServeSubcommand.cmd at 0x7caae99e3100>：调度函数为 ServeSubcommand.cmd 函数（内存地址 0x7caae99e3100）。