这是一段 vllm
中 api_server.py
记录的日志信息,展示了程序启动时传入的命令行参数(Namespace
),下面为你详细解释这些参数的含义:
-
基本运行参数:
subparser='serve'
:表示当前运行的子命令是serve
,即启动服务。model_tag='/root/vllm/Qwen/Qwen3-14B-AWQ'
:模型的标签,指定了模型的路径或标识。config=''
:配置文件路径,这里为空表示未指定特定配置文件。host='0.0.0.0'
:服务监听的主机地址,0.0.0.0
表示监听所有可用网络接口。port=8000
:服务监听的端口号为8000
。uvicorn_log_level='info'
:uvicorn
日志级别设置为info
。disable_uvicorn_access_log=False
:未禁用uvicorn
的访问日志记录。
-
网络安全和跨域设置:
allow_credentials=False
:不允许携带凭证(如 cookies)。allowed_origins=['*']
:允许所有来源的跨域请求。allowed_methods=['*']
:允许所有 HTTP 方法的跨域请求。allowed_headers=['*']
:允许所有请求头的跨域请求。api_key=“123456''
:设置 API 密钥,用于身份验证。
-
模型相关参数:
lora_modules=None
:未指定 LoRA(Low-Rank Adaptation)模块。prompt_adapters=None
:未指定提示适配器。chat_template=None
:未指定聊天模板。chat_template_content_format='auto'
:聊天模板内容格式自动检测。response_role='assistant'
:响应角色为assistant
。model='/root/vllm/Qwen/Qwen3-14B-AWQ'
:指定要加载的模型路径。task='auto'
:任务类型自动检测。tokenizer=None
:未指定分词器,可能使用模型默认的分词器。hf_config_path=None
:未指定 Hugging Face 配置文件路径。skip_tokenizer_init=False
:未跳过分词器初始化。revision=None
:未指定模型版本。code_revision=None
:未指定代码版本。tokenizer_revision=None
:未指定分词器版本。tokenizer_mode='auto'
:分词器模式自动。trust_remote_code=False
:不信任远程代码。allowed_local_media_path=None
:未指定允许的本地媒体路径。load_format='auto'
:模型加载格式自动检测。download_dir=None
:未指定下载目录。model_loader_extra_config={}
:模型加载器的额外配置,这里为空字典。use_tqdm_on_load=True
:加载模型时使用tqdm
进度条。config_format=<ConfigFormat.AUTO: 'auto'>
:配置格式自动检测。dtype='auto'
:数据类型自动检测。max_model_len=None
:未指定模型最大长度。guided_decoding_backend='auto'
:引导解码后端自动选择。reasoning_parser=None
:未指定推理解析器。logits_processor_pattern=None
:未指定 logits 处理器模式。model_impl='auto'
:模型实现自动选择。
-
分布式相关参数:
distributed_executor_backend=None
:未指定分布式执行器后端。pipeline_parallel_size=1
:流水线并行大小为1
。tensor_parallel_size=2
:张量并行大小为2
。data_parallel_size=1
:数据并行大小为1
。enable_expert_parallel=False
:未启用专家并行。max_parallel_loading_workers=None
:未指定最大并行加载工作线程数。ray_workers_use_nsight=False
:ray
工作线程不使用Nsight
。disable_custom_all_reduce=False
:未禁用自定义的全规约操作。
-
内存和缓存相关参数:
block_size=None
:未指定块大小。gpu_memory_utilization=0.9
:GPU 内存利用率设置为0.9
。swap_space=4
:交换空间大小为4
(单位未明确,可能是 GB 等)。kv_cache_dtype='auto'
:键值缓存数据类型自动检测。num_gpu_blocks_override=None
:未覆盖 GPU 块数量。enable_prefix_caching=None
:未明确是否启用前缀缓存。prefix_caching_hash_algo='builtin'
:前缀缓存哈希算法为内置算法。cpu_offload_gb=128.0
:启用 CPU 卸载,设置卸载到 CPU 的内存大小为128GB
。calculate_kv_scales=False
:未计算键值缩放。disable_sliding_window=False
:未禁用滑动窗口。use_v2_block_manager=True
:使用版本 2 的块管理器。
-
随机数和统计相关参数:
seed=None
:未指定随机数种子。max_logprobs=20
:最大对数概率设置为20
。disable_log_stats=False
:未禁用日志统计。
-
量化和缩放相关参数:
quantization=None
:未指定量化方式。rope_scaling=None
:未指定 RoPE(Rotary Position Embedding)缩放方式。rope_theta=None
:未指定 RoPE 的theta
参数。
-
Hugging Face 相关参数:
hf_token=None
:未指定 Hugging Face 令牌。hf_overrides=None
:未指定对 Hugging Face 配置的覆盖。
-
其他参数:
enforce_eager=False
:未强制使用 eager 模式。max_seq_len_to_capture=8192
:最大捕获序列长度为8192
。tokenizer_pool_size=0
:分词器池大小为0
。tokenizer_pool_type='ray'
:分词器池类型为ray
。tokenizer_pool_extra_config={}
:分词器池的额外配置,这里为空字典。limit_mm_per_prompt={}
:每个提示的多模态限制,这里为空字典。mm_processor_kwargs=None
:多模态处理器的关键字参数,这里为None
。disable_mm_preprocessor_cache=False
:未禁用多模态预处理器缓存。enable_lora=None
:未明确是否启用 LoRA。enable_lora_bias=False
:未启用 LoRA 偏差。max_loras=1
:最大 LoRA 数量为1
。max_lora_rank=16
:最大 LoRA 秩为16
。lora_extra_vocab_size=256
:LoRA 额外词汇表大小为256
。lora_dtype='auto'
:LoRA 数据类型自动检测。long_lora_scaling_factors=None
:未指定长 LoRA 缩放因子。max_cpu_loras=None
:未指定最大 CPU 上的 LoRA 数量。fully_sharded_loras=False
:未启用全分片 LoRA。enable_prompt_adapter=None
:未明确是否启用提示适配器。max_prompt_adapters=1
:最大提示适配器数量为1
。max_prompt_adapter_token=0
:最大提示适配器令牌数为0
。device='auto'
:设备自动选择。speculative_config=None
:未指定推测配置。ignore_patterns=[]
:忽略模式列表为空。served_model_name=['Qwen3-14B-AWQ']
:提供服务的模型名称为Qwen3-14B-AWQ
。qlora_adapter_name_or_path=None
:未指定 QLoRA 适配器名称或路径。show_hidden_metrics_for_version=None
:未指定显示隐藏指标的版本。otlp_traces_endpoint=None
:未指定 OpenTelemetry Protocol (OTLP) 追踪端点。collect_detailed_traces=None
:未明确是否收集详细追踪信息。disable_async_output_proc=False
:未禁用异步输出处理。max_num_batched_tokens=None
:未指定最大批处理令牌数。max_num_seqs=None
:未指定最大序列数。max_num_partial_prefills=1
:最大部分预填充数量为1
。max_long_partial_prefills=1
:最大长部分预填充数量为1
。long_prefill_token_threshold=0
:长预填充令牌阈值为0
。num_lookahead_slots=0
:前瞻槽数量为0
。scheduler_delay_factor=0.0
:调度器延迟因子为0.0
。preemption_mode=None
:未指定抢占模式。num_scheduler_steps=1
:调度器步数为1
。multi_step_stream_outputs=True
:启用多步流式输出。scheduling_policy='fcfs'
:调度策略为先来先服务(First Come, First Served)。enable_chunked_prefill=None
:未明确是否启用分块预填充。disable_chunked_mm_input=False
:未禁用分块多模态输入。scheduler_cls='vllm.core.scheduler.Scheduler'
:调度器类为vllm.core.scheduler.Scheduler
。override_neuron_config=None
:未覆盖神经元配置。override_pooler_config=None
:未覆盖池化器配置。compilation_config=None
:未指定编译配置。kv_transfer_config=None
:未指定键值传输配置。worker_cls='auto'
:工作线程类自动选择。worker_extension_cls=''
:工作线程扩展类为空。generation_config='auto'
:生成配置自动检测。override_generation_config=None
:未覆盖生成配置。enable_sleep_mode=False
:未启用睡眠模式。additional_config=None
:未指定额外配置。enable_reasoning=False
:未启用推理功能。disable_cascade_attn=False
:未禁用级联注意力。disable_log_requests=False
:未禁用请求日志记录。max_log_len=None
:未指定最大日志长度。disable_fastapi_docs=False
:未禁用 FastAPI 文档。enable_prompt_tokens_details=False
:未启用提示令牌详细信息。enable_server_load_tracking=False
:未启用服务器负载跟踪。dispatch_function=<function ServeSubcommand.cmd at 0x7caae99e3100>
:调度函数为ServeSubcommand.cmd
函数(内存地址0x7caae99e3100
)。
这些参数共同配置了 vllm
服务的运行方式、模型加载、分布式设置、内存管理、安全设置等多个方面,以满足特定的需求和运行环境。