【vllm server 参数】

这是一段 vllmapi_server.py 记录的日志信息,展示了程序启动时传入的命令行参数(Namespace),下面为你详细解释这些参数的含义:

  1. 基本运行参数

    • subparser='serve':表示当前运行的子命令是 serve,即启动服务。
    • model_tag='/root/vllm/Qwen/Qwen3-14B-AWQ':模型的标签,指定了模型的路径或标识。
    • config='':配置文件路径,这里为空表示未指定特定配置文件。
    • host='0.0.0.0':服务监听的主机地址,0.0.0.0 表示监听所有可用网络接口。
    • port=8000:服务监听的端口号为 8000
    • uvicorn_log_level='info'uvicorn 日志级别设置为 info
    • disable_uvicorn_access_log=False:未禁用 uvicorn 的访问日志记录。
  2. 网络安全和跨域设置

    • allow_credentials=False:不允许携带凭证(如 cookies)。
    • allowed_origins=['*']:允许所有来源的跨域请求。
    • allowed_methods=['*']:允许所有 HTTP 方法的跨域请求。
    • allowed_headers=['*']:允许所有请求头的跨域请求。
    • api_key=“123456'':设置 API 密钥,用于身份验证。
  3. 模型相关参数

    • lora_modules=None:未指定 LoRA(Low-Rank Adaptation)模块。
    • prompt_adapters=None:未指定提示适配器。
    • chat_template=None:未指定聊天模板。
    • chat_template_content_format='auto':聊天模板内容格式自动检测。
    • response_role='assistant':响应角色为 assistant
    • model='/root/vllm/Qwen/Qwen3-14B-AWQ':指定要加载的模型路径。
    • task='auto':任务类型自动检测。
    • tokenizer=None:未指定分词器,可能使用模型默认的分词器。
    • hf_config_path=None:未指定 Hugging Face 配置文件路径。
    • skip_tokenizer_init=False:未跳过分词器初始化。
    • revision=None:未指定模型版本。
    • code_revision=None:未指定代码版本。
    • tokenizer_revision=None:未指定分词器版本。
    • tokenizer_mode='auto':分词器模式自动。
    • trust_remote_code=False:不信任远程代码。
    • allowed_local_media_path=None:未指定允许的本地媒体路径。
    • load_format='auto':模型加载格式自动检测。
    • download_dir=None:未指定下载目录。
    • model_loader_extra_config={}:模型加载器的额外配置,这里为空字典。
    • use_tqdm_on_load=True:加载模型时使用 tqdm 进度条。
    • config_format=<ConfigFormat.AUTO: 'auto'>:配置格式自动检测。
    • dtype='auto':数据类型自动检测。
    • max_model_len=None:未指定模型最大长度。
    • guided_decoding_backend='auto':引导解码后端自动选择。
    • reasoning_parser=None:未指定推理解析器。
    • logits_processor_pattern=None:未指定 logits 处理器模式。
    • model_impl='auto':模型实现自动选择。
  4. 分布式相关参数

    • distributed_executor_backend=None:未指定分布式执行器后端。
    • pipeline_parallel_size=1:流水线并行大小为 1
    • tensor_parallel_size=2:张量并行大小为 2
    • data_parallel_size=1:数据并行大小为 1
    • enable_expert_parallel=False:未启用专家并行。
    • max_parallel_loading_workers=None:未指定最大并行加载工作线程数。
    • ray_workers_use_nsight=Falseray 工作线程不使用 Nsight
    • disable_custom_all_reduce=False:未禁用自定义的全规约操作。
  5. 内存和缓存相关参数

    • block_size=None:未指定块大小。
    • gpu_memory_utilization=0.9:GPU 内存利用率设置为 0.9
    • swap_space=4:交换空间大小为 4(单位未明确,可能是 GB 等)。
    • kv_cache_dtype='auto':键值缓存数据类型自动检测。
    • num_gpu_blocks_override=None:未覆盖 GPU 块数量。
    • enable_prefix_caching=None:未明确是否启用前缀缓存。
    • prefix_caching_hash_algo='builtin':前缀缓存哈希算法为内置算法。
    • cpu_offload_gb=128.0:启用 CPU 卸载,设置卸载到 CPU 的内存大小为 128GB
    • calculate_kv_scales=False:未计算键值缩放。
    • disable_sliding_window=False:未禁用滑动窗口。
    • use_v2_block_manager=True:使用版本 2 的块管理器。
  6. 随机数和统计相关参数

    • seed=None:未指定随机数种子。
    • max_logprobs=20:最大对数概率设置为 20
    • disable_log_stats=False:未禁用日志统计。
  7. 量化和缩放相关参数

    • quantization=None:未指定量化方式。
    • rope_scaling=None:未指定 RoPE(Rotary Position Embedding)缩放方式。
    • rope_theta=None:未指定 RoPE 的 theta 参数。
  8. Hugging Face 相关参数

    • hf_token=None:未指定 Hugging Face 令牌。
    • hf_overrides=None:未指定对 Hugging Face 配置的覆盖。
  9. 其他参数

    • enforce_eager=False:未强制使用 eager 模式。
    • max_seq_len_to_capture=8192:最大捕获序列长度为 8192
    • tokenizer_pool_size=0:分词器池大小为 0
    • tokenizer_pool_type='ray':分词器池类型为 ray
    • tokenizer_pool_extra_config={}:分词器池的额外配置,这里为空字典。
    • limit_mm_per_prompt={}:每个提示的多模态限制,这里为空字典。
    • mm_processor_kwargs=None:多模态处理器的关键字参数,这里为 None
    • disable_mm_preprocessor_cache=False:未禁用多模态预处理器缓存。
    • enable_lora=None:未明确是否启用 LoRA。
    • enable_lora_bias=False:未启用 LoRA 偏差。
    • max_loras=1:最大 LoRA 数量为 1
    • max_lora_rank=16:最大 LoRA 秩为 16
    • lora_extra_vocab_size=256:LoRA 额外词汇表大小为 256
    • lora_dtype='auto':LoRA 数据类型自动检测。
    • long_lora_scaling_factors=None:未指定长 LoRA 缩放因子。
    • max_cpu_loras=None:未指定最大 CPU 上的 LoRA 数量。
    • fully_sharded_loras=False:未启用全分片 LoRA。
    • enable_prompt_adapter=None:未明确是否启用提示适配器。
    • max_prompt_adapters=1:最大提示适配器数量为 1
    • max_prompt_adapter_token=0:最大提示适配器令牌数为 0
    • device='auto':设备自动选择。
    • speculative_config=None:未指定推测配置。
    • ignore_patterns=[]:忽略模式列表为空。
    • served_model_name=['Qwen3-14B-AWQ']:提供服务的模型名称为 Qwen3-14B-AWQ
    • qlora_adapter_name_or_path=None:未指定 QLoRA 适配器名称或路径。
    • show_hidden_metrics_for_version=None:未指定显示隐藏指标的版本。
    • otlp_traces_endpoint=None:未指定 OpenTelemetry Protocol (OTLP) 追踪端点。
    • collect_detailed_traces=None:未明确是否收集详细追踪信息。
    • disable_async_output_proc=False:未禁用异步输出处理。
    • max_num_batched_tokens=None:未指定最大批处理令牌数。
    • max_num_seqs=None:未指定最大序列数。
    • max_num_partial_prefills=1:最大部分预填充数量为 1
    • max_long_partial_prefills=1:最大长部分预填充数量为 1
    • long_prefill_token_threshold=0:长预填充令牌阈值为 0
    • num_lookahead_slots=0:前瞻槽数量为 0
    • scheduler_delay_factor=0.0:调度器延迟因子为 0.0
    • preemption_mode=None:未指定抢占模式。
    • num_scheduler_steps=1:调度器步数为 1
    • multi_step_stream_outputs=True:启用多步流式输出。
    • scheduling_policy='fcfs':调度策略为先来先服务(First Come, First Served)。
    • enable_chunked_prefill=None:未明确是否启用分块预填充。
    • disable_chunked_mm_input=False:未禁用分块多模态输入。
    • scheduler_cls='vllm.core.scheduler.Scheduler':调度器类为 vllm.core.scheduler.Scheduler
    • override_neuron_config=None:未覆盖神经元配置。
    • override_pooler_config=None:未覆盖池化器配置。
    • compilation_config=None:未指定编译配置。
    • kv_transfer_config=None:未指定键值传输配置。
    • worker_cls='auto':工作线程类自动选择。
    • worker_extension_cls='':工作线程扩展类为空。
    • generation_config='auto':生成配置自动检测。
    • override_generation_config=None:未覆盖生成配置。
    • enable_sleep_mode=False:未启用睡眠模式。
    • additional_config=None:未指定额外配置。
    • enable_reasoning=False:未启用推理功能。
    • disable_cascade_attn=False:未禁用级联注意力。
    • disable_log_requests=False:未禁用请求日志记录。
    • max_log_len=None:未指定最大日志长度。
    • disable_fastapi_docs=False:未禁用 FastAPI 文档。
    • enable_prompt_tokens_details=False:未启用提示令牌详细信息。
    • enable_server_load_tracking=False:未启用服务器负载跟踪。
    • dispatch_function=<function ServeSubcommand.cmd at 0x7caae99e3100>:调度函数为 ServeSubcommand.cmd 函数(内存地址 0x7caae99e3100)。

这些参数共同配置了 vllm 服务的运行方式、模型加载、分布式设置、内存管理、安全设置等多个方面,以满足特定的需求和运行环境。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值