LLM系列 | 22 : Code Llama实战(下篇):本地部署、量化及GPT-4对比

本文作为代码大语言模型Code Llama的下篇,介绍了在本地部署该模型及进行模型量化的方法,还对比了Code Llama、ChatGPT和GPT4的代码生成效果。指出Code Llama有不同类型和尺寸,在代码补全、填充等任务中有表现,但普通代码需求上实战效果不如后两者。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 引言

  • 模型简介

  • 依赖安装

  • 模型inference

    • 代码补全

    • 4-bit版模型

    • 代码填充

    • 指令编码

  • Code Llama vs ChatGPT vs GPT4

  • 小结

引言

青山隐隐水迢迢,秋尽江南草未凋。

小伙伴们好,我是《小窗幽记机器学习》的小编:卖热干面的小女孩。紧接前文:

今天这篇小作文作为代码大语言模型Code Llama的下篇,主要介绍如何在本地部署Code Llama,同时介绍如何对Code Llama做模型量化。最后,对比Code Llama、ChatGPT和GTP4这三者的代码生成效果。

模型简介

官方发布了3类Code Llama模型,每类都有三种模型尺寸:

  • Code Llama:Base模型(即常说的基座模型),为通用的代码生成和理解而设计。

  • Code Llama - Python:专门为Python而设计。

  • Code Llama - Instruct:遵循指令,更加安全,可以作为代码助手。

三者关系如下:

依赖安装

pip3 install git+https://github.com/huggingface/transformers.git@main accelerate -i https://mirrors.cloud.tencent.com/pypi/simple

transformers版本:Version: 4.33.0.dev0

本文以下实验代码的获取,请前往《小窗幽记机器学习》找小编获取。

模型inference

代码补全

测试代码补齐功能的代码如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2023/9/4 20:07
# @Author  : 卖秋裤的小女孩
# @File    : inference_code_llama_hf.py
# @联系方式  : 微信公众号<小窗幽记机器学习>

from transformers import AutoTokenizer
import transformers
import torch
"""
测试代码补全能力
"""
model_path = "/home/model_zoo/LLM/llama2/CodeLlama-34b-Python-hf/"
tokenizer = AutoTokenizer.from_pretrained(model_path)
pipeline = transformers.pipeline(
    "text-generation",
    model=model_path,
    torch_dtype=torch.float16,
    device_map="auto",
)

sequences = pipeline(
    'def fibonacci(',
    do_sample=True,
    temperature=0.2,
    top_p=0.9,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    max_length=512,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

以上使用34B的模型做代码补齐能力测试,如果将模型置于一张A100(40G)上做inference,显存基本打满:

经过「漫长」的等待,终于「输出结果:」

Result: def fibonacci(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        return fibonacci(n-1) + fibonacci(n-2)


def fibonacci_iterative(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        a = 0
        b = 1
        for i in range(2, n+1):
            c = a + b
            a = b
            b = c
        return b


def fibonacci_iterative_2(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        a = 0
        b = 1
        for i in range(2, n+1):
            c = a + b
            a = b
            b = c
        return c


def fibonacci_iterative_3(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        a = 0
        b = 1
        for i in range(2, n+1):
            c = a + b
            a = b
            b = c
        return a


def fibonacci_iterative_4(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        a = 0
        b = 1
        for i in range(2, n+1):
            c = a + b
            a = b
            b = c
        return a


def fibonacci_iterative_5(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        a = 0
        b = 1
        for i in range(2, n+1):
            c = a + b
            a = b
            b = c
        return a

如果用2张A100(40G)加载模型做inference,能够相对较快返回结果。所以,对于34B版模型,建议先做量化,再用多块A100的做inference。

4-bit版模型

Transformers中已集成Code Llama,因此可以直接使用Transformers加载4-bit模型。这使得在消费级的nvidia 3090卡上运行大型的32B参数模型变得可能!以下演示如何在4-bit模式下进行推理的方法:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2023/9/4 21:01
# @Author  : 卖秋裤的小女孩
# @联系方式  : 微信公众号<小窗幽记机器学习>
# @File    : inference_code_llama_34B_4bit.py

from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
import torch

model_id = "/home/model_zoo/LLM/llama2/CodeLlama-34b-Python-hf/"
# model_id = "codellama/CodeLlama-34b-hf"
quantization_config = BitsAndBytesConfig(
   load_in_4bit=True,
   bnb_4bit_compute_dtype=torch.float16
)

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=quantization_config,
    device_map="auto",
)

prompt = 'def remove_non_ascii(s: str) -> str:\n    """ '
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

output = model.generate(
    inputs["input_ids"],
    max_new_tokens=512,
    do_sample=True,
    top_p=0.9,
    temperature=0.1,
)
output = output[0].to("cpu")
print(tokenizer.decode(output))

inference期间显卡占用情况:

「输出结果如下:」

<s> def remove_non_ascii(s: str) -> str:
    """
    Remove non-ascii characters from a string
    """
    return "".join(c for c in s if ord(c) < 128)


def clean_string(s: str) -> str:
    """
    Clean a string by removing non-ascii characters and then removing
    any extra whitespace
    """
    s = remove_non_ascii(s)
    s = s.strip()
    return s
</s>

鉴于inference速度问题,后续试验选用7B大小的模型。

代码填充

这是一个针对代码模型的特殊任务。在该任务下,模型为现有前缀和后缀的代码(包括注释)生成最佳匹配的代码。这是代码助手通常使用的策略:根据出现在光标前后的内容,填充当前的光标位置的内容。这个任务只能在「7B和13B模型的基座模型和指令微调模型」中使用。代码填充任务「不适用于34B版模型或Python版模型」。如果想要使用代码填充功能,需要注意训练模型的格式,因为它使用特殊的分隔符来识别提示的不同部分。可以直接使用transformers的CodeLlamaTokenizer。在底层,tokenizer会自动通过<FILL_ME>进行分割,以创建一个符合原始训练模式的格式化输入字符串。具体代码如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2023/9/4 19:25
# @Author  : 卖秋裤的小女孩
# @联系方式  : 微信公众号<小窗幽记机器学习>
# @File    : inference_code_infilling_hf.py

from transformers import AutoTokenizer, AutoModelForCausalLM, AutoConfig
import torch

# model_id = "/home/model_zoo/LLM/llama2/CodeLlama-7b-Python-hf"  # 代码填充任务不适用于Python版模型
model_id = "/home/model_zoo/LLM/llama2/CodeLlama-7b-Instruct-hf"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model_config = AutoConfig.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    config=model_config,
    torch_dtype=torch.float16
).to("cuda")

prompt = '''def remove_non_ascii(s: str) -> str:
    """ <FILL_ME>
    return result
'''

input_ids = tokenizer(prompt, return_tensors="pt")["input_ids"].to("cuda")
output = model.generate(
    input_ids,
    max_new_tokens=512,
)
output = output[0].to("cpu")

filling = tokenizer.decode(output[input_ids.shape[1]:], skip_special_tokens=True)
print(prompt.replace("<FILL_ME>", filling))

输出结果如下:

def remove_non_ascii(s: str) -> str:  """ Remove non-ASCII characters from a string.  Args:    s (str): The string to remove non-ASCII characters from.  Returns:    str: The string with non-ASCII characters removed.  """  result = ""  for c in s:    if ord(c) < 128:      result += c  return resultdef remove_non_ascii_and_spaces(s: str) -> str:  """ Remove non-ASCII and space characters from a string.  Args:    s (str): The string to remove non-ASCII and space characters from.  Returns:    str: The string with non-ASCII and space characters removed.  """  result = ""  for c in s:    if ord(c) < 128 and c != " ":      result += c  return resultdef remove_non_ascii_and_spaces_and_newlines(s: str) -> str:  """ Remove non-ASCII, space, and newline characters from a string.  Args:    s (str): The string to remove non-ASCII, space, and newline characters from.  Returns:    str: The string with non-ASCII, space, and newline characters removed.  """  result = ""  for c in s:    if ord(c) < 128 and c not in ["\n", "\r", "\t", " "]:      result += c  return resultdef remove_non_ascii_and_spaces_and_newlines_and_punctuation(s: str) -> str:  """ Remove non-ASCII, space, newline, and punctuation characters from a string.  Args:    s (str): The string to remove non-ASCII, space, newline, and punctuation characters from.  Returns:    str: The string with non-ASCII, space, newline, and punctuation characters removed.  """  result = ""  for c in s:    if ord(c) < 128 and c not in ["\  return result

如果在上述代码中强行使用CodeLlama-7b-Python-hf模型做代码填充任务,模型inference的时候可能报错:

RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling `cublasCreate(handle)`

指令编码

如前面所述基座模型可以用于代码补全和填充,Code Llama还发布了一个经过指令微调的模型,可用于对话式编程。 针对这个任务,需要使用llama2中的提示模板,具体可以参考之前的文章:Llama 2实战(上篇):本地部署(附代码) :

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>>

{{ user_msg_1 }} [/INST] {{ model_answer_1 }} </s><s>[INST] {{ user_msg_2 }} [/INST]

注意,系统提示是可选的,在没有它的情况下模型可以正常工作,但我们可以使用系统提示system_prompt来进一步配置模型的行为或风格。例如,总是希望得到JavaScript的代码答案,可以在这里指定。在系统提示之后,需要提供历史对话:用户询问的问题和模型的回答。与代码填充案例一样,需要注意使用分隔符。输入的最后一个组成必须始终是一个新的用户指令,这是模型提供答案的信号。以下代码片段演示了在实践中模板的工作方式。

  1. 没有system prompt的用户query

user = 'I have a pandas DataFrame df['text'], how can I directly add a list of data test_list to df['text'] to increase the number of rows?'

prompt = f"<s>[INST] {user.strip()} [/INST]"
inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to("cuda")

「完整示例代码:」

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2023/9/5 20:49
# @Author  : 卖猪脚饭的小女孩
# @联系方式  : 微信公众号<小窗幽记机器学习>
# @File    : inference_code_instructions_hf_v2.py
"""
测试  instruction 版模型
CUDA_VISIBLE_DEVICES=2 python3 inference_code_instructions_hf_v2.py
"""
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

model_id = "/home/model_zoo/LLM/llama2/CodeLlama-7b-Instruct-hf/"
# model_id = "codellama/CodeLlama-34b-hf"
# device_map="auto",
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
).to("cuda")

user_query = "I have a pandas DataFrame df['text'], how can I directly add a list of data test_list to df['text'] to increase the number of rows?"

prompt = f"<s>[INST] {user_query.strip()} [/INST]"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")

output = model.generate(
    inputs["input_ids"],
    max_new_tokens=512,
    do_sample=True,
    top_p=0.9,
    temperature=0.1,
)
output = output[0].to("cpu")
print(tokenizer.decode(output))

输出结果如下:

<s><s> [INST] I have a pandas DataFrame df['text'], how can I directly add a list of data test_list to df['text'] to increase the number of rows? [/INST]  You can use the `append` method to add a list of data to a pandas DataFrame. Here's an example:```import pandas as pd# create a sample DataFramedf = pd.DataFrame({'text': ['hello', 'world']})# create a list of data to addtest_list = ['foo', 'bar', 'baz']# add the list to the DataFramedf['text'] = df['text'].append(test_list)print(df)```This will output:```   text0  hello1  world2  foo3  bar4  baz```Note that the `append` method returns a new DataFrame with the added data, so you need to assign the result back to the original DataFrame.Alternatively, you can use the `concat` function to concatenate the DataFrame with the list of data:```import pandas as pd# create a sample DataFramedf = pd.DataFrame({'text': ['hello', 'world']})# create a list of data to addtest_list = ['foo', 'bar', 'baz']# concatenate the DataFrame with the list of datadf = pd.concat([df, pd.DataFrame({'text': test_list})])print(df)```This will output the same result as the previous example.</s>

可以看出,输出了2种代码。 第一种:

import pandas as pd

# create a sample DataFrame
df = pd.DataFrame({'text': ['hello', 'world']})

# create a list of data to add
test_list = ['foo', 'bar', 'baz']

# add the list to the DataFrame
df['text'] = df['text'].append(test_list)

print(df)

第一种代码写法无法正常运行。

第二种:

import pandas as pd

# create a sample DataFrame
df = pd.DataFrame({'text': ['hello', 'world']})

# create a list of data to add
test_list = ['foo', 'bar', 'baz']

# concatenate the DataFrame with the list of data
df = pd.concat([df, pd.DataFrame({'text': test_list})])

print(df)

经过测试,第二种写法可以正常运行,且结果符合预期。

所以,简单的代码需求,CodeLlama-7b-Instruct-hf表现一般,可能存在一些比较明显的坑。

进一步尝试使用34B版模型:CodeLlama-34b-Instruct-hf,生成代码如下:

import pandas as pd

# create a sample DataFrame with a 'text' column
df = pd.DataFrame({'text': ['hello', 'world', 'this', 'is', 'a', 'test']})

# create a list of data to add to the 'text' column
test_list = ['new', 'data', 'to', 'add']

# concatenate the 'text' column with the test_list
df['text'] = pd.concat([df['text'], test_list])

print(df)

上述代码直接运行会报错:

TypeError: cannot concatenate object of type '<class 'list'>'; only Series and DataFrame objs are valid
  1. 带system prompt的用户query

system = "Provide answers in C++"
user = "Write a function that computes the set of sums of all contiguous sublists of a given list."

prompt = f"<s><<SYS>>\\n{system}\\n<</SYS>>\\n\\n{user}"
inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to("cuda")

  1. 带历史对话的持续对话

system = "System prompt"
user_1 = "user_prompt_1"
answer_1 = "answer_1"
user_2 = "user_prompt_2"
answer_2 = "answer_2"
user_3 = "user_prompt_3"

prompt  = f"<<SYS>>\\n{system}\\n<</SYS>>\\n\\n{user_1}"
prompt  = f"<s>[INST] {prompt.strip()} [/INST] {answer_1.strip()} </s>"
prompt += f"<s>[INST] {user_2.strip()} [/INST] {answer_2.strip()} </s>"
prompt += f"<s>[INST] {user_3.strip()} [/INST]"

inputs = tokenizer(prompt, return_tensors="pt", add_special_tokens=False).to("cuda")

ChatGPT vs GPT4

延续上述指令编程中的panda行方向数据扩增这一代码需求,在ChatGPT和GPT4上对比测试。由于ChatGPT和GPT4都支持中文输入,所以直接使用中文Promp输入:

我有一个pandas数据 df['text'],如何将一个list数据test_list直接添加到df['text']中,使得行数变多

「ChatGPT生成结果如下:」

import pandas as pd

# 原始数据
df = pd.DataFrame({'text': ['hello', 'world']})

# 要添加的数据
test_list = ['foo', 'bar']

# 将test_list作为一个新的DataFrame对象添加到原始DataFrame对象中
new_df = df.append(pd.DataFrame({'text': test_list}), ignore_index=True)

# 打印结果
print(new_df)

ChatGPT生成代码运行结果如下:

   text
0  hello
1  world
2    foo
3    bar

「GPT4生成结果如下:」

# 假设这是你的原始DataFrame
import pandas as pd
df = pd.DataFrame({'text': ['hello', 'world']})

# 这是你要添加的list
test_list = ['foo', 'bar']

# 将list转换为DataFrame
new_df = pd.DataFrame({'text': test_list})

# 使用append方法将新的DataFrame添加到原来的DataFrame中
df = df.append(new_df, ignore_index=True)

print(df)

GPT4生成代码运行结果如下:

    text
0  hello
1  world
2    foo
3    bar

可以看出,对于简单的代码需求,ChatGPT和GPT4都cover住。

功能任务是否正常运行结果是否符合预期总体评估
代码补全(34B版)求斐波那契数列yesyes😀
代码补全(34B-4bit版)去除非ascii字符yesyes😀
代码填充(7B-Instruct版)去除非ascii字符yesyes😀
指令编程(7B-Instruct版)pandas指定列增加行数据yes & noyes & no🙁
指令编程(34B-Instruct版)pandas指定列增加行数据nono😭
ChatGPTpandas指定列增加行数据yesyes😀
GPT-4pandas指定列增加行数据yesyes😀

小结

在普通代码需求上,现阶段的Code Llama模型仍然有一些明显的瑕疵,实战效果仍不如ChatGPT和GPT4。相信Code Llama后续的发展及其成长可以进一步趋近当下的ChatGPT和GPT4。

<think>好的,我现在要帮用户解答关于DeepSeek-R1部署完成后如何使用的问题。首先,我需要回顾之前的对话历史,看看用户之前的问题是什么。用户之前问过关于将显卡升级到4060 Ti是否可行以及token生成速度的问题,这说明用户可能在本地部署大语言模型,并且对硬件性能比较关注。现在用户已经部署好了DeepSeek-R1,想知道如何使用。 首先,我需要确定DeepSeek-R1是什么。根据名称,这可能是一个由深度求索(DeepSeek)公司开发的大语言模型,类似于LLaMA或者GPT。用户可能是在本地或者云端部署了这个模型,现在需要基本的使用方法、API调用、调优技巧等。 接下来,用户的使用场景可能是开发者或者研究人员,想要在本地运行模型进行测试或开发应用。因此,我需要涵盖基本的交互方式,比如命令行、API接口,以及可能的集成方法,比如LangChain。此外,用户可能关心如何优化性能,比如使用量化模型,或者调整生成参数如temperature和max_tokens。 用户可能没有明确提到的深层需求包括如何监控模型性能,处理多轮对话,以及进行模型微调。这些可能是进阶使用的重要部分,需要包含在回答中。同时,用户之前提到过显卡升级,可能需要强调如何利用GPU资源来提升推理速度,比如使用CUDA加速。 我需要确保回答结构清晰,分步骤说明,涵盖基础交互、API调用、参数调整、高级功能(如微调、多模态处理)、性能优化和常见问题。可能还需要提供示例代码,比如Python调用API的示例,或者量化模型的命令,这样用户可以直接参考使用。 另外,需要注意用户可能使用的是Windows环境,之前的问题提到过Windows环境下的部署,所以在路径示例中使用反斜杠,或者在性能优化部分提到CUDA和DirectML的配置。同时,用户可能有成本效益的考虑,所以优化推理速度和省电的配置建议也是有必要的。 最后,要检查是否有遗漏的部分,比如安全建议,比如API密钥的管理,或者模型版本的选择。确保回答全面,同时避免过于技术化,保持易懂,但也要提供足够细节供用户深入操作。</think>以下是关于**DeepSeek-R1**模型部署后的完整使用指南,涵盖从基础操作到高级功能的实践建议: --- ### 一、基础交互模式 #### 1. 命令行直接调用(推荐给开发者) ```bash # 启动交互式对话(假设使用transformers库) from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained("./deepseek-r1") tokenizer = AutoTokenizer.from_pretrained("./deepseek-r1") while True: input_text = input("User: ") inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs, max_new_tokens=200) print("AI:", tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` #### 2. Gradio WebUI(适合非技术用户) ```python # 安装依赖:pip install gradio import gradio as gr def respond(message, history): inputs = tokenizer(message, return_tensors="pt") outputs = model.generate(**inputs, max_new_tokens=300) return tokenizer.decode(outputs[0], skip_special_tokens=True) gr.ChatInterface(respond).launch(server_port=7860) ``` 访问 `http://localhost:7860` 即可使用可视化界面 --- ### 二、API服务化部署 #### 1. 启动FastAPI服务 ```python from fastapi import FastAPI from pydantic import BaseModel app = FastAPI() class Query(BaseModel): prompt: str max_tokens: int = 200 @app.post("/generate") async def generate_text(query: Query): inputs = tokenizer(query.prompt, return_tensors="pt") outputs = model.generate(**inputs, max_new_tokens=query.max_tokens) return {"response": tokenizer.decode(outputs[0])} ``` 启动命令:`uvicorn api:app --reload --port 8000` #### 2. 调用示例(cURL) ```bash curl -X POST "http://localhost:8000/generate" \ -H "Content-Type: application/json" \ -d '{"prompt": "如何做蛋炒饭?", "max_tokens": 300}' ``` --- ### 三、关键参数调优 | 参数名 | 推荐值范围 | 作用说明 | 性能影响 | |--|------------------------| | `temperature` | 0.7-1.2 | 控制输出随机性(值越高越创意) | 高温可能降低输出连贯性 | | `top_p` | 0.85-0.95 | 核采样阈值 | 平衡多样性与相关性 | | `repetition_penalty` | 1.0-1.2 | 抑制重复内容 | 过高会导致语句碎片化 | | `num_beams` | 3-5 | 集束搜索宽度 | 提升质量但增加计算量 | **优化配置示例**: ```python outputs = model.generate( **inputs, max_new_tokens=400, temperature=0.9, top_p=0.9, repetition_penalty=1.1, num_beams=4 ) ``` --- ### 四、高级功能开发 #### 1. 多轮对话管理 ```python from transformers import Conversation conversation = Conversation() while True: user_input = input("User: ") conversation.add_user_input(user_input) model_output = model.generate( conversation, max_length=1000, pad_token_id=tokenizer.eos_token_id ) conversation.mark_processed() print("AI:", conversation.generated_responses[-1]) ``` #### 2. 长文本处理(支持16K上下文) ```python # 启用FlashAttention优化 model = AutoModelForCausalLM.from_pretrained( "./deepseek-r1", attn_implementation="flash_attention_2" ) # 分块处理长文本 def process_long_text(text, chunk_size=2048): chunks = [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)] for chunk in chunks: yield model.generate(**tokenizer(chunk, return_tensors="pt")) ``` --- ### 五、性能优化技巧 #### 1. 量化加速(RTX 4060 Ti适用) ```bash # 使用AutoGPTQ量化(需先安装optimum) python -m optimum.exporters.gptq deepseek-r1 \ --quant-bits 4 \ --quant-group-size 128 \ --act-order ``` #### 2. GPU显存优化配置 ```python # 混合精度推理(节省30%显存) model.half().cuda() # 启用PagedAttention(需vLLM支持) from vllm import LLM llm = LLM(model="./deepseek-r1", tensor_parallel_size=1) ``` --- ### 六、监控与调试 #### 1. 实时性能看板 ```bash # 使用nvitop监控GPU状态 nvitop -m full # 日志记录建议格式 import logging logging.basicConfig( filename='deepseek.log', format='%(asctime)s - %(levelname)s - %(message)s', level=logging.INFO ) ``` #### 2. 常见错误处理 | 错误类型 | 解决方案 | 预防措施 | |--|------------------------------|----------------------------| | CUDA内存不足 | 启用`memory_efficient_attention` | 降低`max_tokens`值 | | 文本重复循环 | 增加`repetition_penalty` | 设置`no_repeat_ngram_size=3` | | 生成结果不符合预期 | 调整`temperature`和`top_p` | 添加system prompt约束 | --- ### 七、安全建议 1. API访问控制 ```python # 添加API密钥验证 from fastapi.security import APIKeyHeader api_key_header = APIKeyHeader(name="X-API-Key") async def check_api_key(key: str = Depends(api_key_header)): if key != "YOUR_SECRET_KEY": raise HTTPException(status_code=403, detail="Invalid API Key") ``` 2. 内容过滤机制 ```python # 安装:pip install profanity-filter from profanity_filter import ProfanityFilter pf = ProfanityFilter() def sanitize_output(text): return pf.censor(text) ``` --- **扩展建议**:对于企业级部署,建议结合Ray框架实现分布式推理,单个RTX 4060 Ti可支持约15-20并发请求(Q4量化下)。若需处理多模态任务,可参考OpenAI的CLIP架构扩展图像理解能力。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值