【AI】实战：用提示词生成机器学习模型评估指标计算代码

一、机器学习模型评估指标简介

1.1 为什么需要评估指标

在机器学习领域，评估指标就像是衡量模型性能的 “尺子”，起着至关重要的作用。通过评估指标，我们能够清晰地了解模型的表现如何，是否达到了我们的预期。

在实际应用中，我们往往会尝试不同的模型或者对同一模型调整不同的参数，这时候评估指标就成为了比较这些模型优劣的关键依据。比如在一个图像分类任务中，我们可能尝试了决策树、支持向量机和神经网络等不同的模型，通过准确率、召回率等评估指标，我们可以直观地看出哪个模型在识别图像类别上表现得更好。只有选择了性能最优的模型，我们的机器学习应用才能在实际场景中发挥出最佳效果，为用户提供准确、可靠的服务。

1.2 常见评估指标介绍

准确率（Accuracy）：指模型预测正确的样本数占总样本数的比例。假设我们有 100 个样本，模型正确预测了 80 个，那么准确率就是 80%。其计算公式为：Accuracy=(TP+TN)/(TP+TN+FP+FN) ，其中 TP 表示真正例（实际为正，预测也为正），TN 表示真负例（实际为负，预测也为负），FP 表示假正例（实际为负，预测为正），FN 表示假负例（实际为正，预测为负）。虽然准确率可以直观地反映模型的整体预测正确程度，但在样本不均衡的情况下，它可能会产生误导。比如在一个样本集中，正样本占 99%，负样本占 1%，如果模型将所有样本都预测为正样本，准确率会很高，但实际上模型并没有很好地对样本进行分类。

精确率（Precision）：也叫查准率，是指在所有被预测为正类的样本中，实际为正类的比例。比如在垃圾邮件分类中，精确率高意味着被模型判定为垃圾邮件的邮件中，真正的垃圾邮件占比大。公式为：Precision=TP/(TP+FP) 。在一些场景中，如医疗诊断中判断患者是否患病，精确率非常重要，如果精确率低，可能会导致健康人被误诊为患病，带来不必要的恐慌和后续检查治疗。

召回率（Recall）：也叫查全率，是指在所有实际为正类的样本中，被模型正确预测为正类的比例。以疾病检测为例，召回率高意味着能够尽可能多地检测出真正患病的患者，减少漏诊的情况。计算公式是：Recall=TP/(TP+FN) 。在很多实际应用中，尤其是对漏检后果比较严重的场景，召回率是一个关键指标。

F1 分数（F1-Score）：是精确率和召回率的调和平均数，用于综合衡量模型在精确率和召回率方面的表现。当我们需要在精确率和召回率之间找到一个平衡点时，F1 分数就非常有用。其公式为：F1 = 2*(Precision*Recall)/(Precision+Recall) 。F1 分数的值越接近 1，说明模型在精确率和召回率上的综合表现越好。

ROC 曲线（Receiver Operating Characteristic Curve）：即受试者工作特征曲线，它以假正例率（FPR）为横坐标，真正例率（TPR）为纵坐标。ROC 曲线展示了在不同分类阈值下，模型的真正例率和假正例率之间的权衡关系。曲线上的每个点对应一个特定的阈值，通过移动阈值，可以得到不同的 TPR 和 FPR 组合。一个好的模型，其 ROC 曲线应该尽量靠近左上角，因为这表示在高真正例率的同时，假正例率很低。

AUC（Area Under Curve）：指的是 ROC 曲线下的面积，它是一个用于衡量二分类模型性能的综合指标。AUC 的值介于 0.5 到 1 之间，AUC 越大，说明模型的分类性能越好。当 AUC 为 0.5 时，意味着模型的预测效果和随机猜测一样；当 AUC 达到 1 时，则表示模型能够完美地区分正类和负类。在比较不同的二分类模型时，AUC 是一个非常常用且有效的指标。

混淆矩阵（Confusion Matrix）：是一个用于展示分类模型预测结果的矩阵，它直观地呈现了模型在各个类别上的预测正确和错误的情况。对于二分类问题，混淆矩阵是一个 2×2 的矩阵，包含 TP、TN、FP、FN 这四个元素。通过混淆矩阵，我们可以清晰地看到模型将正类预测为正类、正类预测为负类、负类预测为正类以及负类预测为负类的样本数量，从而进一步计算出准确率、精确率、召回率等其他评估指标，全面了解模型的性能。

二、提示词与代码生成

2.1 提示词是什么

提示词（Prompt）是用户输入给 AI 模型的指令或问题，它就像是与 AI 沟通的 “密码” ，用于引导 AI 生成符合预期的内容。简单来说，当我们想要 AI 为我们完成特定任务，比如生成一段代码、写一篇文章、回答一个问题时，输入的那段引导性文字就是提示词。

以生成机器学习模型评估指标计算代码为例，“请用 Python 编写计算准确率的代码” 就是一个简单的提示词。AI 模型会根据这个提示词，理解我们的需求，然后生成相应的 Python 代码。提示词在代码生成中起着关键的引导作用，它决定了 AI 生成代码的方向和内容。如果提示词不清晰、不准确，那么生成的代码可能无法满足我们的实际需求，甚至会出现错误。因此，构造有效的提示词是实现准确代码生成的重要前提。

2.2 如何构造有效的提示词

明确需求：在构造提示词时，要尽可能清晰、具体地表达自己的需求，避免模糊和笼统的表述。比如，“写一个机器学习模型评估指标计算代码” 这样的提示词就过于模糊，AI 可能不知道具体要生成哪种评估指标的代码，也不清楚使用什么编程语言。而 “用 Python 编写计算 F1 分数的代码，要求输入参数为真实标签和预测标签” 这样的提示词就明确多了，AI 能够清楚地知道需要完成的任务以及相关的条件和要求。

包含关键信息：将任务中涉及的关键信息融入提示词中，有助于 AI 更准确地生成代码。对于机器学习模型评估指标计算代码，关键信息可能包括评估指标名称、编程语言、数据类型、输入输出要求等。例如，“用 Java 实现一个计算混淆矩阵的函数，输入为两个整数数组分别表示真实类别和预测类别，输出为一个二维整数数组表示混淆矩阵”，这个提示词包含了编程语言（Java）、任务（计算混淆矩阵）、输入数据类型（两个整数数组）和输出数据类型（二维整数数组）等关键信息，能让 AI 生成更符合要求的代码。

提供示例：如果可能的话，在提示词中提供一些示例，能帮助 AI 更好地理解任务和输出格式。比如，在要求生成计算召回率的代码时，可以这样构造提示词：“用 Python 编写计算召回率的代码，假设真实标签为 [1, 0, 1, 1, 0]，预测标签为 [1, 1, 0, 1, 0]，请根据这个示例数据进行代码编写，最后返回计算得到的召回率” 。通过这个示例，AI 能更直观地了解输入数据的形式和计算结果的输出要求。

逐步细化：对于复杂的任务，可以先给出一个宽泛的提示词，然后根据 AI 生成的结果，逐步细化提示词，以获得更准确的代码。例如，一开始提示 “用 Python 编写一个评估机器学习模型的工具”，AI 可能生成一个比较简单通用的框架代码。此时，如果我们希望它具体实现计算多个评估指标，就可以进一步细化提示词为 “在之前生成的代码基础上，添加计算准确率、精确率、召回率和 F1 分数的功能，分别定义函数进行计算，并返回这些指标的值”。这样逐步引导，能让 AI 生成的代码更贴合我们不断明确的需求。

三、使用提示词生成评估指标代码的工具

3.1 介绍常用工具（如 ChatGPT 等）

ChatGPT：由 OpenAI 训练的大型语言模型，具有强大的自然语言处理能力，在代码生成方面表现出色。它能理解多种编程语言的语法和语义，根据用户输入的提示词生成相应的代码。无论是简单的计算函数，还是复杂的机器学习模型评估指标计算代码，ChatGPT 都能快速给出代码示例。例如，当你输入 “用 Python 编写计算 AUC 的代码”，它能迅速生成实现该功能的 Python 代码片段，并且还能对代码进行解释，帮助开发者理解代码逻辑。

GitHub Copilot：这是 GitHub 与 OpenAI 合作开发的 AI 编程助手，它紧密集成在 VS Code 等编辑器中，能实时为开发者提供代码建议和自动补全功能。在生成机器学习模型评估指标计算代码时，它可以根据你在编辑器中编写的上下文代码，智能地生成相关的评估指标计算代码，无缝融入你的开发流程。比如，当你在项目中已经导入了数据处理库，它能基于此生成符合项目风格和需求的评估指标计算代码，大大提高开发效率。

文心一言：百度公司开发的知识增强大语言模型，它具备丰富的知识储备，在代码生成领域也有不错的表现。对于机器学习模型评估指标代码生成任务，文心一言可以结合其对机器学习知识的理解，生成符合行业规范和最佳实践的代码。同时，它还能根据用户的进一步追问，对生成的代码进行优化和完善，比如添加注释、修改代码结构以提高可读性等。

通义千问：阿里云推出的大语言模型，具有多领域的应用能力，包括代码生成。在处理评估指标计算代码生成时，通义千问能针对不同的编程语言和具体的评估指标要求，生成准确的代码。它还支持与阿里云的其他开发工具和服务集成，为开发者提供一站式的开发体验，例如在阿里云的开发环境中直接使用通义千问生成代码并进行调试。

3.2 工具的选择和使用要点

工具选择要点：

- 功能需求：根据自己的实际需求选择工具。如果你只是偶尔需要生成简单的评估指标计算代码，像 ChatGPT 这样功能全面的通用工具就可以满足；如果你是在 GitHub 上进行项目开发，并且需要频繁生成与项目相关的代码，那么 GitHub Copilot 与开发环境的紧密集成会让它成为更合适的选择；如果你对中文语言理解和支持有较高要求，文心一言和通义千问可能更符合你的需求，它们对中文提示词的理解和响应往往更加准确和自然。

- 语言支持：确保所选工具支持你项目中使用的编程语言。不同的工具对各种编程语言的支持程度可能有所不同。例如，某些工具在生成 Python 代码时表现出色，但对于一些小众编程语言可能支持不足。如果你的项目使用了多种编程语言，要综合考虑工具对这些语言的覆盖范围和生成代码的质量。

- 与现有工作流的集成：优先选择能与你现有的开发工具和工作流程无缝集成的工具。比如，如果你主要使用 VS Code 进行开发，GitHub Copilot 就能很好地融入你的开发环境，在代码编辑过程中实时提供帮助；而如果你的项目依赖于阿里云的服务，通义千问与阿里云生态的集成优势就能为你带来更高效的开发体验。

使用要点：

- API 调用方式（如果使用 API）：如果工具提供了 API 供开发者调用，要熟悉其 API 的调用方式。不同工具的 API 在请求格式、参数设置、认证方式等方面都有所不同。以 ChatGPT API 为例，你需要获取有效的 API 密钥，按照其规定的 JSON 格式构建请求体，设置好模型参数、提示词等内容，然后通过 HTTP 请求发送到指定的 API 端点。在调用过程中，要注意处理可能出现的错误，比如网络错误、API 调用频率限制、参数错误等，确保代码的稳定性和可靠性。

- 输入规范：严格遵循工具要求的输入规范构造提示词。不同工具对提示词的格式、长度、语言表达等方面可能有不同的要求。例如，有些工具可能对提示词的长度有限制，超过一定长度可能会截断处理；有些工具对语言表达的准确性和专业性要求较高，模糊或错误的表述可能导致生成的代码不符合预期。所以，在使用工具前，要仔细阅读其文档，了解输入规范，并且在输入提示词时尽量简洁明了、准确无误地表达自己的需求。

- 结果验证：无论使用哪种工具生成代码，都不能完全依赖生成的结果，一定要进行严格的验证。生成的代码可能存在语法错误、逻辑错误或者不符合实际业务需求的情况。你可以通过在本地开发环境中运行代码，检查是否能正确输出预期结果；对于复杂的评估指标计算代码，还可以使用测试数据进行多轮测试，确保代码在各种情况下都能准确运行。同时，要对生成的代码进行安全性和合规性检查，避免引入安全漏洞或违反相关规定的代码。

四、实战：生成准确率计算代码

4.1 编写提示词

为了生成准确率计算代码，我们首先要明确需求。假设我们使用 Python 语言，输入数据为真实标签列表true_labels和预测标签列表pred_labels ，我们可以这样编写提示词：

“用 Python 编写一个函数，函数名为calculate_accuracy，它接受两个参数，分别是真实标签列表true_labels和预测标签列表pred_labels，函数的功能是计算这两个列表的准确率并返回结果。”

这个提示词明确了编程语言（Python）、函数名称、输入参数及其类型，以及函数的具体功能和输出要求，符合构造有效提示词的原则，能够引导代码生成工具准确理解我们的需求，从而生成相应的代码。

4.2 调用工具生成代码

我们选择使用 ChatGPT 来生成代码。打开 ChatGPT 的交互界面，将上述编写好的提示词输入到输入框中，然后点击发送请求。ChatGPT 接收到提示词后，会对其进行分析理解，利用其内部的语言模型和对 Python 语言及机器学习知识的学习，生成满足需求的代码。稍等片刻后，ChatGPT 返回了如下代码：

def calculate_accuracy(true_labels, pred_labels):

correct_count = 0

total_count = len(true_labels)

for i in range(total_count):

if true_labels[i] == pred_labels[i]:

correct_count += 1

accuracy = correct_count / total_count

return accuracy

4.3 代码分析与解释

函数定义：

def calculate_accuracy(true_labels, pred_labels):

这行代码定义了一个名为calculate_accuracy的函数，它接受两个参数true_labels和pred_labels，分别表示真实标签列表和预测标签列表，这与我们在提示词中设定的要求一致。

2. 初始化变量：

correct_count = 0

total_count = len(true_labels)

correct_count用于记录预测正确的样本数量，初始值为 0；total_count通过获取真实标签列表的长度，得到样本的总数。

3. 遍历比较：

for i in range(total_count):

if true_labels[i] == pred_labels[i]:

correct_count += 1

通过for循环遍历样本索引，从 0 到样本总数减 1。在每次循环中，比较真实标签列表和预测标签列表中相同索引位置的元素，如果两者相等，说明该样本预测正确，将correct_count加 1。

4. 计算准确率并返回：

accuracy = correct_count / total_count

return accuracy

计算准确率，即预测正确的样本数除以总样本数，得到准确率的值。最后，使用return语句返回计算得到的准确率，这样调用函数时就能获取到计算结果，完成整个准确率计算的功能实现。

五、实战：生成精确率与召回率计算代码

5.1 提示词设计

精确率和召回率是评估分类模型性能的重要指标，为了生成相应的计算代码，我们精心设计提示词。以 Python 语言为例，假设输入数据为真实标签列表true_labels和预测标签列表pred_labels ，提示词如下：

“用 Python 编写两个函数，一个函数名为calculate_precision，另一个函数名为calculate_recall。calculate_precision函数接受真实标签列表true_labels和预测标签列表pred_labels作为参数，其功能是计算这两个列表的精确率并返回结果；calculate_recall函数同样接受这两个参数，用于计算召回率并返回结果。”

这个提示词明确了编程语言（Python）、函数名称、输入参数及其类型，以及每个函数具体的功能和输出要求。通过清晰准确地表达需求，能够引导代码生成工具理解我们的意图，从而生成符合要求的精确率和召回率计算代码。

5.2 生成与解读代码

我们依旧选择 ChatGPT 来生成代码。将上述提示词输入到 ChatGPT 交互界面后，得到如下代码：

def calculate_precision(true_labels, pred_labels):

true_positive = 0

false_positive = 0

for i in range(len(true_labels)):

if pred_labels[i] == 1:

if true_labels[i] == 1:

true_positive += 1

else:

false_positive += 1

if true_positive + false_positive == 0:

return 0

precision = true_positive / (true_positive + false_positive)

return precision

def calculate_recall(true_labels, pred_labels):

true_positive = 0

false_negative = 0

for i in range(len(true_labels)):

if true_labels[i] == 1:

if pred_labels[i] == 1:

true_positive += 1

else:

false_negative += 1

if true_positive + false_negative == 0:

return 0

recall = true_positive / (true_positive + false_negative)

return recall

下面对代码进行详细解读：

calculate_precision函数：

def calculate_precision(true_labels, pred_labels):

true_positive = 0

false_positive = 0

首先定义了calculate_precision函数，接受true_labels和pred_labels两个参数。初始化true_positive（真正例数量）和false_positive（假正例数量）为 0 。

for i in range(len(true_labels)):

if pred_labels[i] == 1:

if true_labels[i] == 1:

true_positive += 1

else:

false_positive += 1

通过for循环遍历样本索引，范围是从 0 到真实标签列表的长度减 1。在循环中，首先判断预测标签pred_labels[i]是否为 1（即被预测为正类），如果是，再进一步判断真实标签true_labels[i]是否也为 1 。如果是，则true_positive加 1，表示预测正确的正类样本数增加；否则，false_positive加 1，表示将负类样本错误地预测为正类。

if true_positive + false_positive == 0:

return 0

precision = true_positive / (true_positive + false_positive)

return precision

在计算精确率之前，先进行一个特殊情况的处理，如果真正例数量和假正例数量之和为 0，说明没有预测为正类的样本，此时返回 0，避免后续的除零错误。然后，根据精确率的计算公式Precision = TP / (TP + FP) ，计算精确率并返回结果。

2. calculate_recall函数：

def calculate_recall(true_labels, pred_labels):

true_positive = 0

false_negative = 0

定义calculate_recall函数，接受同样的两个参数。初始化true_positive（真正例数量）和false_negative（假负例数量）为 0 。

for i in range(len(true_labels)):

if true_labels[i] == 1:

if pred_labels[i] == 1:

true_positive += 1

else:

false_negative += 1

通过for循环遍历样本。在循环中，先判断真实标签true_labels[i]是否为 1（即实际为正类），如果是，再判断预测标签pred_labels[i]是否也为 1 。如果是，则true_positive加 1，表示实际为正类且被正确预测的样本数增加；否则，false_negative加 1，表示实际为正类但被错误地预测为负类。

if true_positive + false_negative == 0:

return 0

recall = true_positive / (true_positive + false_negative)

return recall

与计算精确率类似，先处理特殊情况，如果真正例数量和假负例数量之和为 0，说明没有实际为正类的样本，返回 0 避免除零错误。然后，根据召回率的计算公式Recall = TP / (TP + FN) ，计算召回率并返回结果。通过这两个函数，完整地实现了精确率和召回率的计算功能。

六、实战：生成 F1 分数计算代码

6.1 构造提示词

F1 分数作为精确率和召回率的调和平均数，在评估机器学习模型性能时起着关键作用。为了生成计算 F1 分数的代码，我们精心构造提示词，以确保代码生成工具能够准确理解我们的需求。

假设我们使用 Python 语言进行代码编写，输入数据为真实标签列表true_labels和预测标签列表pred_labels ，提示词如下：

“用 Python 编写一个函数，函数名为calculate_f1_score，它接受两个参数，分别是真实标签列表true_labels和预测标签列表pred_labels。在函数内部，先调用之前编写的calculate_precision函数（假设已存在该函数，用于计算精确率）和calculate_recall函数（假设已存在该函数，用于计算召回率），获取精确率precision和召回率recall的值，然后根据 F1 分数的计算公式F1 = 2*(Precision*Recall)/(Precision+Recall) ，计算 F1 分数并返回结果。”

这个提示词不仅明确了编程语言（Python）、函数名称、输入参数及其类型，还详细说明了函数内部的计算逻辑，包括如何获取精确率和召回率，以及如何利用它们计算 F1 分数，符合构造有效提示词的各项原则，能够有效引导代码生成工具生成满足我们需求的代码。

6.2 代码生成与优化

我们使用 ChatGPT 来生成代码。将上述构造好的提示词输入到 ChatGPT 交互界面后，得到如下代码：

def calculate_f1_score(true_labels, pred_labels):

precision = calculate_precision(true_labels, pred_labels)

recall = calculate_recall(true_labels, pred_labels)

if precision + recall == 0:

return 0

f1_score = 2 * (precision * recall) / (precision + recall)

return f1_score

代码分析：

函数定义：

def calculate_f1_score(true_labels, pred_labels):

定义了名为calculate_f1_score的函数，接受true_labels和pred_labels两个参数，这与我们在提示词中的设定一致。

2. 获取精确率和召回率：

precision = calculate_precision(true_labels, pred_labels)

recall = calculate_recall(true_labels, pred_labels)

通过调用假设已存在的calculate_precision函数和calculate_recall函数，分别计算出精确率precision和召回率recall ，这也是按照提示词中的要求实现的。

3. 特殊情况处理与 F1 分数计算：

if precision + recall == 0:

return 0

f1_score = 2 * (precision * recall) / (precision + recall)

return f1_score

首先对特殊情况进行处理，如果精确率和召回率之和为 0，直接返回 0，避免后续的除零错误。然后，根据 F1 分数的计算公式，计算出 F1 分数f1_score并返回结果。

代码优化：

虽然生成的代码已经实现了基本功能，但我们可以进一步优化，使其更加健壮和高效。例如，可以添加对输入数据的合法性检查，确保输入的true_labels和pred_labels是列表类型且长度相等。优化后的代码如下：

def calculate_f1_score(true_labels, pred_labels):

# 检查输入数据类型和长度

if not isinstance(true_labels, list) or not isinstance(pred_labels, list):

raise TypeError("输入的真实标签和预测标签必须是列表类型")

if len(true_labels) != len(pred_labels):

raise ValueError("真实标签和预测标签的长度必须相等")

precision = calculate_precision(true_labels, pred_labels)

recall = calculate_recall(true_labels, pred_labels)

if precision + recall == 0:

return 0

f1_score = 2 * (precision * recall) / (precision + recall)

return f1_score

通过添加这些检查，代码在处理非法输入时能够抛出明确的异常，提高了代码的稳定性和可靠性，使其更适用于实际的项目开发场景。

七、实战：生成 ROC 曲线和 AUC 计算代码

7.1 提示词撰写

ROC 曲线和 AUC 值是评估二分类模型性能的关键指标，ROC 曲线展示了模型在不同分类阈值下真正例率和假正例率的权衡关系，AUC 值则量化了模型的整体性能，其值越接近 1，模型性能越好。为了生成绘制 ROC 曲线和计算 AUC 值的代码，我们撰写如下提示词：

“用 Python 编写代码，实现绘制 ROC 曲线并计算 AUC 值的功能。假设已经有真实标签列表y_true和模型预测的概率值列表y_scores作为输入数据，要求使用scikit-learn库中的roc_curve函数计算假正率（FPR）、真正率（TPR）和阈值，使用auc函数计算 AUC 值，最后使用matplotlib库绘制 ROC 曲线，并在图中显示 AUC 值。”

这个提示词明确了编程语言（Python），输入数据的假设情况，具体使用的库及其相关函数来完成计算和绘图任务，以及最终的绘图要求，符合有效提示词的构造原则，能够引导代码生成工具准确理解需求并生成相应代码。

7.2 生成完整代码及绘图

我们使用 ChatGPT 来生成代码。将上述提示词输入后，得到如下代码：

import numpy as np

from sklearn.metrics import roc_curve, auc

import matplotlib.pyplot as plt

# 假设已经有真实标签和预测概率值

y_true = np.array([0, 0, 1, 1, 0, 1, 0, 1, 1, 0])

y_scores = np.array([0.1, 0.2, 0.8, 0.6, 0.3, 0.9, 0.4, 0.7, 0.5, 0.2])

fpr, tpr, thresholds = roc_curve(y_true, y_scores)

roc_auc = auc(fpr, tpr)

plt.figure()

plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)

plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')

plt.xlim([0.0, 1.0])

plt.ylim([0.0, 1.05])

plt.xlabel('False Positive Rate')

plt.ylabel('True Positive Rate')

plt.title('Receiver Operating Characteristic')

plt.legend(loc="lower right")

plt.show()

代码分析：

导入必要的库：

import numpy as np

from sklearn.metrics import roc_curve, auc

import matplotlib.pyplot as plt

导入numpy库用于数值计算，scikit-learn库中的roc_curve函数和auc函数分别用于计算 ROC 曲线的数据和 AUC 值，matplotlib.pyplot库用于绘图。

2. 假设输入数据：

y_true = np.array([0, 0, 1, 1, 0, 1, 0, 1, 1, 0])

y_scores = np.array([0.1, 0.2, 0.8, 0.6, 0.3, 0.9, 0.4, 0.7, 0.5, 0.2])

这里假设已经有真实标签列表y_true和模型预测的概率值列表y_scores ，实际应用中，这些数据将从模型训练和预测的过程中获取。

3. 计算 ROC 曲线数据和 AUC 值：

fpr, tpr, thresholds = roc_curve(y_true, y_scores)

roc_auc = auc(fpr, tpr)

使用roc_curve函数计算假正率（FPR）、真正率（TPR）和阈值，该函数会根据不同的分类阈值计算出相应的 FPR 和 TPR 值。然后使用auc函数计算 AUC 值，即 ROC 曲线下的面积。

4. 绘制 ROC 曲线：

plt.figure()

plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)

plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')

plt.xlim([0.0, 1.0])

plt.ylim([0.0, 1.05])

plt.xlabel('False Positive Rate')

plt.ylabel('True Positive Rate')

plt.title('Receiver Operating Characteristic')

plt.legend(loc="lower right")

plt.show()

首先创建一个绘图对象plt.figure() 。然后使用plt.plot绘制 ROC 曲线，其中fpr和tpr作为横纵坐标，设置曲线颜色为深橙色（darkorange），线宽为 2（lw = 2），并在标签中显示 AUC 值。接着绘制一条对角线plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--') ，这条对角线表示随机猜测的情况，用于与模型的 ROC 曲线进行对比。设置坐标轴的范围plt.xlim([0.0, 1.0])和plt.ylim([0.0, 1.05]) ，添加横纵坐标标签plt.xlabel('False Positive Rate')和plt.ylabel('True Positive Rate') ，设置图表标题plt.title('Receiver Operating Characteristic') ，添加图例plt.legend(loc="lower right")并设置其位置在右下角，最后使用plt.show()显示绘制好的 ROC 曲线。运行这段代码，将会弹出一个窗口显示绘制好的 ROC 曲线，并且在曲线旁边的标签中显示计算得到的 AUC 值，通过观察 ROC 曲线的形状和 AUC 值的大小，可以直观地评估模型在二分类任务中的性能表现。

八、实战：生成混淆矩阵计算代码

8.1 编写有效提示词

混淆矩阵能够直观地展示分类模型在各个类别上的预测正确和错误情况，是评估分类模型性能的重要工具。为了生成计算混淆矩阵的代码，我们精心编写提示词。

假设我们使用 Python 语言，输入数据为真实标签列表true_labels和预测标签列表pred_labels ，提示词如下：

“用 Python 编写一个函数，函数名为calculate_confusion_matrix，它接受两个参数，分别是真实标签列表true_labels和预测标签列表pred_labels。函数内部通过循环遍历两个列表，统计真正例（TP）、真负例（TN）、假正例（FP）和假负例（FN）的数量，最后返回一个二维列表表示的混淆矩阵，其中第一行第一列表示 TN，第一行第二列表示 FP，第二行第一列表示 FN，第二行第二列表示 TP。”

这个提示词明确了编程语言（Python）、函数名称、输入参数及其类型，详细说明了函数内部的计算逻辑，包括如何通过遍历统计各类样本数量，以及最终的输出格式要求，符合有效提示词的构造原则，能够引导代码生成工具准确理解需求并生成相应代码。

8.2 代码生成与分析

我们使用 ChatGPT 来生成代码。将上述提示词输入后，得到如下代码：

def calculate_confusion_matrix(true_labels, pred_labels):

tn = 0

fp = 0

fn = 0

tp = 0

for i in range(len(true_labels)):

if true_labels[i] == 0:

if pred_labels[i] == 0:

tn += 1

else:

fp += 1

else:

if pred_labels[i] == 1:

tp += 1

else:

fn += 1

confusion_matrix = [[tn, fp], [fn, tp]]

return confusion_matrix

代码分析：

初始化变量：

tn = 0

fp = 0

fn = 0

tp = 0

初始化真正例（TP）、真负例（TN）、假正例（FP）和假负例（FN）的数量为 0 ，用于统计不同类型的样本数量。

2. 遍历统计：

for i in range(len(true_labels)):

if true_labels[i] == 0:

if pred_labels[i] == 0:

tn += 1

else:

fp += 1

else:

if pred_labels[i] == 1:

tp += 1

else:

fn += 1

通过for循环遍历真实标签列表true_labels的索引。在循环中，首先判断真实标签true_labels[i]是否为 0（这里假设 0 代表负类，1 代表正类），如果是，再判断预测标签pred_labels[i]是否也为 0 。如果是，则tn（真负例数量）加 1；否则，fp（假正例数量）加 1。当真实标签true_labels[i]为 1 时，判断预测标签pred_labels[i]是否为 1 ，如果是，则tp（真正例数量）加 1；否则，fn（假负例数量）加 1。这样就完成了对各类样本数量的统计。

3. 构建并返回混淆矩阵：

confusion_matrix = [[tn, fp], [fn, tp]]

return confusion_matrix

根据统计得到的 TN、FP、FN、TP 的数量，构建一个二维列表confusion_matrix来表示混淆矩阵，其中第一行第一列是 TN，第一行第二列是 FP，第二行第一列是 FN，第二行第二列是 TP。最后返回这个构建好的混淆矩阵，完成整个混淆矩阵计算功能的实现。

九、注意事项与常见问题解决

9.1 提示词的准确性和完整性

提示词的准确性和完整性对于生成正确的机器学习模型评估指标计算代码至关重要。如果提示词表述模糊、不准确，生成的代码可能无法满足实际需求，甚至会包含错误。比如在生成计算召回率的代码时，如果提示词中没有明确说明输入数据的格式和类型，生成的代码可能无法正确处理实际传入的数据。

为了提高提示词的准确性和完整性，在编写提示词之前，要充分梳理清楚自己的需求，明确任务的各个细节。在描述需求时，尽量使用专业、准确的术语，避免使用模糊或容易产生歧义的词汇。对于复杂的任务，可以将其分解为多个小步骤，在提示词中逐一描述清楚。并且在生成代码后，要仔细检查生成的代码是否符合提示词中的要求，如果发现不一致的地方，要及时调整提示词并重新生成代码。

9.2 代码的调试和优化

生成的代码可能存在语法错误、逻辑错误或者性能问题，因此需要进行调试和优化。调试时，可以利用开发工具的调试功能，如设置断点、单步执行等，逐步检查代码的执行过程，找出错误的根源。比如在计算精确率和召回率的代码中，如果计算结果不符合预期，可以通过调试查看在循环过程中各个变量的值是否正确，是否按照预期进行了统计。

在优化代码时，可以从多个方面入手。首先是代码的可读性，添加适当的注释，合理命名变量和函数，使代码结构更加清晰，便于他人理解和维护。其次是性能优化，例如在计算混淆矩阵的代码中，如果数据量较大，可以考虑使用更高效的数据结构和算法，减少计算时间和内存消耗。还可以对代码进行模块化处理，将相关功能封装成独立的函数或类，提高代码的可复用性。

十、拓展与应用

10.1 在不同机器学习场景中的应用

图像识别：在图像识别任务中，利用提示词生成评估指标计算代码能快速评估模型性能。比如在一个识别猫和狗的图像分类模型中，通过生成准确率、召回率和 F1 分数计算代码，能直观了解模型对猫和狗图像的识别能力。如果模型的召回率较低，可能意味着有很多实际是猫或狗的图像被误判，需要进一步优化模型。

自然语言处理：以文本分类任务为例，使用提示词生成混淆矩阵计算代码，可以清晰展示模型在各个类别（如新闻类别、情感类别等）上的预测情况。通过分析混淆矩阵，能发现模型容易混淆的类别，从而针对性地调整模型或数据，提高分类准确性。在机器翻译中，生成 BLEU（bilingual evaluation understudy）分数计算代码，能评估翻译结果与参考译文的相似度，衡量翻译模型的质量。

推荐系统：在推荐系统中，生成精确率和召回率计算代码，能评估推荐结果的质量。精确率高表示推荐给用户的物品中，用户真正感兴趣的物品占比大；召回率高意味着能尽可能多地将用户可能感兴趣的物品推荐给用户。通过这些评估指标，不断优化推荐算法，为用户提供更精准的推荐服务。

10.2 结合实际项目的案例分析

假设我们正在进行一个电商商品分类项目，目的是将商品准确分类到不同的类别中，如服装、电子产品、食品等。

在项目中，我们使用了多种机器学习模型进行训练，包括决策树、支持向量机和神经网络。为了评估这些模型的性能，我们运用提示词生成评估指标计算代码。

首先，针对每个模型的预测结果和真实标签，我们使用提示词生成准确率、精确率、召回率和 F1 分数的计算代码。通过计算发现，决策树模型的准确率为 75%，精确率在服装类别上为 70%，召回率为 72%，F1 分数为 71%；支持向量机模型的准确率为 80%，精确率在电子产品类别上为 85%，召回率为 78%，F1 分数为 81%；神经网络模型的准确率达到 85%，精确率在食品类别上为 88%，召回率为 84%，F1 分数为 86%。

接着，我们利用提示词生成混淆矩阵计算代码，进一步分析模型在各个类别上的具体表现。从混淆矩阵中可以看出，决策树模型在区分服装和饰品类别时容易出错，很多饰品被误分类为服装；支持向量机模型在电子产品和办公用品的分类上存在混淆；而神经网络模型虽然整体表现较好，但在一些小众商品类别上仍有提升空间。

基于这些评估结果，我们对模型进行了针对性的优化。对于决策树模型，我们增加了更多关于饰品和服装特征的训练数据，调整了决策树的参数，以提高其分类能力；对于支持向量机模型，我们重新选择了更合适的核函数，并对数据进行了更精细的预处理；对于神经网络模型，我们增加了训练的轮数，调整了学习率，同时扩充了小众商品类别的数据量。

经过优化后，再次使用提示词生成评估指标计算代码进行评估，发现各个模型的性能都有了显著提升。决策树模型的准确率提高到了 80%，精确率和召回率在各个类别上也都有所上升；支持向量机模型在电子产品和办公用品分类上的混淆情况明显减少，整体准确率达到了 85%；神经网络模型的准确率提升到了 90%，在各个类别上的表现更加均衡和出色，为电商商品分类提供了更可靠的解决方案。