小白入门：什么是训练数据标注、如何搞标注

训练数据标注入门与应用

最新推荐文章于 2025-10-21 11:07:06 发布

原创最新推荐文章于 2025-10-21 11:07:06 发布 · 1.4k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

该文章已生成可运行项目，

在推荐系统（或任何其他的机器学习任务或AI领域）中，训练数据的标注指的是给原始数据添加 “标签”（Label），让模型知道 “什么是正确的关联”，从而学习到从 “输入” 到 “输出” 的映射规律。简单说，标注就是告诉模型：“对于这个用户和这个物品，他们的关系应该是这样的”。通常我们可以从网上免费下载这些数据，但是对于有些领域，则需要自己动手，丰衣足食。

本文以开发生活分类信息平台开发为例。编辑仓促，文中不妥之处，请见谅。

此平台的信息流的体现原理之一就是“匹配用户和信息”，就是所谓的推荐系统。而推荐系统的核心是让系统学会“用户 - 物品/i信息交互的合理性”，因此标注通常围绕 “用户对物品的偏好程度” 或 “交互行为的意义” 展开，常见类型包括：

显式标注：直接表达用户偏好的标签
- 评分：如 “用户 A 给物品 X 打了 4 星（满分 5 星）”，标签就是 “4”；
- 喜好标签：如 “用户 B 明确标记喜欢物品 Y”，标签是 “喜欢”；“用户 C 标记物品 Z 为不感兴趣”，标签是 “不喜欢”；
- 反馈文本：如用户评价 “这个商品质量很好”，通过文本情感分析转化为 “正面” 标签。
隐式标注：通过用户行为间接推断的标签
大多数推荐系统数据是隐式的（用户不会主动评分，但行为能反映偏好），需要人工或自动规则标注：
- 交互类型：如 “用户点击了物品 A”→标签 “点击”；“用户购买了物品 B”→标签 “购买”（通常 “购买” 比 “点击” 权重更高，代表更强偏好）；
- 交互频率：如 “用户 D 在 1 周内浏览物品 E 5 次”→标签 “高频关注”；
- 负向行为：如 “用户 F 浏览物品 G 后立即关闭页面”→标签 “无兴趣”。
上下文标注：补充交互场景的标签
让模型理解 “在什么情况下用户会偏好某物品”，例如：
- 时间标签：“用户在周末点击了电影票”→标签 “周末场景”；
- 场景标签：“用户在通勤时收听了播客”→标签 “通勤场景”；
- 关联物品标签：“用户购买手机后点击了手机壳”→标签 “互补物品”。

我们可以把推荐系统的核心模型比作一个 “黑箱”，它可以根据我们输入的信息，返回我们想要的结果。传统做法，只需要在数据库里模糊检索关键词，然后返回即可。但是这个效果肯定会差强人意，如何让返回的结果更精准，符合我们的需求呢，这时就需要通过更高级的推荐算法模型了。这个模型就相当于一个婴儿，脑袋空空，只有通过大量的学习训练才能理解提问者的需求。而推荐系统也需要标注好的 “输入 - 输出对” 来调整它的参数。例如：

输入：用户特征（25 岁女性、喜欢美妆）+ 物品特征（口红、哑光质地）
标注标签：“点击”（代表该用户可能喜欢这个物品）
模型任务：学习 “25 岁 + 喜欢美妆 + 口红 + 哑光” 这些特征组合与 “点击” 标签的关联，未来遇到类似组合时，就会推荐这个物品。

如果没有标注，模型就无法判断 “用户点击物品” 是 “喜欢” 还是 “误操作”，更无法学习规律 —— 标注相当于给模型的 “参考答案”。

那么，如何进行整理和标注相关数据呢？

一步步来......

一、先梳理下要标注的数据类型

我们根据要开发系统用到的数据特征，总结为以下几类（举例仅供学习参考）：

用户需求分类标注
- 例如用户发布的信息："求租两居室" → 标注为房屋租售-求租
- "寻找宠物寄养服务" → 标注为生活服务-宠物服务
内容属性标注
- 物品信息："2023 款电动车" → 标注为交通工具-电动车-2023款
- 服务信息："专业搬家团队" → 标注为生活服务-搬家服务
用户意图与匹配标注
- 用户搜索 "附近健身房" → 标注为健身休闲-健身房，并关联距离、价格等属性
- 发布 "二手笔记本电脑出售" → 标注为二手交易-电子设备，并标注价格区间、成色等

二、手动标注的具体方法

1. 定义分类体系

首先需要建立一套完整的分类标签体系，例如：

生活服务
├── 家政服务
│   ├── 清洁打扫
│   ├── 家电维修
│   └── 管道疏通
├── 宠物服务
│   ├── 宠物寄养
│   ├── 宠物美容
│   └── 宠物医疗
└── 搬家服务
    ├── 居民搬家
    └── 公司搬迁

房屋租售
├── 租房
│   ├── 整租
│   └── 合租
└── 售房
    ├── 新房
    └── 二手房

二手交易
├── 电子设备
├── 家具家居
└── 交通工具
    ├── 汽车
    └── 电动车

2. 标注工具选择

文本标注工具：如 Label Studio、BRAT 等
Excel/CSV：简单场景下直接用表格标注

3. 标注示例

假设用户发布一条信息：

"出售 2021 年购买的苹果笔记本，使用频率低，9 成新，售价 5000 元"

标注后的数据结构可能是（json格式为例）：

{
  "原始文本": "出售2021年购买的苹果笔记本，使用频率低，9成新，售价5000元",
  "分类标签": "二手交易-电子设备-笔记本电脑",
  "属性标签": {
    "品牌": "苹果",
    "购买年份": "2021",
    "成色": "9成新",
    "价格": 5000,
    "价格区间": "3000-6000元"
  },
  "推荐关键词": ["二手苹果笔记本", "2021款MacBook", "5000元笔记本"]
}

4. 意图匹配标注

对于用户搜索查询，标注其潜在需求和匹配规则：

{
  "搜索文本": "朝阳区两居室整租，预算6000元以内",
  "分类标签": "房屋租售-租房-整租",
  "属性标签": {
    "区域": "朝阳区",
    "户型": "两居室",
    "预算": "0-6000元"
  },
  "匹配规则": ["区域包含朝阳区", "户型=两居室", "价格<=6000"]
}

三、标注流程优化建议

制定标注指南
- 明确每个分类的定义和边界，例如 "家电维修" 与 "电子产品维修" 的区别
- 规定属性标注的标准格式，如价格区间统一为 "下限 - 上限元"
双人标注校验
- 重要数据由两人独立标注，不一致时通过讨论或第三方仲裁确定最终标签，提高标注准确性
增量标注
- 先标注高频、典型的内容，随着平台发展逐步补充新类别和特殊场景

结合模型的预训练知识

利用常用模型已有的语言理解能力，减少基础标注工作量。例如（python)：

# 使用BERT模型自动提取分类标签示例
from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch

model = AutoModelForSequenceClassification.from_pretrained("bert-base-chinese")
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")

def auto_classify(text):
    inputs = tokenizer(text, return_tensors="pt")
    with torch.no_grad():
        logits = model(**inputs).logits
    predicted_class_id = logits.argmax().item()
    return model.config.id2label[predicted_class_id]

四、标注数据在推荐模型中的应用

标注好的数据可以用于：

微调推荐模型
使用标注数据微调模型，使其更准确地理解我们项目（生活分类信息）的语义和用户意图
构建推荐系统
将标注的分类和属性作为特征，训练推荐模型，实现：
- 基于用户意图的匹配：如精准匹配租房需求与房源
- 基于内容的推荐：如推荐相似类别的信息
信息检索优化
利用标注的关键词和属性标签，提升搜索结果的相关性和排序质量

五、实际案例参考

假设你有一条用户发布的信息：

"求购一辆二手电动车，预算 2000 元以内，最好是 2024 年以后的"

标注后的数据可用于：

分类展示：在 "二手交易 - 交通工具 - 电动车" 类目下展示
搜索匹配：当其他用户搜索 "2000 元以内电动车" 时推荐
推荐系统：向浏览过电动车的用户推荐这条求购信息，促进供需对接

通过系统化的标注，我们的推荐模型能够更好地理解生活分类信息的语义和用户需求，从而提供更精准的推荐和搜索服务。

标注操作的一些注意事项：

标注逻辑要统一：例如 “购买 = 强偏好（标签 1）、点击 = 弱偏好（标签 0.5）、未交互但同类 = 中性（标签 0）、明确跳过 = 负偏好（标签 - 1）”，避免同一行为在不同行有不同标签。
优先标注 “强信号”：例如 “购买”“收藏” 这类行为比 “浏览 1 秒” 更能代表真实偏好，优先保证这类数据的标注准确性。
结合业务目标：如果你的推荐系统目标是 “提升复购率”，则 “购买” 标签的权重应高于 “点击”；如果目标是 “探索新物品”，则可给 “首次浏览小众物品” 更高的正向标签。

本文章已经生成可运行项目