3步搞定机器学习数据预处理：TensorFlow模型特征缩放与编码实战指南-优快云博客

3步搞定机器学习数据预处理：TensorFlow模型特征缩放与编码实战指南

【免费下载链接】models tensorflow/models: 此GitHub仓库是TensorFlow官方维护的模型库，包含了大量基于TensorFlow框架构建的机器学习和深度学习模型示例，覆盖图像识别、自然语言处理、推荐系统等多个领域。开发者可以在此基础上进行学习、研究和开发工作。项目地址: https://gitcode.com/GitHub_Trending/mode/models

你是否还在为机器学习模型训练前的数据预处理步骤感到困惑？特征值范围差异大导致模型收敛缓慢？类别型特征无法直接输入算法？本文将通过TensorFlow官方模型库的实际案例，带你掌握特征缩放与编码的核心技巧，3个步骤让你的数据达到最佳训练状态。读完本文你将学会：如何使用对数变换处理数值特征、用词汇表编码类别特征、以及构建完整的预处理流水线。

数据预处理的重要性与项目资源

在机器学习工作流中，数据预处理占据了70%以上的时间，直接影响模型性能。TensorFlow官方模型库（GitHub_Trending/mode/models）提供了丰富的预处理示例，覆盖推荐系统、计算机视觉等多个领域。本文将以推荐系统中的Criteo数据集预处理为例，详细讲解特征工程的关键步骤。

推荐系统相关的预处理代码主要集中在official/recommendation/目录下，其中official/recommendation/ranking/preprocessing/criteo_preprocess.py是处理点击率预测数据的典型案例。该文件实现了从原始数据到模型输入的完整转换流程，包括缺失值填充、特征缩放和类别编码等关键步骤。

步骤一：数值特征缩放——从原始值到正态分布

数值特征由于量纲不同，往往需要进行缩放处理。Criteo数据集中包含13个数值特征，原始值可能存在极大的取值范围差异。在NegsToZeroLog类中，实现了一种有效的缩放策略：

class NegsToZeroLog(beam.DoFn):
  """For int features, sets negative values to zero and takes log(x+1)."""
  def process(self, element):
    elem_list = element.split(args.csv_delimeter)
    out_list = []
    for i, val in enumerate(elem_list):
      if i > 0 and i <= NUM_NUMERIC_FEATURES:
        new_val = "0" if int(val) < 0 else val
        new_val = np.log(int(new_val) + 1)  # 对数变换实现特征缩放
        new_val = str(new_val)
      else:
        new_val = val
      out_list.append(new_val)
    yield (args.csv_delimeter).join(out_list)

这种方法包含两个关键步骤：首先将所有负值替换为0，避免对数变换出现错误；然后应用log(x+1)变换压缩大数值特征的范围。对数变换特别适合处理长尾分布的数据，能有效改善模型的收敛速度和预测性能。与Min-Max缩放相比，对数变换对异常值更不敏感，在推荐系统点击率预测场景中表现优异。

步骤二：类别特征编码——从字符串到整数索引

类别特征（如用户ID、商品类别）通常需要转换为数值形式才能输入模型。Criteo数据集中的类别特征采用十六进制字符串表示，需要经过编码处理。HexToIntModRange类实现了这一转换：

class HexToIntModRange(beam.DoFn):
  """For categorical features, takes decimal value and mods with max value."""
  def process(self, element):
    elem_list = element.split(args.csv_delimeter)
    out_list = []
    for i, val in enumerate(elem_list):
      if i > NUM_NUMERIC_FEATURES:
        new_val = int(val, 16) % args.max_vocab_size  # 十六进制转整数并取模
      else:
        new_val = val
      out_list.append(str(new_val))
    yield str.encode((args.csv_delimeter).join(out_list))

这种方法首先将十六进制字符串转换为整数，然后对整数取模以控制词汇表大小。对于高基数的类别特征，这种编码方式能有效防止维度爆炸。在实际应用中，还需要结合词汇表生成步骤，完整流程包含两个阶段：

词汇表生成阶段：运行带有--vocab_gen_mode参数的预处理脚本，计算所有类别特征的唯一值并生成词汇表文件，存储在--temp_dir指定的目录中。
应用编码阶段：使用已生成的词汇表对特征进行编码，代码实现见apply_vocab_fn函数，通过tft.apply_vocabulary将类别值映射为整数索引。

步骤三：构建完整预处理流水线

TensorFlow模型库采用Apache Beam构建分布式预处理流水线，实现大规模数据的高效处理。完整的流水线在transform_data函数中定义，包含以下关键步骤：

def transform_data(data_path, output_path):
  with beam.Pipeline(args.runner, options=pipeline_options) as pipeline:
    with tft_beam.Context(temp_dir=args.temp_dir):
      processed_lines = (
          pipeline
          | beam.io.ReadFromText(data_path)
          | "FillMissing" >> beam.ParDo(FillMissing())  # 缺失值填充
          | "NegsToZeroLog" >> beam.ParDo(NegsToZeroLog())  # 数值特征缩放
          | "HexToIntModRange" >> beam.ParDo(HexToIntModRange()))  # 类别特征编码
          
      # 应用TensorFlow Transform进行特征转换
      transformed_dataset, _ = (
          raw_dataset | tft_beam.AnalyzeAndTransformDataset(preprocessing_fn))

整个流水线从文本文件读取原始数据，依次应用缺失值填充、数值特征缩放和类别特征编码，最后使用TensorFlow Transform完成特征转换。这种设计支持本地（DirectRunner）和分布式（DataflowRunner）两种运行模式，可根据数据规模灵活选择。

运行预处理脚本需要指定输入路径、输出路径和临时目录，示例命令如下：

# 生成词汇表
python criteo_preprocess.py \
  --input_path=train_data.tsv \
  --output_path=processed_data \
  --temp_dir=preprocess_temp \
  --vocab_gen_mode

# 应用编码
python criteo_preprocess.py \
  --input_path=train_data.tsv \
  --output_path=processed_data \
  --temp_dir=preprocess_temp

总结与扩展应用

本文详细介绍了TensorFlow模型库中特征缩放与编码的实现方法，通过对数变换处理数值特征、词汇表编码类别特征，以及构建完整的预处理流水线。这些技术不仅适用于推荐系统，还可广泛应用于其他机器学习任务。

在计算机视觉领域，research/delf/delf/python/training/build_image_dataset.py展示了图像数据的预处理方法，包括JPEG编码转换；而自然语言处理任务中的文本编码可参考research/attention_ocr/python/sequence_layers.py中的slim.one_hot_encoding实现。

掌握这些预处理技巧后，你可以进一步探索特征交叉、嵌入学习等高级主题，不断提升模型性能。TensorFlow模型库提供了丰富的示例代码，建议深入研究official/recommendation/目录下的其他文件，如movielens.py中的数据加载和预处理实现，全面提升数据预处理能力。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考