基于Google Cloud AutoML的文本分类实战教程

翟江哲Frasier

于 2025-06-05 09:08:18 发布

阅读量387

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00293/article/details/148441353

基于Google Cloud AutoML的文本分类实战教程

training-data-analyst Labs and demos for courses for GCP Training (http://cloud.google.com/training). 项目地址: https://gitcode.com/gh_mirrors/tr/training-data-analyst

前言

文本分类是自然语言处理(NLP)中最基础也最实用的任务之一，广泛应用于新闻分类、情感分析、垃圾邮件过滤等场景。Google Cloud AutoML提供了一种无需编写复杂代码即可构建高质量文本分类模型的解决方案。本教程将带您从零开始，使用AutoML构建一个能够识别新闻来源的文本分类模型。

准备工作

在开始之前，您需要确保：

已创建Google Cloud项目
已启用BigQuery和AutoML Natural Language API
已安装Google Cloud SDK并完成身份验证

数据集准备

我们将使用Hacker News公开数据集作为数据源，该数据集包含了2006年至2015年间发布的技术相关新闻标题。

从BigQuery提取数据

首先，我们需要从BigQuery中提取适合训练的数据。我们关注三个主要新闻来源：国际知名媒体(nytimes)、TechCrunch和GitHub。

import os
from google.cloud import bigquery
import pandas as pd

# 设置项目参数
PROJECT = "your-project-id"  # 替换为您的项目ID
REGION = "us-central1" 

# 初始化BigQuery客户端
bq = bigquery.Client(project=PROJECT)

构建查询语句

我们需要构建SQL查询来获取标题和对应的来源信息：

SELECT
    LOWER(REGEXP_REPLACE(title, '[^a-zA-Z0-9 $.-]', ' ')) AS title,
    ARRAY_REVERSE(SPLIT(REGEXP_EXTRACT(url, '.*://(.[^/]+)/'), '.'))[OFFSET(1)] AS source
FROM
    `bigquery-public-data.hacker_news.stories`
WHERE
    REGEXP_CONTAINS(REGEXP_EXTRACT(url, '.*://(.[^/]+)/'), '.com$')
    AND LENGTH(title) > 10
    AND (source = 'github' OR source = 'nytimes' OR source = 'techcrunch')

这个查询会：

从URL中提取域名信息
对标题进行清洗处理（转为小写、移除特殊字符）
筛选出三个目标来源的数据

数据采样与保存

由于全量数据可能很大，我们可以先采样一部分数据进行实验：

# 执行查询并转换为DataFrame
query = """..."""  # 上面的SQL查询
title_dataset = bq.query(query).to_dataframe()

# 随机采样1000条记录
sample_title_dataset = title_dataset.sample(n=1000)

# 保存为CSV文件
DATADIR = './data/'
if not os.path.exists(DATADIR):
    os.makedirs(DATADIR)

SAMPLE_DATASET_PATH = os.path.join(DATADIR, 'titles_sample.csv')
sample_title_dataset.to_csv(SAMPLE_DATASET_PATH, header=False, index=False, encoding='utf-8')