机器学习中的数据表示设计模式
1. 文本和图像嵌入存储
在处理包含文本列或图像的数据时,将这些文本列或图像的嵌入作为数组类型的列额外存储起来,能够简化后续的机器学习过程。这样做可以让非结构化数据更轻松地融入机器学习模型。
1.1 创建文本嵌入
可以从 TensorFlow Hub 加载预训练模型(如 Swivel)到 BigQuery 中创建文本嵌入。完整代码可在 GitHub 上找到:
CREATE OR REPLACE MODEL advdata.swivel_text_embed
OPTIONS(model_type='tensorflow', model_path='gs://BUCKET/swivel/*')
然后,使用该模型将自然语言文本列转换为嵌入数组,并将嵌入查找结果存储到新表中:
CREATE OR REPLACE TABLE advdata.comments_embedding AS
SELECT
output_0 as comments_embedding,
comments
FROM ML.PREDICT(MODEL advdata.swivel_text_embed,(
SELECT comments, LOWER(comments) AS sentences
FROM `bigquery-public-data.noaa_preliminary_severe_storms.wind_reports`
))
现
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



