6、机器学习中的数据处理与特征工程设计模式

机器学习中的数据处理与特征工程设计模式

1. 数据仓库中的嵌入表示

在数据仓库中直接使用 SQL 对结构化数据进行机器学习是最优选择,这样可以避免将数据导出仓库,减少数据隐私和安全方面的问题。然而,很多问题需要同时处理结构化数据和自然语言文本或图像数据。在数据仓库中,自然语言文本(如评论)直接存储为列,图像通常存储为云存储桶中文件的 URL。此时,将文本列或图像的嵌入表示作为数组类型的列额外存储,可以简化后续的机器学习过程,便于将非结构化数据轻松融入机器学习模型。

要创建文本嵌入表示,可以将预训练模型(如来自 TensorFlow Hub 的 Swivel)加载到 BigQuery 中,完整代码可在 GitHub 上找到:

CREATE OR REPLACE MODEL advdata.swivel_text_embed
OPTIONS(model_type='tensorflow', 
model_path='gs://BUCKET/swivel/*')

然后,使用该模型将自然语言文本列转换为嵌入数组,并将嵌入查找结果存储到新表中:

CREATE OR REPLACE TABLE advdata.comments_embedding AS
SELECT
  output_0 as comments_embedding,
  comments
FROM ML.PREDICT(MODEL advdata.swivel_text_embed,(
  SELECT comments, LOWER(comments) A
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值