自然语言处理模型训练与内置框架使用
1. 用 LDA 进行主题建模
在之前的准备工作中,我们准备好了一百万个新闻标题,现在将使用这些标题通过 LDA(Latent Dirichlet Allocation)进行主题建模,具体步骤如下:
1. 定义路径 :运行以下代码定义有用的路径。
import sagemaker
session = sagemaker.Session()
bucket = session.default_bucket()
prefix = 'reviews-lda-ntm'
train_key = 'reviews.protobuf'
obj = '{}/{}'.format(prefix, train_key)
s3_train_path = 's3://{}/{}'.format(bucket,obj)
s3_output = 's3://{}/{}/output/'.format(bucket, prefix)
- 配置 Estimator 函数 :代码如下。
from sagemaker.image_uris import retrieve
region_name = session.boto_session.region_name
container = retrieve('lda', region_name)
lda = sagemaker.estimator.