https://github.com/mmehra12/cml_churn_demo/tree/master
1 示例介绍
在本次研讨会中,我们将向您介绍World Wide Telco organization的一个真实案例。该企业有许多机器学习用例,今天重点关注一个特定场景的用例。在该用例中,企业试图减少客户的流失(即取消),并且大多数取消来自企业的呼叫中心。在本次的动手实操中,客户Francisco会打电话表示取消,呼叫中心应用程序将根据Francisco的取消来预测取消原因,向WW Telco的客户经理Stefan提供建议。然后,他将向Francisco提供报价,用户将选择接受或不接受。

实操环节将带着大家完成CML的登录、代码获取以及使用已部署的模型构建完全工作应用程序的整个过程,具体操作流程如下:
- 初始化一个属于自己的CML Workspace
- 创建一个属于自己的Project(基于提供的代码模版)
- 将数据接入到属于我们自己的工作目录下
- 使用代码进行数据探索(基于Spark On K8s的环境进行数据探索)
- 构建一个模型实验环境,用于训练模型
- 模型部署(使模型有对外提供服务的能力)
- 应用程序部署(基于部署好的模型,与自己的应用程序打通)
2 创建一个Workspace
本次以参与客户公司为单位,每个公司初始化一个Workspace,接下来介绍如何初始化一个Workspace,具体操作流程如下:
- 使用个人账号登录到Cloudera Manager的控制台

- 点击ECS服务进入到服务的管理页面

- 点击”Web UI“,打开Storage UI、ECS Web UI、Console页面

Storage UI:该页面主要是Longhorn提供的查看和管理K8S分布式存储的功能

ECS Web UI:主要是K8S的原生管理界面,用于查看和管理调度、部署、job及pod等功能

Console:主要是Cloudera提供的DataService服务的管理控制台,可以实现(资源的统一监控、Base集群环境的管理、用户体系的管理、Data Warehouse、ML Workspace、Data Engineering、提供资源利用率报告等)

- 进入到Console控制台后,点击”Machine Learning”进入到CML的管理页面

- 点击”Provision Workspace“进入到配置Workspace页面
| 名称 | 值 | 备注 |
|---|---|---|
| Workspace Name | cloudera-workspace | 以公司名称创建一个相应的Workspace |
| Select Environment | pvc01 | 选择默认环境即可(这里就是对应的CDP Base集群) |
| Namespace | cloudera-workspace | 自动生成 |
| NFS Server | Internal | 选择内建NFS服务 |
| Custom NFS Settings | 不用设置 | |
| Enable Governance | 勾选 | |
| Governance Principal Name | mlgov | 默认即可 |
| Enable Model Metrics | 勾选 | |
| Enable Monitoring | 勾选 | |
| CML Static Subdomain | cldrws | 可不填写 |


6. 点击”Provision Workspace“,初始化Workspace

在初始化Workspace的过程中,会有一个比较长的等待时间(约20分钟),在此期间主要是K8S上启动需要的pods等动作
可以查看相应的Event Logs:


此时也可以进入到ECS Web UI页面查看自己的Workspace启动所涉及到的动作

可以看到当前Workspace初始化的过程及进度

本文详细介绍了Cloudera Machine Learning (CML) 平台上进行大数据处理的实践过程。从创建Workspace、配置全局环境,到创建Project,再到数据接入、数据探索、模型构建、模型训练、模型部署和服务,最后是应用程序的部署。文中通过World Wide Telco的客户流失案例,展示了如何在CML中完成整个工作流程,包括使用Spark on K8s进行数据处理,利用MLFlow跟踪模型训练指标,并将模型部署为REST API服务。
最低0.47元/天 解锁文章

2279

被折叠的 条评论
为什么被折叠?



