https://github.com/mmehra12/cml_churn_demo/tree/master
1 示例介绍
在本次研讨会中,我们将向您介绍World Wide Telco organization的一个真实案例。该企业有许多机器学习用例,今天重点关注一个特定场景的用例。在该用例中,企业试图减少客户的流失(即取消),并且大多数取消来自企业的呼叫中心。在本次的动手实操中,客户Francisco会打电话表示取消,呼叫中心应用程序将根据Francisco的取消来预测取消原因,向WW Telco的客户经理Stefan提供建议。然后,他将向Francisco提供报价,用户将选择接受或不接受。
实操环节将带着大家完成CML的登录、代码获取以及使用已部署的模型构建完全工作应用程序的整个过程,具体操作流程如下:
- 初始化一个属于自己的CML Workspace
- 创建一个属于自己的Project(基于提供的代码模版)
- 将数据接入到属于我们自己的工作目录下
- 使用代码进行数据探索(基于Spark On K8s的环境进行数据探索)
- 构建一个模型实验环境,用于训练模型
- 模型部署(使模型有对外提供服务的能力)
- 应用程序部署(基于部署好的模型,与自己的应用程序打通)
2 创建一个Workspace
本次以参与客户公司为单位,每个公司初始化一个Workspace,接下来介绍如何初始化一个Workspace,具体操作流程如下:
- 使用个人账号登录到Cloudera Manager的控制台
- 点击ECS服务进入到服务的管理页面
- 点击”Web UI“,打开Storage UI、ECS Web UI、Console页面
Storage UI:该页面主要是Longhorn提供的查看和管理K8S分布式存储的功能
ECS Web UI:主要是K8S的原生管理界面,用于查看和管理调度、部署、job及pod等功能
Console:主要是Cloudera提供的DataService服务的管理控制台,可以实现(资源的统一监控、Base集群环境的管理、用户体系的管理、Data Warehouse、ML Workspace、Data Engineering、提供资源利用率报告等)
- 进入到Console控制台后,点击”Machine Learning”进入到CML的管理页面
- 点击”Provision Workspace“进入到配置Workspace页面
名称 | 值 | 备注 |
---|---|---|
Workspace Name | cloudera-workspace | 以公司名称创建一个相应的Workspace |
Select Environment | pvc01 | 选择默认环境即可(这里就是对应的CDP Base集群) |
Namespace | cloudera-workspace | 自动生成 |
NFS Server | Internal | 选择内建NFS服务 |
Custom NFS Settings | 不用设置 | |
Enable Governance | 勾选 | |
Governance Principal Name | mlgov | 默认即可 |
Enable Model Metrics | 勾选 | |
Enable Monitoring | 勾选 | |
CML Static Subdomain | cldrws | 可不填写 |
6. 点击”Provision Workspace“,初始化Workspace
在初始化Workspace的过程中,会有一个比较长的等待时间(约20分钟),在此期间主要是K8S上启动需要的pods等动作
可以查看相应的Event Logs:
此时也可以进入到ECS Web UI页面查看自己的Workspace启动所涉及到的动作
可以看到当前Workspace初始化的过程及进度
点击”pods“&#