访谈摘要 |
访谈时间:XX
访谈地点:XX证券
访谈对象:客户IT人员和业务人员
客户现状 |
客户对X环、X范以及YYY都有使用经验;
使用对象包括客户的IT人员和业务人员:IT人员具有编程、代码开发能力,而业务人员主要技能是数学。
问题汇总 |
1、客户对YYY、X环、X范的产品比较? |
易用性:X环易用,YYY比较难上手。
可用性:X环提供的算子最丰富,YYY的需要提供更多的算子。
稳定性:X范最稳定。
比较优势:X环NLP比较强;X范:图像处理比较强,但该功能需要单独购买;YYY:支持自定义算子
2、客户当前的机器学习场景有哪些? |
使用最多的机器学习场景为自然语言处理,具体场景包括关键词抽取、自动摘要生成等。
此外,客户对图像处理也有一定需求,具体场景包括人脸识别、图像分类。
3、客户当前使用的开源机器学习框架有哪些? |
Tensorflow
pyTorch
4、客户使用的数据有哪些特点? |
数据类型:主要为来自数据库的结构化数据,其次为非结构化的文本数据,主要用于NLP,最后,还有少部分图像数据。
数据规模:文件类型的从几十M到2G
5、客户的技能领域 |
IT人员:python是必备技能
业务人员:SQL(业务人员使用的数据大多存储在DB中)
6、客户对notebook的应用 |
客户指出在X范和X环产品中,可以将notebook直接发布为线上模型;
Notebook使用的容器不会被主动回收,资源不够时才进行回收
7、客户使用的模型服务的特点 |
部署模型服务的机器的常规配置:2c、8~16G
服务监控:提供可视化监控、开放相关接口以方便在公司统一的监控系统中进行监控
服务告警:客户有短消息中心
自动运维:客户期望可以做到模型资源的自动扩容或人工扩容
模型消费方式:机器训练模型的被调用的频率一般都不高,当前部署在机器学习集群中的方式基本能满足需求,但希望模型能导出PMML等通用格式,从而支持导入到机器学习集群外的服务器运行。
实时性:实时训练并更新模型是很少见的,一般而言,训练模型使用数据的时间跨度比较大,因此也要积累一定时间的数据后,再重新进行训练,例如使用2年的数据进行训练,实际上2个月训练一次模型即可。
8、有哪些可视化需求 |
特征可视化:各厂家基本持平
模型可视化:客户比较看重该功能,业务人员的数学背景比较好,但是在机器学习、深度学习等方面的经验和技能相对缺乏,所以模型可视化可以帮助业务人员理解模型。在该功能上,客户认为X范的相对较好,比如可以很好的支持随机森林、决策树等模型的可视化。由于传统机器学习算法的可解释性更强,因此在数据量不大时,用户更倾向于选择传统机器学习算法。
9、是否会在机器学习平台上进行特征工程? |
特征处理是客户建模过程中的很耗时很重要的投入,但是目前各产品在该方面的能力都一般,无法很好的满足需要,X范相对略好。
在特征工程中,用户使用的场景包括特征衍生、特征自动提取;此外,客户希望厂家能提供对非结构化数据的特征处理能力。客户认为,在该功能上的绝对优势,会成为影响用户选择产品的重要因素。
10、客户对自动建模的使用评价? |
客户认为自动建模无法满足实际的业务需求,比如原始数据可能不能直接满足自动建模的输入要求,或自动建模的效果可能到不到业务要求,如自动建模提供了图片分类、人脸识别,但可能用户需要的是从提取图片中的文字。
11、机器学习平台提供的算子不够时如何扩展? |
X环和X范扩展算子,需要在传统的IDE工具中实现,然后再导入到平台中。在该功能点上,客户对YYY提供的自定义算子功能给出了很高的评价。
12、客户上线机器学习平台的原因? |
客户认为通用的机器学习平台能够发挥的价值有限,主要是出于领导要求,此外,领导要求业务部门如资管、固收等使用平台。但实际的使用者期望的是机器学习平台与金融工程融合的产品,例如机器学习平台与量化投资的融合。
客户也提出,愿意为具体场景付费,甚至建议厂家改变销售模式,例如产品可以提供场景组件,而不仅仅是算子。
13、分类、聚类、回归,那类模型比较多? |
分类
14、科学平台的输入和输出? |
输入:主要是DB中的业务数据,也有HDFS上的数据,主要是用于NPL。
输出:包括数据,一般会写回到数据库中,但比较少;模型;在线服务。
15、客户是否有进行强化学习的需求? |
无
16、模型训练中的资源管理? |
客户期望产品支持在模型训练中自定义执行位置,如将任务提交的k8s、提交到大数据计算集群、GPU集群、本地节点。
客户提到X环的先知在运行分布式算法(spark)时,使用yarn作为资源管理器,进行资源的管控与先知,并且可以看到yarn的资源使用情况。
访谈总结 |
1、相比竞品,YYY在易用性、稳定性等方面进行提升。
2、客户需要更丰富的NLP、图像处理方面的算子。
3、考虑提供基于pyTorch的算子或运行环境。
4、客户主要数据是DB,需要考虑支持SQL、HiveSQL等。
5、尽快推出Notebook功能。
6、提升模型可视化会很好的增强YYY的竞争力。
7、提供更好的特征工程能力,这是客户实际工作中的主要痛点。