XX证券 机器学习平台使用情况访谈总结

本文摘录了证券行业客户对X环、X范及YYY等AI产品的使用反馈,重点讨论了机器学习场景、算子需求、模型服务特性及特征工程挑战。客户偏好NLP和图像处理,强调模型可视化和特征工程的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

访谈摘要

访谈时间:XX

访谈地点:XX证券

访谈对象:客户IT人员和业务人员

客户现状

客户对X环、X范以及YYY都有使用经验;

使用对象包括客户的IT人员和业务人员:IT人员具有编程、代码开发能力,而业务人员主要技能是数学。

问题汇总

1、客户对YYY、X环、X范的产品比较?

易用性:X环易用,YYY比较难上手。

可用性:X环提供的算子最丰富,YYY的需要提供更多的算子。

稳定性:X范最稳定。

比较优势:X环NLP比较强;X范:图像处理比较强,但该功能需要单独购买;YYY:支持自定义算子

2、客户当前的机器学习场景有哪些?

使用最多的机器学习场景为自然语言处理,具体场景包括关键词抽取、自动摘要生成等。

此外,客户对图像处理也有一定需求,具体场景包括人脸识别、图像分类。

3、客户当前使用的开源机器学习框架有哪些?

Tensorflow

pyTorch

4、客户使用的数据有哪些特点?

数据类型:主要为来自数据库的结构化数据,其次为非结构化的文本数据,主要用于NLP,最后,还有少部分图像数据。

数据规模:文件类型的从几十M到2G

5、客户的技能领域

IT人员:python是必备技能

业务人员:SQL(业务人员使用的数据大多存储在DB中)

6、客户对notebook的应用

客户指出在X范和X环产品中,可以将notebook直接发布为线上模型;

Notebook使用的容器不会被主动回收,资源不够时才进行回收

7、客户使用的模型服务的特点

部署模型服务的机器的常规配置:2c、8~16G

服务监控:提供可视化监控、开放相关接口以方便在公司统一的监控系统中进行监控

服务告警:客户有短消息中心

自动运维:客户期望可以做到模型资源的自动扩容或人工扩容

模型消费方式:机器训练模型的被调用的频率一般都不高,当前部署在机器学习集群中的方式基本能满足需求,但希望模型能导出PMML等通用格式,从而支持导入到机器学习集群外的服务器运行。

实时性:实时训练并更新模型是很少见的,一般而言,训练模型使用数据的时间跨度比较大,因此也要积累一定时间的数据后,再重新进行训练,例如使用2年的数据进行训练,实际上2个月训练一次模型即可。

8、有哪些可视化需求

特征可视化:各厂家基本持平

模型可视化:客户比较看重该功能,业务人员的数学背景比较好,但是在机器学习、深度学习等方面的经验和技能相对缺乏,所以模型可视化可以帮助业务人员理解模型。在该功能上,客户认为X范的相对较好,比如可以很好的支持随机森林、决策树等模型的可视化。由于传统机器学习算法的可解释性更强,因此在数据量不大时,用户更倾向于选择传统机器学习算法。

9、是否会在机器学习平台上进行特征工程?

特征处理是客户建模过程中的很耗时很重要的投入,但是目前各产品在该方面的能力都一般,无法很好的满足需要,X范相对略好。

在特征工程中,用户使用的场景包括特征衍生、特征自动提取;此外,客户希望厂家能提供对非结构化数据的特征处理能力。客户认为,在该功能上的绝对优势,会成为影响用户选择产品的重要因素。

10、客户对自动建模的使用评价?

客户认为自动建模无法满足实际的业务需求,比如原始数据可能不能直接满足自动建模的输入要求,或自动建模的效果可能到不到业务要求,如自动建模提供了图片分类、人脸识别,但可能用户需要的是从提取图片中的文字。

11、机器学习平台提供的算子不够时如何扩展?

X环和X范扩展算子,需要在传统的IDE工具中实现,然后再导入到平台中。在该功能点上,客户对YYY提供的自定义算子功能给出了很高的评价。

12、客户上线机器学习平台的原因?

客户认为通用的机器学习平台能够发挥的价值有限,主要是出于领导要求,此外,领导要求业务部门如资管、固收等使用平台。但实际的使用者期望的是机器学习平台与金融工程融合的产品,例如机器学习平台与量化投资的融合。

客户也提出,愿意为具体场景付费,甚至建议厂家改变销售模式,例如产品可以提供场景组件,而不仅仅是算子。

13、分类、聚类、回归,那类模型比较多?

分类

14、科学平台的输入和输出?

输入:主要是DB中的业务数据,也有HDFS上的数据,主要是用于NPL。

输出:包括数据,一般会写回到数据库中,但比较少;模型;在线服务。

15、客户是否有进行强化学习的需求?

16、模型训练中的资源管理?

客户期望产品支持在模型训练中自定义执行位置,如将任务提交的k8s、提交到大数据计算集群、GPU集群、本地节点。

客户提到X环的先知在运行分布式算法(spark)时,使用yarn作为资源管理器,进行资源的管控与先知,并且可以看到yarn的资源使用情况。

访谈总结

1、相比竞品,YYY在易用性、稳定性等方面进行提升。

2、客户需要更丰富的NLP、图像处理方面的算子。

3、考虑提供基于pyTorch的算子或运行环境。

4、客户主要数据是DB,需要考虑支持SQL、HiveSQL等。

5、尽快推出Notebook功能。

6、提升模型可视化会很好的增强YYY的竞争力。

                          7、提供更好的特征工程能力,这是客户实际工作中的主要痛点。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

汀桦坞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值