自助服务数据洞察:从挑战到解决方案
在当今数字化时代,数据如同新的石油,企业内部收集的结构化、半结构化和非结构化数据量呈指数级增长。从数据中提取的洞察正成为各行业企业的宝贵差异化因素,机器学习(ML)模型也广泛应用于产品特性和业务流程改进中。然而,企业面临着数据丰富但洞察匮乏的困境。
企业数据困境与挑战
Gartner预测,到2022年,80%的分析洞察无法实现业务成果。另一项研究表明,87%的数据项目从未实现生产部署。谷歌的Sculley等人的研究显示,在生产环境中实施ML时,不到5%的精力用于实际的ML算法,其余95%的精力则花费在与发现、收集和准备数据,以及在生产环境中构建和部署模型相关的数据工程上。
数据湖虽收集了大量数据,但这些数据可能存在不一致、难以解释、不准确、不及时、未标准化或不充分等问题。数据科学家花费大量时间进行工程活动,如调整数据收集系统、定义元数据、整理数据以提供给ML算法、大规模部署管道和模型等。这些活动超出了他们的核心洞察提取技能,并且由于依赖通常缺乏必要业务背景的数据工程师和平台IT工程师而受到瓶颈限制。工程复杂性限制了数据对数据分析师和科学家的可访问性,而未能将其普及到产品管理、营销、财务、工程等领域越来越多的数据使用者。
同时,尽管企业在数据技术上进行了大量投资,但自助服务数据平台计划往往要么无法启动,要么在执行过程中半途而废,主要原因有以下三点:
1. 数据用户痛点被忽视 :数据用户和数据平台工程师沟通不畅。数据工程师不了解业务问题和痛点,数据用户不理解大数据技术的局限性和现实情况,导致团队之间相互指责,问题无法得到持久解决。
2. 盲目追求新技术
超级会员免费看
订阅专栏 解锁全文
1041

被折叠的 条评论
为什么被折叠?



