近年,人工智能技术发展迅速,其应用场景遍布于交通、金融、文娱、教育、医疗以及零售等各领域。“AI普及”除得益于算法技术获取层层突破,位于“基础层”的“结构化数据”也功不可没。
作为AI算法的“导师”——结构化数据帮助模型理解数据特征以及背后意义,最终实现智能化。然而,“导师”的水平差异同时影响“学生”拥有不同的能力表现,即结构化数据的量级和标注精度,将决定模型识别与认知的准确性。
倍赛BasicFinder“精炼”出3项产出举措以保证数据质量:
1. 追求应用专业设备和专业人员;
2. 应用数据标注与数据采集一体化工具平台;
3. 高度定制化数据采集与数据标注服务。
下面通过3个案例来解读各举措效应
语音合成(TTS)数据定制案例
——追求应用专业设备和专业人员举措解读
如倍赛BasicFinder曾为某媒体平台提供有声读物的语音合成(TTS)数据定制方案。
在整体数据解决方案的执行过程中,倍赛BasicFinder充分考虑到客户语音数据的质量要求、安全性和效率,采取了进一步的控制措施。数据质量方面,倍赛为合作媒体选择了专业的男女声优,声优必须达到普通话一级以上水平(包括一级甲等和一级乙等),同时为声优选择配备高品质硬件设备的专业录音棚录音。其次,倍赛BasicFinder的语料文本设计师,均为国内知名语言学专家。