语言与计算:数据科学中的语言感知应用
语言感知应用的现状与挑战
如今,利用自然语言处理来理解文本和音频数据的应用程序已成为我们生活中的一部分。它们为我们整理网络上大量的人类生成信息,提供了新的、个性化的人机交互方式。从过滤垃圾邮件的过滤器,到精准导航的搜索引擎,再到随时待命的虚拟助手,这些应用无处不在,我们也习以为常。
语言感知功能是实验、研究和实际软件开发相结合的数据产品。用户直接体验文本和语音分析应用,他们的反馈会调整应用和分析过程。这个良性循环起初可能简单,但随着时间推移会发展成复杂且有价值的系统。
然而,尽管将基于语言的功能集成到应用程序中的潜力不断增加,但大部分此类应用由大型公司推出。原因之一是这些功能普及后变得不那么显眼,掩盖了实现它们的复杂性;另一个原因是数据科学的发展尚未完全融入软件开发文化。
数据科学范式
过去十年,由于机器学习和可扩展数据处理的创新,“数据科学”和“数据产品”成为热门词汇,数据科学家这一职业也应运而生。数据科学家兼具统计学家、计算机科学家和领域专家的角色,他们将学术研究与商业产品开发联系起来。这部分是因为许多数据科学家有研究生学习经历,具备多领域技能和创造力,更重要的是数据产品开发过程具有实验性。
但数据科学工作流程与软件开发实践并不总是兼容。数据具有不可预测性,信号也不总是存在。正如 Hilary Mason 所说,数据科学并不总是敏捷的。Russell Jurney 也指出,交付生产软件和通过敏捷流程获取可操作的见解存在根本差异,敏捷软件开发方法难以处理数据科学中的不确定性。
因此,数据科学家和数据科学部门常与开发团队独立运作。数据科学工作为高级管理层提供业
超级会员免费看
订阅专栏 解锁全文
23万+

被折叠的 条评论
为什么被折叠?



