机器学习在数据处理与异常检测中的应用
1. 人类局限与机器学习的作用
人类的记忆有限,难以直观呈现高维数据,并且在解决非常复杂的问题时认知资源受限。机器学习(ML)工具能够帮助我们应对复杂性,从而提高人类的生产力和效率。值得注意的是,如果设计得当,ML工具可以消除决策过程中的人为偏见。
2. 不同规模企业对ML工具的应用策略
大型企业正在使用ML工具来解决大规模、高关注度的商业和工程问题。而小型企业应该尝试识别那些被忽视的、平凡的任务,并部署ML来解决它们。目前围绕ML的炒作使得大型企业将精力投入到引人注目的、有新闻价值的、可市场化的任务上。此外,人们对当前ML趋势和成功案例进行了大量外推,设想出许多令人兴奋但表面化的未来场景。实际上,只有当我们尝试解决平凡且“枯燥”的应用时,ML才会出现更有用的应用,而这些应用可能永远不会成为焦点。
3. 机器学习技术概述
3.1 基本术语
在讨论异常值之前,需要明确几个基本术语:
- 数据集 :由多个样本的特征和/或目标的各种信息组成,是对应于多个样本的特征和/或目标值的集合。
- 样本 :数据集中的单个数据点。
- 特征 :可以为数据集中每个样本测量或计算的物理属性或特征。
- 目标 :可观察或可测量的结果,样本的目标值是该样本某些特征组合的结果。
对于无监督学习,相关数据集仅包含所有可用样本的特征;而对于有监督学习,数据集包含所有可用样本的特征和相应的目标。数
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



