机器学习、数据挖掘、数据科学与概率统计基础
1. 人工智能、机器学习、数据挖掘和数据科学的关系
- 人工智能(AI) :AI处于机器人技术的核心。它被定义为制造智能机器的科学与工程。AI融合了众多科学和专业领域,如语言学、哲学、心理学、神经科学、数学和计算机科学等,机器学习通常被视为AI的一个子集。
- 数据挖掘 :数据挖掘是计算机科学的一个跨学科子领域。KDD将知识发现和数据挖掘的目标定位为推进、教育和应用相关“科学”。数据挖掘方法常被看作是AI、机器学习、统计学和数据库系统的交叉。例如,WEKA是数据挖掘研究和项目中广泛使用的工具,有研究显示经典书籍《Data Mining: Practical machine learning tools and techniques with Java》最初名为《Practical Machine Learning》,“数据挖掘”一词是为营销而添加的,这也表明机器学习是数据挖掘的核心。
- 数据科学 :数据科学就像一把大伞,涵盖了所有能从数据中获取洞察并构建智能系统的内容。它强调数据的重要性超过学习算法,建立了先进行描述性数据分析再进行建模的流程。数据科学还促进了公司各部门之间的协同,以数据作为通用语言进行沟通,推动了数据驱动的增长和数据产品的出现。著名数据科学家Drew Conway用维恩图将机器学习置于黑客技能与数学和统计知识的交集处。
2. 概率与统计的基本概念
-
概率与统计的作用 :概率和统计能