1.机器学习正是这样得一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况的时候,模型会给我们提供相应的判断。如果说计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究关于“学习算法”的学问。
2.归纳(induction)和演绎(deduction)是科学推理的两大基本手段。前者是从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性规则;后者则是从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况。例如,在数学公理系统中,基于一组公理和推理规则推导出与之相洽的定理,这是演绎;而“从样例中学习”显然是一个归纳的过程,因此亦称“归纳学习(inductive learning)。
归纳学习由广义和狭义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学的概念,因此称为“概念学习”或“概念”形成。概念学习技术目前研究、应用都比较少,因为要学得泛化性能好且语义明确得概念确实太困难了,现实常用的技术大多数是产生“黑箱”模型。
根据训练数据是否拥有标记信息,学习任务可大致分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类是后者的代表。
3.特征分析是从一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。例如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。
4.算子(Operator)通常指在解决问题中进行的各种操作,人们利用各种算子来改变问题的起始状态,经过各种中间状态,逐步达到目标状态,从而解决问题。
在FusionInsight Miner中,算子代表某个数据处理子步骤,它屏蔽了编程细节,直接在编码界面拖拽算子图标、连接算子和修改算子属性,即可实现对数据的导入、导出、转换等处理。
NFL(No Free Lunch)定理,翻译过来就是“没有免费午餐”定理,收的是在机器学习中,没有给定具体问题的情况下,或者说面对的是所有问题的情况下,没有一种算法能说得上比另一种算法好。换成我们的俗话讲,就是“不存在放之四海而皆准的方法”。只有在给定某一问题,比如说给“用特定的数据集给西瓜进行分类”,才能分析并指出某一算法比另一算法好。这就要求我们具体问题具体分析,而不能指望找到某个算法后,就一直指望着这个“万能”的算法。这大概也是no free lunch名字的由来吧。