一、机器学习入门的几个简单概念
1、定义
根据维基百科定义,机器学习定义为“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。”
一般来说,各大app的内容推荐就是机器学习中的一种。这些软件通过获取我们听歌的曲风、时长、节奏或者浏览的物品类别、评价好坏等来获取我们的一些使用习惯,把这些使用习惯统称为特征,这些特分别具有对应的标签;然后后台会将获取来的数据(特征和标签)进行机器学习,得出一个模型,当我们再次登陆这类软件时,后台则会向我们推送我们可能感兴趣的内容。此外,后台获取的数据越多,模型的准确性越高,推荐的内容更符合我们口味。
2、机器学习的步骤
机器学习的具体步骤:提出问题、理解数据、数据清洗、构建模型、评估。
3、特征与标签
比如我们要分析人们对某首歌的喜恶。
特征:特征就是数据的属性,如一首歌的诸多特征:语言、节奏、风格、时长等,也就是我们输入的数据。
标签:标签是我们对数据的预测结果,对一首歌的喜恶就是标签,标签就是机器学习算法的输出结果。
4、训练数据、测试数据
训练数据(train dataset)指的是,你拿来建模型的数据,拟合数据用。
验证数据(valid dataset)指的是,你拿来挑模型的数据,因为训练数据可以训练很多个模型,你用验证数据来挑一个最好的。
测试数据(test dataset)是指,你挑完最好的了,要看你模型的泛化能力,就要用到这个验证数据了。
原则上,当你的模型在三个数据集上的表现差不多时,就说明你的模型比较稳健(robust)。当然,大多数情况都会有点过拟合,也就是在训练数据很好,在验证数据一般,在测试数据比较糟糕。
二、简单线性回归
1、几个基础概念
简单线性回归:根据数据,采用一定统计方法来建立一个表示变量之间相互关系的方程,这一统计方法称为回归分析。而最简单类型的回归分析只包括一个自变量和一个因变量,二者之间的关系可以用一条直线来近似表示,即简单线性回归。
协方差:公式为cov(X,Y)=E[(X-E[X])(Y-E[Y])]。功能:1)统计量的正负可表示相关性方向;2)统计量大小表示相关性的大小。
相关系数:公式为相关系数r=cov(X,Y)/
*
;功能:1)统计量的正负可表示相关性方向 ;2)统计量每单位的相关性大小,消除了量级的影响。
最佳拟合线:在散点图上画一条穿过这些点的直线,使这条线尽量接近各个点。你无法令这条直线穿过每一个点,不过,若存在线性相关性,则应该可以保证每一个点合理地接近你所绘制的直线。能最好地接近所有数据点的线被称为最佳拟合线。我们称之为回归方程y=a+bx,其中a为截距,b为回归系数。
相关性是变量之间的数学关系,但并不意味着一个变量一定与另一个变量为因果相关。
2、使用Python计算相关系数
2.1 建立数据集
from collections import OrderedDict
im