机器学习算法总结
追风箭0211
平淡且努力。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
线性回归预测房价(学会scikit-learn)
说明:这篇就是为了让我们更好的利用scikit-learn做机器学习,现以简单的线性回归为例子了解下如何调用scikit-learn一些基本流程。每一块代码下面我们会进行一些分析。任务:基于usa_housing_price.csv数据,建立线性回归模型,预测合理房价:1、以面积为输入变量,建立单因子模型,评估模型表现,可视化线性回归预测结果2、以income、house age、numbers of rooms、population、area 为输入变量,建立多因子模型,评估模型表现3、预测in原创 2020-11-21 17:03:56 · 9489 阅读 · 6 评论 -
np.c_和np.r_的常用用法
np.c_是按列增加拼接两个矩阵(效果是每行看上去延长了),就是把两矩阵左右相加,要求行数相等。np.r_是按行增加拼接两个矩阵(效果是每列看上去延长了),就是把两矩阵上下相加,要求列数相等。参见文档例子:运行环境jupyternotebook1.np.c_的用法:np.c_[np.array([1,2,3]), np.array([4,5,6])]分析:先明确np.array是用于数据科学计算的,array后面一个方括号数据都是默认列向量的,这也符合机器学习中特征和参数都是默认列向量。列向量原创 2020-11-17 13:20:55 · 4407 阅读 · 2 评论 -
L1范数与L2范数对比
L1和L2范数的比较L0范数是指向量中非0的元素的个数。(L0范数很难优化求解)L1范数是指向量中各个元素绝对值之和L2范数是指向量各元素的平方和然后求平方根L1范数可以进行特征选择,即让特征的系数变为0.L2范数可以防止过拟合,提升模型的泛化能力,有助于处理 condition number不好下的矩阵(数据变化很小矩阵求解后结果变化很大)(核心:L2对大数,对outlier离群点更敏感!)下降速度:最小化权值参数L1比L2变化的快模型空间的限制:L1会产生稀疏 L2不会。L1会趋向于产原创 2020-11-13 15:22:30 · 5231 阅读 · 0 评论 -
WIN下载github项目中的某个文件夹或者文件的方法
问题:github里某个项目太大,不想全部下载或者下载过的项目只更新了某几个文件,不需要全部下载。亲测解决方法:1.下载工具:tortoisesvnhttps://tortoisesvn.net/downloads.html2.在想要下载到的目录文件夹内部右键:3.输入下载文件的地址并更改:注:1.每个地址都有tree/master,后面多长不用管,只改这个。2.改为trunkreference:https://blog.youkuaiyun.com/qq_35608277/article转载 2020-11-12 21:54:57 · 423 阅读 · 0 评论 -
线性回归模型评估:R-square(确定系数)、均方根、均方差
线性回归模型评估通过几个参数验证回归模型SSE(和方差,误差平方和) :The sum of squares due to errorMSE(均方差,方差):Mean squared errorRMSE(均方根,标准差):Root mean squared errorR-square(确定系数):Coefficient of determination(主要用R方来做评估)1.SSE(和方差)该统计参数计算的是拟合数据和原始数据对应点的误差的平方和,计算公式如下:SSE越接近于0,说明原创 2020-11-11 20:46:16 · 71034 阅读 · 7 评论 -
孤立森林算法介绍
孤立森林算法应用于网络安全中的攻击检测,金融交易欺诈检测,疾病侦测,和噪声数据过滤等。1. 孤立森林简介iForest(IsolationForest)孤立森林是一个基于Ensemble 的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法。iForest 适用于连续数据的异常检测,将异常定义为“容易被孤立的离群点”,可以理解为分布稀疏且离密度高的群体较远的点。用统计学来解释,在数据空间里面,分布稀疏的区域表示数据发生在此区域的概率很低,因而可以原创 2020-11-04 10:19:21 · 5383 阅读 · 0 评论 -
线性回归(归纳)
线性回归介绍1.简单介绍线性回归线性回归就是利用的样本D=(Xi,Yj),i=1,2,3...N,XiD=(X_i,Y_j),i =1,2,3...N,X_iD=(Xi,Yj),i=1,2,3...N,Xi是特征数据,可能是一个,也可能是多个,通过有监督的学习,学习到由xxx到yyy的映射hhh,利用该映射关系对未知的数据进行预估,因为yyy为连续值,所以是回归问题。2. 线性回归的假设函数是什么形式?线性回归的假设函数(θ0θ_0θ0表示截距项,x0=1x_0=1x0=1,方便矩阵表达)原创 2020-11-01 00:37:00 · 612 阅读 · 0 评论 -
线性回归(完整归纳,复习,面试)
1.什么是线性回归线性:两个变量之间的关系是一次函数关系的——图象是直线,叫做线性。非线性:两个变量之间的关系不是一次函数关系的——图象不是直线,叫做非线性。回归:人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。2. 线性回归能够解决什么样的问题对大量的观测数据进行处理,从而得到比较符合事物内部规律的数学表达式。也就是说寻找到数据与数据之间的规律所在,从而就可以模拟出结果,原创 2020-10-27 16:12:04 · 1723 阅读 · 0 评论
分享