
机器学习
文章平均质量分 75
醉翁之意不在酒~
我很懒,还没有添加简介
展开
-
机器学习和大数据基础数据集--免费
bank.xlsxigua.csviris.txtearthquake.csvsample_movielens_ratings.txtsample_libsvm_data.txtboston_housing_data.csvAdvertising.csvbreast-cancer-wisconsin.databike_sharingcreditcard.csvEN1027_processed.xlsxair_data.csvpima-indians-diabetesconstr原创 2022-10-19 08:59:14 · 1169 阅读 · 2 评论 -
GridSearchCV调参过程展示 + 模型融合
GridSearchcv调参过程展示及模型融合技巧原创 2022-06-23 11:24:21 · 1598 阅读 · 0 评论 -
朴素贝叶斯
一、贝叶斯公式1、条件概率设A,B为任意两个事件,若P(A)>0,我们称在已知事件A发生的条件下,事件B发生的概率为条件概率,记为P(B|A),并定义:2、全概率公式如果 UAi =Ω,AiAj ≠Φ(对一切i ≠j) ,P(Ai )>0,则对任一事件B,有:图解:例:假设聊天室内有3个学生,分别为甲、乙、丙,聊天内容包括提问、发闲话,我们假设:那么学生提问的概率为多少?(1) 设提问的概率为b,那么有P...原创 2022-03-08 17:48:50 · 958 阅读 · 0 评论 -
机器学习-XGBoost
一、XGBoost是什么XGBoost是基于GBDT实现的,但GBDT算法只利用了一阶的导数信息,xgboost对损失函数做了二阶的泰勒展开,并在目标函数之外加入了正则项对整体求最优解,用以权衡目标函数的下降和模型的复杂程度,避免过拟合。 同时XGBoost在许多竞赛上有着非常好的表现二、XGBboost与scikit-learn结合使用、XGBoost提供一个wrapper类,允许模型可以和scikit-learn框架中其他分类器和回归器一样对待XGB...原创 2022-02-20 16:32:12 · 1479 阅读 · 0 评论 -
机器学习-Boosting(AdaBoost、GBDT)
一、集成模型二、Boosting1、思想Boosting:将弱学习器组合成强学习器Boosting思想:个体学习器之间存在强依赖关系,一系列个体学习器基本都需要串行生成,然后使用组合策略,得到最终的集成模型,这就是boosting的思想。(Bagging为并行,且不存在依赖关系)2、实现Boosting可以视为一种自适应基模型:其中Φm(x)为基函数/弱学习器(一般选用CART)Boosting在集成学习领域是非常耀眼的一类方法,其中又以AdaBo.原创 2022-02-19 17:25:12 · 4935 阅读 · 0 评论 -
机器学习-随机森林(Random Forest)
一、回归树的缺点1、回归树算法的方差大2、一种降低方差的方式是平均多个模型的预测:Bagging(Bootstrap Aggregating)3、随机森林:Bagging多棵树二、Bootstrap Aggregating通过对原始数据D= {x1,x2,x3,...,xn}进行n次有放回采样n个数据集D,得到Bootstrap样本。(对原始数据进行有放回随机采样,抽取数量等于原始数据样本数,可能出现重复数据)例:原始样本为:D{x1,x2,x3}则bootstrap可能为:D.原创 2022-02-18 17:08:56 · 1510 阅读 · 0 评论 -
机器学习-决策树
一、决策树的概念决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。决策树是一种十分常用的分类回归方法。二、树的组成根节点:第一个选择点非叶子节点:中间过程叶子节点:最终决策结果如图:决策(长方形块)为根节点、1和2(圆形)为非叶子节点、三角形为叶子节点。三、决策树的训练与测试1、训练与测试训练阶段:从给定的训练集中构造出一颗树(从根节点开始选择特征,如何进行特征切分)测试阶...原创 2022-02-10 17:29:41 · 2941 阅读 · 0 评论 -
特征缩放:归一化,标准化
数据集如下:对比:代码实现:#preprocess数据预处理from sklearn.preprocessing import MinMaxScaler,StandarScaler#创建一个DataFrame对象import pandas as pda = pd.DataFrame([ [2104,3,399900], [1600,3,329900], [2400,3,369000], [1416,2,232000], [3000,4,539原创 2022-02-09 12:51:46 · 1245 阅读 · 0 评论 -
SVM支持向量机
一、SVM要解决的问题1、什么样的决策边界才是最好的?2、特征数据本身就很难分,怎么办?3、计算复杂度怎么样,能应用到实际中吗?二、最大间隔分类器最大间隔原则:最大化两个类最近点之间的距离--这个距离被称为间隔--边缘上的点被称为支持向量我们先假设分类器是线性可分的,那么有:如图间隔就是蓝色实线和黑色虚线以及橙色虚线的距离,支持向量就是位于黑色虚线以及橙色虚线上的点。支持向量机要做的就是去找到一条线使得间隔最大,在多维空间上就是找到一个超平面。三、硬间隔SVM原创 2022-01-25 18:55:56 · 2347 阅读 · 0 评论 -
SVD分解
一、SVD简介奇异值分解(SVD)是在机器学习领域广泛运用的算法,他不光可以用在降维算法中的特征值分解,还可以用于推荐系统,以及自然语言处理等领域,是很多算法的基石。二、特征值和特征向量我们首先回顾下特征值和特征向量的定义如下:Ax=λx其中A是一个nXn的矩阵,x是一个n维向量,则我们说入是矩阵A的一个特征值,而x是矩阵A的特征值入所对应的特征向量。求出特征...原创 2022-01-23 16:33:05 · 73339 阅读 · 16 评论 -
PCA降维
一、主成分分析1、动机:多个变量之间往往存在一定的相关性,可以通过线性组合的方式从中提取信息。2、主成分分析:将原始的n维数据投影到低维空间,并尽可能的保留更多的信息。---投影后方差最大---最小化重构误差从而达到降维的目的:使用较少的主成分得到较多的信息。二、图像解释比如我们想把二维数据降维到一维,那么我们要去找到一条线使得投影后方差最大,如二图中的直线,然后我们把二维的点都投影到这条线上,此时线上的投影点既是我们降维后得到的数据,那么我们该如何实现这个操作?三、底.原创 2022-01-20 13:35:05 · 6747 阅读 · 0 评论 -
逻辑回归评估指标
一、混淆矩阵1、首先我们要了解什么是混淆矩阵以及每一部分的含义:TP: 将正类预测为正类数(真阳性)FN: 将正类预测为负类数(伪阴性)FP: 将负类预测为正类数(伪阳性)TN: 将负类预测为负类数(真阴性)2、案例:假设我们手上有60个正样本,40个负样本,我们想找出所有的正样本,模型查找出50个,其中只有40个是真正的正样本。TP:40FN:20FP:10TN:30二、分类精度衡量指标准确率(accuracy) = 预测对的/所有 = (T原创 2022-01-17 14:50:43 · 2585 阅读 · 0 评论 -
机器学习-逻辑回归
一、什么是逻辑回归1、逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model ,也译作“评定模型”、“分类评定模型”) 2、常用于做数据的初步判断,(推荐算法,医疗诊断等) 3、是通过线性模型完成分类效果(线性可分)逻辑回归实际解决的是分类问题!二、Sigmoid函数其中z=。实际上g(z)并不是预测结果,而是预测结果为正例的概率,一般来说阈值为0.5,也就是当g(z)>..原创 2022-01-16 15:30:50 · 982 阅读 · 0 评论 -
正则化防止过拟合
一、过拟合和欠拟合正则化是防止过拟合的一种方法,因此要想知道正则化是怎样的那么必须先去认识什么是过拟合:二、正则化方法1、L1正则(Lasso)正则化的实现方法其实就是在代价函数后面加上正则化项对于lasso它的正则化系数为:下文中Co代表代价函数:先计算它的导数:上式中sgn(w)表示w的符号,w更新方程:比原始的更新规则多出了η * λ * sgn(w)/n这一项。当w为正时,更新后的w变小。当w为负时,更新后的w变大...原创 2022-01-13 17:50:30 · 1999 阅读 · 0 评论 -
机器学习-线性回归
机器学习-线性回归详解原创 2022-01-07 20:08:24 · 1347 阅读 · 0 评论