
机器学习
文章平均质量分 73
基础
自学AI的鲨鱼儿
一个小白学习AI的个人笔记
有朋友发现错误谢谢指出
展开
-
基础知识_Scikit-learn 模型评估(三)
一、原创 2021-01-15 19:09:02 · 213 阅读 · 1 评论 -
基础知识_Scikit-learn 降维(二)
一、原创 2021-01-20 23:11:58 · 109 阅读 · 1 评论 -
基础知识_Scikit-learn(一)
一、原创 2021-01-12 19:18:33 · 202 阅读 · 3 评论 -
机器学习基础认识
一、机器学习的概念1、概念:对于某给定的任务T,在合理的性能度量方案P的前提下,某计算机程序可以自主学习任务T的经验E; 随着提供合适、优质、大量的经验E,该程序对于任务T的性能逐步提高2、本质:① 旧数据预测未来的数据 ② 机器模拟人的决策的程序3、方法:根据真实的映射关系f数据,建立模型映射关系g,寻找g≈f。 (1)概念图解: (2)...原创 2019-03-14 19:49:38 · 1100 阅读 · 2 评论 -
回归、分类、无监督算法模型
-------------------------------------- 回归 ------------------------------------------------• 线性回归算法(基础线性回归、ridge回归、lasso回归、弹性网络)、多项式回归算法 ------ 线性的,数据是线性数据。• 神经网络• 回归树(CART分类回归树,回归预测结果是分段函数)和 随机森林...原创 2019-03-19 10:45:17 · 1031 阅读 · 0 评论 -
线性回归
一、线性回归的概念1、线性的概念:将求 x --> y的映射关系 转化为 关于 θ 的线性回归,权重系数 θ 最高次幂是 1(与特征属性 X 的次数无关)。2、线性回归的类型:有监督学习(y标签是连续的)3、线性回归本质:构造一个函数,使得样本点均匀分布在该函数图像(二维:线、三维:面 ..... )的两侧4、求解回归方程本质:求 最优 权重系数 θ 矩阵二、...原创 2019-03-19 10:46:08 · 2292 阅读 · 0 评论 -
KNN(K近邻算法)
一、KNN基本知识KNN算法 -------- 做分类(二分类、多分类)、也可以做回归===================================KNN的三要素: K值的影响: 1. K值过小,可能会导致过拟合 2. K值过大,可能会导致欠拟合 距离的计算方式: 一般使用欧氏距离(欧几里得距离); 决策函...原创 2019-03-25 17:58:52 · 18335 阅读 · 3 评论 -
决策树
一、决策树算法基础1、决策树算法: NOTE: 决策树是一个贪心算法,每次选择划分数据的划分节点的时候,都是选择让损失函数变的更小的这个特征属性作为划 分节点,只考虑局部最优没有考虑全局最优。 在分类的时候,损失函数可以理解为信息熵;在回归的时候,损失函数可以理解为MSE。 只有基于决策树模型才能传入多个标签,其他的...原创 2019-03-27 18:40:39 · 2740 阅读 · 0 评论 -
集成学习(思想)
一、集成学习简介一、集成学习是什么?集成学习基本原理是什么?构建原理是什么? 1、集成学习的概念:集成学习的思想是将若干个子学习器(分类器&回归器)通过某种策略(Bagging、Boosting)组合之 后产生一个新学习器,在外界看来,输入X ---> 输出Y是一个模型的效果。 2、集成学习的基本原理: 3、集成学习的构建原理: ...原创 2019-03-28 10:26:34 · 4376 阅读 · 0 评论 -
机器学习API汇总
1、模型存在多个需要预测的y值,如果是这种情况下,简单来讲可以直接模型构建,在模型内部会单独的处理每个需要预测的y值 ,相当于对每个y创建一个模型一、数据清洗API(针对 np.nan) 1、Imuter 数据清洗from sklearn.preprocessing import Imputer#空值的处理# 使用Imputer给定缺省值,默认的是以mean#...原创 2019-03-31 22:13:36 · 1372 阅读 · 0 评论 -
聚类算法(无监督学习)
一、聚类的基本知识1、基本概念1、聚类算法的类型:无监督学习2、聚类的概念:对于大量未知标签的数据集,根据数据的特征属性X划分为不同的类别(蔟),类别(蔟)内数据相似度高,类别 间的相似度较小。3、聚类样本的相似度:样本项之间的相似度,有时候也称为样本间的距离。4、聚类算法与分类算法的区别: • 分类算法是有监督学习,基于有标注的历史数据进行算法模型构建 •...原创 2019-04-01 21:57:02 · 10025 阅读 · 2 评论 -
SVM 支持向量机
一、SVM基础知识 1、SVM知识回顾 (1)梯度下降法1、梯度下降法: 1.1、算法目的:求凸函数极值(最值) 1.2、适用场景:目标函数必须是凸函数(数学上称作下凹函数) 1.3、梯度下降的公式:x1 = x1 - α * df(x1) 1.4、BGD、SGD、MSGD的关系: • 当样本量为m的时候,每次迭代BGD算法中...原创 2019-04-03 18:45:30 · 1205 阅读 · 0 评论 -
多分类及多标签分类算法
一、单标签多分类1、单标签二分类算法原理1、单标签二分类这种问题是我们最常见的算法问题,主要是指label 标签的取值只有两种,并且算法中只有一个需要预测的label标签; 直白来讲就是每个实例的可能类别只有两种(A or B);此时的分类 算法其实是在构建一个分类线将数据划分为两个类别。2、常见的算法:Logistic、SVM、KNN、决策树等2、单标签多分类算法...原创 2019-04-08 19:49:55 · 32150 阅读 · 10 评论 -
逻辑回归
一、逻辑回归基础1、逻辑回归底层用的sigmiod函数(0 , 1),决策函数是 θx (<0 or >0)2、SVC底层用的是sign函数(-1 , 1),决策函数是 wx + b (<0 or >0)3、LR 需要考虑所有的样本点的概率(尽量越远离阈值越好),即异常点敏感 ;SVM只考虑支持向量。4、逻辑回归 sklearn API 支持同时输入多列...原创 2019-04-09 09:57:54 · 419 阅读 · 0 评论 -
贝叶斯分类器、EM算法、GMM
一、贝叶斯分类器基础0、叶斯定理可表述为:后验概率 = (似然性*先验概率)/标准化常量后验概率与先验概率和相似度的乘积成正比。另外,P(B|A)/P(B)也有时被称作标准似然度(standardised likelihood),贝叶斯定理可表述为:后验概率 = 标准似然度*先验概率--------------------- 作者:kongkongqixi 原文:https:...原创 2019-04-09 19:27:21 · 3062 阅读 · 1 评论 -
HMM(隐马尔可夫)、MEMM(最大熵马尔科夫)、CRF(条件随机场)
一、HMM(隐马尔科夫)1、马尔可夫过程 1、马尔可夫过程: 马尔可夫过程分为 一阶马尔科夫过程 和 n阶马尔可夫过程,要使用 隐马尔可夫HMM模型 必须认可马尔可夫过程的假设。 参考文章: https://blog.youkuaiyun.com/qq_16555103/article/details/95611527---- 马尔可夫...原创 2019-04-10 21:13:57 · 2621 阅读 · 0 评论 -
机器学习算法总结
0、过拟合欠拟合一般情况下,模型的训练需要考虑两个方面:1. 模型训练准不准(是否欠拟合) --- 可以通过模型的效果评估2. 模型复杂度高不高(是否过拟合) --- 可以通过模型在训练数据和测试数据上的效果差异情况来比较 ===============================================================================...原创 2019-04-11 13:10:11 · 418 阅读 · 0 评论 -
特征工程一
一、特征工程的基本知识1、什么是特征工程特征工程理解:将一种数据转化另一种数据;使得模型效果更佳的所有操作都可以称作为特征工程。2、常规特征工程1、异常数据的处理方式2、数据不平衡的处理方式3、文本的处理方式:词袋法(TF)、TF-IDF(词频-逆向文件频率)4、维度扩展(多项式扩展、树模型(GBDT等)扩展维度(树模型扩展的维度是离散值,可以用哑编码))、哑编码、标准化...原创 2019-04-16 10:50:59 · 975 阅读 · 0 评论 -
特征工程二(多重共线性)
八、多重共线性1、多重共线性影响: 1.1、多重共线性与哑编码的适用场景类似,即影响基于 wx + b 的模型(线性回归、逻辑回归、SVM)。PCA: 降维 --> 内部相当于将多个特征属性做一个线性转换/映射 --> 转换之后得到的每个特征属性之间是独立的 --> PCA是 可以解决多重共线性问题的------------------------...原创 2019-04-22 12:38:50 · 1360 阅读 · 0 评论 -
GBDT梯度提升树
一、GBDT 基本原理0、GBDT利用的是CART回归树损失函数的一阶负梯度来近似模拟当前模型的真实值(实际上是上一轮模型预测值与真实值的残差),从而达 到减小损失函数的目的。1、GBDT基模型必须是CART回归树(无论是分类问题还是回归问题),而Adaboost基模型可以是多个类别,默认为CART决策树。2、GBDT模型的根本目的:模型要求训练集样本的预测值与真实值的残差尽...原创 2019-07-08 15:18:03 · 270 阅读 · 1 评论 -
XGboost算法
一、XGBoost基本原理 参考文章: https://blog.youkuaiyun.com/qq_22238533/article/details/79477547 ------xgboost原理分析以及实践(转载) https://blog.youkuaiyun.com/sb19931201/article/details/52557382...原创 2019-07-09 15:48:17 · 790 阅读 · 0 评论 -
主题模型LDA、NMF、LSA
一、主题模型解决了哪些问题1、主题模型的概念: 主题模型是提取文本 抽象主题相似度 的一种统计模型,自动分析每个文档,统计文档内词语,根据统计的信息判断当前文档包含哪 些主题以及各个主题所占比例各为多少(将原来 文档-单词 的高维特征数组 >>>>> 文档-主题 的低维数组,因此主题模型可以 起到降维的作用)2、传统判断文本相似度方法缺...原创 2019-07-10 20:04:47 · 5805 阅读 · 9 评论 -
条件随机场CRF
一、基本概念1、HMM 回顾(1)HMM 模型基本结构• HMM即隐马尔可夫模型,它是处理序列问题的统计学概率模型,描述的过程为:由隐 马尔科夫链随机生成不可观测的状态随机序列,然后各个状态分别生成一个观测,从而产生观测随机序列。• 在这个过程中,不可观测的序列称为状态序列(state sequence), 由此产生的序列称 为观测序列(observa...原创 2019-07-10 20:05:27 · 298 阅读 · 0 评论 -
特征工程三 降维
。。。原创 2019-07-10 20:06:59 · 163 阅读 · 0 评论 -
HMM原理解析(转载)
转载链接: https://blog.youkuaiyun.com/yywan1314520/article/details/50454063 一、HMM基本概念隐马尔可夫模型(Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触...转载 2019-07-12 13:36:41 · 2884 阅读 · 0 评论 -
模型参数优化方法
1、梯度下降 pass2、坐标轴下降法1、坐标轴下降法(Coordinate Descent, CD): 是一种迭代法,通过启发式的方 法一步步的迭代求解函数的最小值,和梯度下降法(GD)不同的时候,坐标 轴下降法是沿着坐标轴 的方向去下降,而不是采用梯度的负方向下降。 坐标轴下降法的思想: 坐标轴下降法...原创 2019-07-17 18:31:09 · 2789 阅读 · 0 评论