
机器学习学习笔记
文章平均质量分 91
worden丶
这个作者很懒,什么都没留下…
展开
-
机器学习学习笔记(十二)之K-means算法
一、无监督学习包含算法eans聚类——K-means降维——PCA二、K-means算法原理随机设置K个特征空间内的点作为初始的聚类中心对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)如果计算得出的新中心点与原中心点一样(质心不再移动),那么结束,否则重新进行第二步过程三、APIsklearn.cluster.KMeans(n_clusters=8,init = ‘k-means原创 2020-09-08 16:29:36 · 272 阅读 · 0 评论 -
机器学习学习笔记(十一)之sklearn模型保存与加载
一、APIfrom sklearn.externals import joblib保存:joblib.dump(rf,‘test.pkl’)加载:estimator = joblib.load(‘test.pkl’)二、案例from sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import Standa原创 2020-09-08 15:53:24 · 350 阅读 · 0 评论 -
机器学习学习笔记(十)之逻辑回归与二分类
一、逻辑回归是一个分类算法逻辑回归的输入及时一个线性回归的结果1、sigmoid函数(h(w)线性回归):判断标准回归的结果输入到sigmoid函数当中输出结果:[0,1]区间的一个概率值,默认为0.5位阈值2、损失及优化损失:逻辑回归的损失,称之为对数似然损失当真实值y=1时,我们希望预测值h(x)越大越好当真实值y=0时,我们希望预测值h(x)越小越好综合完整损失函数:下表的阈值定为0.6优化:同样使用梯度下降优化算法,去减少损失函数的值。原创 2020-09-08 15:44:13 · 714 阅读 · 0 评论 -
机器学习学习笔记(九)之岭回归
一、欠拟合与过拟合1、定义过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)2、原因及解决办法欠拟合原因以及解决办法原因:学习到数据的特征过少解决办法:1)添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征原创 2020-09-08 13:29:09 · 906 阅读 · 0 评论 -
机器学习学习笔记(八)之线性回归
一、什么是线性回归?定义:是利用回归方程(函数)对一个或多个自变量(特征值)与因变量(目标值)之间关系进行建模的一种分析方式。二、线性回归的损失函数和优化原理损失函数——最小二乘法优化算法正规方程梯度下降(Gradient Descent)梯度下降与正规方程的对比梯度下降正规方程需要选择学习率不需要需要迭代求解一次运算得出特征数量较大可以使用需要计算方程,时间复杂度高O(n3)选择小规模数据:LinearRegre原创 2020-09-07 22:36:20 · 342 阅读 · 0 评论 -
机器学习学习笔记(七)之决策树
一、决策树如何高效的进行决策?特征的先后顺序二、信息熵香农:信息是消除随机不定性的东西定义:H的专业术语称之为信息熵,单位为比特三、决策树的划分依据之一 ——信息增益定义与公式:特征A对训练数据集D的信息增益g(D,A)定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为当然决策树的原理不止信息增益这一种,还有其他方法,但是原理都类似ID3:信息增益最大的准则C4.5:信息增益比最大的准则CART:分类树:基尼系数最小原创 2020-09-07 16:40:04 · 695 阅读 · 0 评论 -
机器学习学习笔记(六)之朴素贝叶斯算法
一、贝叶斯公式(不赘述)二、何为朴素?假设:特征与特征之间相互独立三、应用场景文本分类,单词作为特征四、拉普拉斯平滑系数五、APIsklearn.naive_bayes.MultinomialNB(alpha = 1.0)朴素贝叶斯分类alpha:拉普拉斯平滑系数六、案例获取数据划分数据集特征工程—文本特征抽取朴素贝叶斯预估器流程模型评估from sklearn.datasets import fetch_20newsgroupsfrom s原创 2020-09-07 15:36:25 · 258 阅读 · 0 评论 -
机器学习学习笔记(五)之K-近邻算法(KNN)
一、K-近邻算法(KNN)原理定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一类别,则该样本也属于这个类别距离公式:两个样本的距离可以通过欧式距离计算二、K-近邻算法APIsklearn.neighbors.KNeighorsClassifier(n_neighbors=5,algorithm=‘auto’)n_neighbors:int,可选,默认为5,k_neighbors查询默认使用的邻居数。algorithm:{‘auto’,‘ball_t原创 2020-09-07 12:21:55 · 434 阅读 · 0 评论 -
机器学习学习笔记(四)之特征降维
特征降维降维是指在某些限定的条件下,降低随机变量(特征)的个数,得到一组‘不相关’的主变量的过程效果:特征与特征之间不相关1、降维的两种方式特征选择主成分分析2、什么是特征选择?定义:数据中包含冗余或相关变量(或称特征、属性、指标等),旨在从原有特征中找出主要特征。方法:Filter(过滤式):主要探究特征本身特点、特征与特征和目标值之间关联方差选择法:低方差特征过滤相关系数Embedded(嵌入式):算法自动选择特征(特征与目标值之间的关联)决策树:信息熵、信息增熵原创 2020-09-07 11:22:11 · 689 阅读 · 1 评论 -
机器学习学习笔记(三)之特征预处理
特征预处理什么是特征预处理:通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程1、包含内容数值型数据的无量纲化(使不同规格的数据转为同一规格):归一化和标准化2、特征预处理APIsklearn.preprocessing3、归一化[Min,Max]到[0,1]的线性映射sklearn.preprocessing.MinMaxScaler(feature_range=(0,1)…)–MinMaxScalar.fit_transform(X) X:numpy array原创 2020-09-07 11:21:33 · 217 阅读 · 0 评论 -
机器学习学习笔记(二)之特征提取
一、什么是特征工程特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程意义:会直接影响机器学习的效果二、特征工程的位置与数据处理的比较pandas:数据清洗、数据处理sklearn:对于特征的处理提供了强大的接口三、特征抽取/特征提取1、将任意数据(如文本或图像)转换为可用于机器学习的数字特征字典特征提取(特征离散化)文本特征提取图像特征提取(深度学习将介绍)2、特征提取APIsklearn.feture_extraction3、原创 2020-09-07 00:37:50 · 1292 阅读 · 0 评论 -
机器学习学习笔记(一)之数据集
一、学习阶段可用的数据集:1、Kaggle网址:https://www.kaggle.com/datasets特点:大数据竞赛平台/真实数据/数据量巨大2、UCI数据集网址:http://archive.ics.uci.edu/ml/index.php特点:收录了500余个数据集/覆盖科学、生活、竞技领域/数据量几十万3、scikit-learn网址:https://scikit-learn.org/stable/datasets/index.html#datasets特点:数据量较小/方便学习原创 2020-09-06 18:00:41 · 618 阅读 · 0 评论