
机器学习
DAN_L
这个作者很懒,什么都没留下…
展开
-
深度学习总体介绍
一、TensorFlow的安装(一)ubuntu:pip install tensorflow(二)pip install tensorflow-gpu二、TensorFlow的介绍原创 2020-05-31 17:00:39 · 225 阅读 · 0 评论 -
SKLearn数据预处理技术(标称型特征编码和缺失值补全)
原创 2020-05-30 16:47:00 · 473 阅读 · 0 评论 -
SKLearn数据预处理之Normalize和Binarize
原创 2020-05-30 16:04:48 · 1119 阅读 · 0 评论 -
SKlearn数据预处理之Stardardization
原创 2020-05-30 15:32:00 · 179 阅读 · 0 评论 -
SKLearn特征抽取之文本特征抽取(词袋表示法)
原创 2020-05-30 11:21:33 · 516 阅读 · 0 评论 -
SKLearn特征抽取之字典向量化和哈希变换
原创 2020-05-29 10:55:09 · 452 阅读 · 0 评论 -
SKlearn之Pipeline和FeatureUnion
原创 2020-05-29 09:59:24 · 250 阅读 · 0 评论 -
SKLearn数据集变换操作
原创 2020-05-29 09:00:33 · 283 阅读 · 0 评论 -
SKLearn模型选择之模型评估方法
一、Estimator对象的score方法二、在交叉验证中使用scoring参数约定:返回值越大代表性能越好。三、使用sklearn.metric中的性能度量函数原创 2020-05-28 15:04:21 · 390 阅读 · 0 评论 -
SKLearn中回归算法的得分和误差评估方法
原创 2020-05-28 15:02:52 · 1065 阅读 · 0 评论 -
SKLearn分类器评估标准4-各种分类损失函数
原创 2020-05-28 10:52:08 · 868 阅读 · 0 评论 -
SKLearn分类器评估标准3-ROC曲线
原创 2020-05-25 18:45:12 · 281 阅读 · 0 评论 -
SKLearn分类器评估标准2-Precision-Recall-Fscore
原创 2020-05-24 21:40:51 · 437 阅读 · 0 评论 -
SKLearn分类器评估标准1-准确率和混淆矩阵
一、准确率Accuracy score二、混淆矩阵Confusion matrix原创 2020-05-24 17:11:51 · 1322 阅读 · 0 评论 -
SKLearn 统一API调用接口
原创 2020-05-18 16:05:27 · 458 阅读 · 0 评论 -
SKLearn算法库的顶层设计
一、SKLearn各个模块(一)监督学习的各个模块1、neighbors近邻算法2、svm支持向量机算法3、kernal_ridge核岭回归4、neighbors近邻算法5、discriminant_analysis判别分析6、linear_model广义线性模型7、ensemble集成方法8、tree决策树9、naive_bayes朴素贝叶斯10、cross_decomposition交叉分解11、gaussian_process高斯过程12、neural_network多层神经原创 2020-05-18 11:53:31 · 305 阅读 · 0 评论 -
监督学习
一、基本概念与数学形式(一)输入空间(即原始数据空间)、特征空间、输出空间(二)联合概率分布(三)假设空间二、统计机器学习的三要素(一)模型学习器的类型、假设空间与知识表示(二)策略...原创 2020-05-18 08:38:05 · 194 阅读 · 0 评论 -
机器学习绪论
一、机器学习的方式(一)归纳统计(二)演绎推理二、机器学习的应用三、机器学习的流程原创 2020-05-15 13:46:20 · 201 阅读 · 0 评论 -
机器学习——线性回归
一、线性回归(一)高斯分布(二)最大似然估计MLE(三)最小二乘法的本质二、Logistic回归(分类问题的首选算法)三、多分类:Softmax回归四、机器学习中的假设(一)机器学习中的建模过程,往往充斥着假设,合理的假设是合理模型的必要前提(二)假设具有三个性质1、内涵型:即根据常理应该是正确的2、简化性:即接近真实,往往要做若干简化3、发散性:即在某个简化的假设下推...原创 2020-04-02 10:10:34 · 199 阅读 · 0 评论 -
机器学习——聚类k-means
一、k-means步骤1、随机设置K个特征空间内的点作为初始的聚类中心2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)4、如果计算得出的新中心点与原中心点一样,那么结束,否则重新进行第二步过程二、k-means的APIsklearn.cluster.KMeans三、k-means...原创 2020-03-31 12:08:51 · 368 阅读 · 0 评论 -
机器学习——分类算法-逻辑回归
一、逻辑回归(是解决二分类问题的利器)二、sigmoid函数三、逻辑回归公式输出:[0,1]区间的概率值,默认0.5作为阀值。e:2.71注:g(z)为sigmoid函数,z=回归的结果四、逻辑回归的损失函数、优化(了解)与线性回归原理相同,但由于是分类问题,损失函数不一样,只能通过梯度下降求解。五、应用场景(用于解决二分类问题)广告点击率、是否为垃圾邮件、是否患病、金融...原创 2020-03-31 11:04:06 · 460 阅读 · 0 评论 -
模型的保存与加载
一、sklearn模型的保存和加载APIfrom sklearn.externals import joblib(一)保存joblib.dump(rf,‘test.pkl’)(二)加载estimator=joblib.load(‘test.pkl’)注:文件格式为pkl二、案例from sklearn.datasets import load_bostonfrom sklearn...原创 2020-03-30 21:14:47 · 518 阅读 · 0 评论 -
过拟合以及欠拟合
一、定义(一)过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)(二)欠拟合:一个假设在训练数据上不能获得更好的拟合, 但是在训练数据外的数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)二、欠拟合原因以及解决办法(一)原因:学习到数据的特征过少(...原创 2020-03-30 15:42:05 · 351 阅读 · 0 评论 -
线性回归以及矩阵的运算
一、线型回归的定义(一)线型回归:寻找一种能预测的趋势线型关系(二)二维:直线关系(三)三维:平面当中二、线性关系模型一个通过属性的线性组合来进行预测的函数:三、数组和矩阵的区别四、损失函数(误差大小)五、最小二乘法之正规方程(很少用)六、最小二乘法之梯度下降(主要用)...原创 2020-03-30 14:35:58 · 2875 阅读 · 0 评论 -
集成学习方法——随机森林
一、集成学习方法定义集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。二、随机森林定义在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。三、随机森林原理1、用N来表示训练用例(样本)的个数,M表示特征数目。2、输入特...原创 2020-03-29 15:32:30 · 629 阅读 · 0 评论 -
决策树
一、决策树之信息论基础(一)起源决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法 。(二)信息熵H = -(p1logp1 + p2logp2 + … + p32log32)H的专业术语称之为信息熵,单位为比特。信息和消除不确定性是相联系的。公式:(三)决策树的划分依据之一-信息增益信息增益表示得知特...原创 2020-03-29 10:47:53 · 205 阅读 · 0 评论 -
模型的选择与调优
一、交叉验证(一)目的为了让被评估的模型更加准确可信(二)过程将拿到的数据,分为训练和验证集。以下图为例:将数据分成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉验证。二、网格搜索(又称为超参数搜索)(一)目的调参数,例如:k-近邻(超参数k)(二)定义通常情况下,有很多参数是需要手动指定的(...原创 2020-03-28 14:22:10 · 479 阅读 · 0 评论 -
分类算法-朴素贝叶斯算法
一、概率基础(一)概率定义概率定义为一件事情发生的可能性(二)联合概率和条件概率二、朴素贝叶斯公式公式分为三个部分: 三、sklearn朴素贝叶斯实现APIsklearn.naive_bayes.MultinomiaINB四、MultinomiaINB语法sklearn.naive_bayes.MultinomiaINB(alpha=1.0)alpha:拉普拉斯平滑...原创 2020-03-28 11:39:37 · 424 阅读 · 0 评论 -
精确率和召回率
一、分类模型的评估estimator.score()一般最常见使用的是准确率,即预测结果正确的百分比二、混淆矩阵在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类)。三、精确率(Precision)预测结果为正例样本中真实为正例的比例(查得准)四、召回率(Recall)真实为...原创 2020-03-28 11:38:24 · 568 阅读 · 0 评论 -
k-近邻算法(KNN)
一、定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。在使用数据前,需要对数据进行标准化处理。来源:KNN算法最早是由Cover和Hart提出的一种分类算法二、计算距离的公式两个样本的距离可以通过如下公式计算,又叫欧式距离。比如说,a(a1,a2,a3),b(b1,b2,b3)三、sklearn k-近邻算法APIs...原创 2020-03-26 17:01:32 · 265 阅读 · 0 评论 -
估计器
一、定义在sklearn中,估计器(estimator)是一个重要的角色,分类器和回归器都属于estimator,是一类实现了算法的API二、估计器分类(一)用于分类的估计器sklearn.neighbors k-近邻算法sklearn.naive_bayes 贝叶斯sklearn.linear_model.LogisticRegression 逻辑回归(二)用于回...原创 2020-03-23 22:06:04 · 1937 阅读 · 0 评论 -
机器学习数据的划分和介绍
一、sklearn数据集(一)数据集划分1、机器学习一般的数据集会划分为两个部分:训练数据:用于训练,构建模型;测试数据:在模型检验时使用,用于评估模型是否有效。2、sklearn数据集划分APIsklearn.model_selection.train_test_split3、数据集进行分割(1)sklearn.model_selection.train_test_split(...原创 2020-03-23 19:47:43 · 3476 阅读 · 0 评论 -
机器学习基础
一、数据类型离散型数据:由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精确度。连续型数据:变量可以在某个范围内取任一数,即变量的取值可以是连续的,如长度、时间、质量值等,这类整数通常是非整数,含有小数部分。注:离散型是区间内不可分,连续型是区间内可分 二、机器学习算法分类(一)监督学习(有特征值和目标值)1、分类(对...原创 2020-03-23 16:04:35 · 274 阅读 · 0 评论 -
机器学习——降维
注意:这里的降维是将特征的数量减少一、数据降维的分类(一)特征选择1、特征选择的定义特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也可以不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一部分特征。2、特征选择原因(1)冗余:部分特征的相关度高,容易消耗计算性能(2)噪声:部分特征对预测结果有负影响3、sklea...原创 2020-03-23 11:37:40 · 253 阅读 · 0 评论 -
特征预处理
一、定义通过特定的统计方法(数学方法)将数据转换成算法要求的数据。二、方法(一)数值型数据标准缩放:1、归一化2、标准化3、缺失值(二)类别型数据one-hot编码(三)时间类型时间的切分三、sklearn特征处理APIsklearn.preprocessing四、归一化(一)原理通过对原始数据进行变换把数据映射到(默认为[0,1])之间(二)目的使得一个特征不...原创 2020-03-22 15:51:25 · 431 阅读 · 0 评论 -
tf-idf特征抽取
一、原理如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。二、作用用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。是分类机器学习算法的的重要依据。三、类sklearn.feature_extraction.text.TfidfVectorizer四、TfidfVectorizer语法Tfid...原创 2020-03-22 11:51:58 · 697 阅读 · 0 评论 -
特征工程
数据集的特征工程机器学习中的重复值不需要去重pandas是数据读取非常方便以及基本的处理格式的工具sklearn对于特征的处理提供了强大的接口一、特征工程的定义特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性。二、特征工程的意义直接影响预测结果三、scikit-learn工具介绍1、python语言的机器学习工具2、包含许多...原创 2020-03-22 11:22:26 · 244 阅读 · 0 评论 -
数据集
一、历史数据的存储方式主要是以文件的方式存储(例如:csv)二、数据集的结构(一)可用的数据集(二)数据集结构1、结构:特征值+目标值...原创 2020-03-20 17:00:26 · 579 阅读 · 0 评论 -
机器学习导论——机器学习三要素数学理论补充
原创 2020-03-19 18:19:04 · 174 阅读 · 0 评论 -
机器学习导论——模型选择-泛化性能体现
一、泛化的定义模型具有好的泛化能力指的是模型不但在训练数据集上表现的效果很好,对于新数据的适应能力也有很好的效果二、泛化能力的表现:过拟合和欠拟合(一)过拟合overfitting:模型在训练数据上表现良好,在未知数据或测试集上表现差(二)欠拟合underfitting:在训练数据和未知数据上表现都很差三、模型的选择——奥卡姆剃刀原则给定两个具有相同泛化误差的模型,较简单的模型比较...原创 2020-03-19 17:36:27 · 2442 阅读 · 0 评论