
机器学习
文章平均质量分 88
黎明之道
One has to adapt to survive.
Standing on the Shoulders of Giants.
展开
-
PC端网页下载B站视频——you-get(下载所有视频)
PC端网页下载B站视频——you-get(下载所有视频)原创 2022-08-08 21:10:55 · 2269 阅读 · 0 评论 -
快速入手循环神经网络(从理论到案例进行剖析)
循环神经网络循环神经网络 就是专门用于处理语言、文字、时序这类特征之间存在“次序”的问题。这是一种循环的、带“记忆”功能的神经网络,这种网络针对序列性问题有其优势。一、问题定义:鉴定评论文本的情感属性文件中的Rating字段可以说是给我们带来评论文字属性的标签,即针对所购商品和本次采购行为的情感属性。如下:Rating 5:评价非常正面,非常满意Rating 4:评价正面,较为满意Rating 3:评价一般Rating 2:评价负面,较不满意Rating 1:评价非常负面,很不满意如果原创 2021-05-07 18:29:24 · 1216 阅读 · 0 评论 -
机器学习经典算法、如何选择最佳机器学习算法、超参数调优
经典算法所谓“工欲善其事必先利其器”,要解决问题,就要有好的算法。Scikit-Learn库中的几种经典机器学习算法:一、K最近邻(KNN)这个算法思路特别简单,就是随大流。对于需要贴标签的数据样本,他总是会找几个和自己离得最近的样本,也就是邻居,看看邻居是什么标签。如果他的邻居中的大多数样本都是某一类样本,他就认为自己也是这样一类样本。参数k,就是邻居的个数,通常是3,5,7,等不超过20的数字。在机器学习算法中,常用的距离计算公式包括欧式距离和曼哈顿距离所以,KNN算法的结果和K值的取值有关原创 2021-05-06 17:53:20 · 2242 阅读 · 1 评论 -
卷积神经网络——通过案例对原理进行剖析(MNIST识别和狗狗分类)
卷积神经网络计算机视觉利器——卷积神经网络。卷积神经网络,简称为卷积 网络,与普通神经网络的区别是它的卷积层内的神经元只覆盖输入特征局部范围的单元 ,具有稀疏连接和权重共享的特点,而且其中的过滤器可以做到 对图像关键特征的抽取。因为这一特点,卷积神经网络在图像识别方面 能够给出更好的结果。一、卷积神经网络的结构看一个通过卷积神经网络识别MNIST图像的例子:1.导入数据集import numpy as np # 导入NumPy数学工具箱import pandas as pd # 导入Panda原创 2021-05-04 20:03:40 · 2291 阅读 · 2 评论 -
深度神经网络——从单隐层神经网络到深度神经网络各个超参数介绍和案例(找出可能流失的客户)
深度神经网络一、神经网络原理1.传统机器学习算法的局限性越简单的关系越容易过拟合。对于特征的变换、升阶,以及多个特征相互组合形成新特征的过程,就是机器学习过程中既耗时又耗力的特征工程。特征空间是数据特征所形成的空间,特征维度越高,特征空间越复杂。而假设空间则是假设函数形成的空间,特征越多,特征和标签之间的对应的关系越难拟合,假设空间也就越复杂。维度灾难:高维度带来了超高的复杂度和超巨大的特征空间。比如,尾气特征维度是19x19,但是它的有效状态数量超过了10170。2.神经网络优势当用神经网原创 2021-04-27 22:01:05 · 4088 阅读 · 9 评论 -
机器学习之从基础数学深入剖析逻辑回归(案例理论相结合)
逻辑回归一、从回归问题到分类问题回归基础请见上一篇文章:https://blog.youkuaiyun.com/sjjsaaaa/article/details/1159673471.机器学习中的分类问题事物的类别,正确的分类观是建立科学体系、训练逻辑思维能力的重要一步。举例:根据客户的收入、存款、性别、年龄以及流水,为客户的信用等级分类。读入图片,为图片内容分类(猫、狗、虎、兔)手写数字识别,输出类别0-9手写文字识别。也是分类问题,只是输出类别有很多,有成千上万个类。而机器学习的分类方法,也原创 2021-04-23 19:03:58 · 1339 阅读 · 0 评论 -
机器学习基础线性回归——预测网店的销售额
线性回归步骤:明确定义所要解决的问题——网店销售额的预测在数据的收集与预处理环节,分五个环节完成数据的预处理工作,分别如下(1)收集数据— 需要提供的网店的相关记录(2)将收集到的数据可视化,显示出来看一看(3)做特征工程,使数据更容易被机器处理(4)拆分数据集为训练集和测试集(5)做特征缩放,把数据值压缩到比较小的区间选择机器学习的模型环节(1)确定机器学习的算法——这里也就是线性回归算法(2)确定线性回归算法的假设函数(3)确定线性回归算法的损失函数通过梯度下降训练机器,确定原创 2021-04-21 19:53:46 · 9293 阅读 · 6 评论 -
机器学习的数据结构——张量(详细介绍及Python中对张量的操作)
张量一、张量的轴、阶和形状张量是机器学习程序中的数字容器,本质上就是各种不同维度的数组,我们把张量的维度称为轴(axis),轴的个数称为阶(rank)(也就是俗称的维度,但是为了把张量的维度和每个阶的具体维度区分开,这里统一把张量的维度称为正脸那个的阶,Numpy中把它叫做数组的秩)张量的形状(shape)就是张量的阶,加上每个阶的维度(每个阶的元素数目)张量都可以通过Numpy来定义、操作。因此把Numpy数学函数库里面的数组用好,就可以搞定机器学习里面的数据结构。二、标量——0D(阶)张量仅原创 2021-04-20 19:49:36 · 18018 阅读 · 6 评论 -
Pycaret详细介绍该库用法及案例(分类方法案例胎儿状态分类指南)
Pycaret基本流程一般包含:读取数据->建模/对比模型->模型预测->绘图分析->模型导出安装pycaret见此篇博文——>安装pycaret遇到的问题使用此命令:——pip --default-timeout=100 install pycaret -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com另附官方源码——>https://github.com/pycaret/pycare原创 2020-12-28 18:48:49 · 3507 阅读 · 0 评论 -
python机器学习之支持向量机——探索核函数在不同数据集上的表现
探索核函数在不同数据集上的表现核函数:** 导入所需要的库和模块**import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormapfrom sklearn import svm#from sklearn.svm import SVC 两者都可以from sklearn.datasets import make_circles, make_moons, make_blo原创 2020-12-14 15:59:23 · 962 阅读 · 0 评论 -
python机器学习之支持向量机——线性SVM决策过程的可视化案例
线性SVM决策过程的可视化1、导入需要的模块from sklearn.datasets import make_blobsfrom sklearn.svm import SVCimport matplotlib.pyplot as pltimport numpy as np2、实例化数据集,可视化数据集X,y = make_blobs(n_samples=50, centers=2, random_state=0,cluster_std=0.6)plt.scatter(X[:,0],X[:原创 2020-12-10 19:59:59 · 1719 阅读 · 8 评论 -
python机器学习之聚类算法K-Means——案例:聚类算法用于降维,KMeans的矢量量化应用
聚类算法用于降维,KMeans的矢量量化应用重要属性:重要接口:案例矢量量化的降维是在同等样本量上压缩信息的大小,即不改变特征的数目也不改变样本的数目,只改变在这些特征下的样本上的信息量。用K-Means聚类中获得的质心来替代原有的数据,可以把数据上的信息量压缩到非常小,但又不损失太多信息。我们接下来就通过一张图图片的矢量量化来看一看K-Means如何实现压缩数据大小,却不损失太多信息量。1、导入需要的库import numpy as npimport matplotlib.pyplot原创 2020-12-09 18:52:00 · 1221 阅读 · 0 评论 -
python使用时间戳计算运行时间
时间戳计算运行时间from time import time#time():记下每一次time()这一行命令时的时间戳#时间戳是一行数字,用来记录此时此刻的时间t0 = time()#当前时间for i in range(10): print(i*i*i) time() - t0#运行之后的时间-t0...原创 2020-12-07 19:56:30 · 1322 阅读 · 0 评论 -
python机器学习之用逻辑回归制作评分卡(个人消费类贷款数据案例实战)
评分卡本文所用数据下载地址——>点这里下载个人消费类贷款数据一个完整的模型开发流程,需要有以下流程:一、数据清洗1、导库,获取数据import numpy as npimport pandas as pdfrom sklearn.linear_model import LogisticRegression as LR #其实日常在导库的时候,并不是一次性能够知道我们要用的所有库的。#通常都是在建模过程中逐渐导入需要的库。data = pd.read_csv('../数据/ra原创 2020-12-07 17:35:52 · 2434 阅读 · 5 评论 -
python机器学习之降维算法PCA人脸识别中的参数和接口案例,用PCA做噪音过滤
降维算法PCA一.人脸识别中的components_ 应用首先导入所需要的库from sklearn.datasets import fetch_lfw_people#人脸识别数据from sklearn.decomposition import PCA import matplotlib.pyplot as pltimport numpy as np实例化数据集faces = fetch_lfw_people(min_faces_per_person=60)#实例化 #每个人需要60原创 2020-12-02 17:23:56 · 1255 阅读 · 0 评论 -
python机器学习之降维算法PCA对手写数字数据集的降维案例
PCA对手写数字数据集的降维案例数据集获取地址:->这里下载导入需要的模块和库from sklearn.decomposition import PCAfrom sklearn.ensemble import RandomForestClassifier as RFCfrom sklearn.model_selection import cross_val_scoreimport matplotlib.pyplot as pltimport pandas as pdimport num原创 2020-12-02 16:54:12 · 1985 阅读 · 0 评论 -
min_faces_per_person=60 is too restrictive解决办法(人脸识别数据lfw_funneled)
min_faces_per_person=60 is too restrictive解决办法.在运行:faces = fetch_lfw_people(min_faces_per_person=60)#实例化 #每个人需要60张图这个代码时出现问题:这个是因为有数据没有下载完整而报的错误,下载到的目录(我的是window系统,在)下载好复制到这个目录就行,必须先将lfw_home目录下所有内容删除,再运行即可。这是我的路径。C:\Users\lenovo\scikit_learn_dat原创 2020-12-02 16:43:23 · 2396 阅读 · 9 评论 -
python机器学习之降维算法PCA(高维数据的可视化,鸢尾花案例)
高维数据的可视化n_components是我们降维后需要的维度,即降维后需要保留的特征数量,降维流程中第二步里需要确认的k值,一般输入[0, min(X.shape)]范围中的整数。调用库和模块import matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom sklearn.decomposition import PCA提取数据集iris = load_iris()x = iris.datay = iri原创 2020-12-01 18:51:10 · 12885 阅读 · 4 评论 -
python机器学习之特征选择(过滤法、嵌入法、包装法案例详解)
特征选择特征工程:1、特征提取 :从文字,图像等数据中提取信息作为特征2、特征创造 :把现有特征进行组合,或仙湖计算,得到新的特征3、特征选择 :从所有的特征种,选择出有意义的,对模型有帮助的特征,避免所有特征都导图模型取训练的情况。在特征选择之前,跟数据提供者开会。下面案例所用到的数据获取地址——>这里下载1.过滤法首先导入数据import pandas as pd data = pd.read_csv("../数据/digit recognizor.csv")data原创 2020-11-30 20:45:45 · 6643 阅读 · 4 评论 -
python机器学习之数据的预处理(五种方式数据处理案例详解)
数据的预处理数据下载地址——>点这里下载到入文件时可以直接复制地址然后用r" "包裹起来。例如:data = pd.read_cav(r"C:\work\data.csv")或者也可以以直接将\换成//也可以导入。1.归一化在sklearn当中,我们使用preprocessing.MinMaxScaler来实现这个功能。MinMaxScaler有一个重要参数,feature_range,控制我们希望把数据压缩到的范围,默认是[0,1]。导入库和数据from sklearn.prep原创 2020-11-29 18:17:08 · 18508 阅读 · 1 评论 -
python机器学习之随机森林案例——在乳腺癌数据的调参
在乳腺癌数据的调参首先导入所用到的库from sklearn.datasets import load_breast_cancer#数据from sklearn.ensemble import RandomForestClassifier#分类器from sklearn.model_selection import GridSearchCV#网格搜索from sklearn.model_selection import cross_val_score#交叉验证import matplotlib.原创 2020-11-26 19:42:22 · 3269 阅读 · 3 评论 -
python机器学习之随机森林案例——用随机森林填补缺失值(波士顿房价数据)
用随机森林填补缺失值这里呢,首先将波士顿数据进行填空,然后在对含有空值的数据进行,0、均值、随机森林回归填充,并比较其好坏,并以图像视之。首先导入所需要的库import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import load_boston#数据集from sklearn.impute import SimpleImputer#填补缺失的类from sklear原创 2020-11-25 20:02:08 · 5572 阅读 · 7 评论 -
python机器学习之决策树案例——泰坦尼克号幸存者的预测
决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。泰坦尼克号幸存者的预测数据点击这里可以下载——>点击这里下载。也可以在评论区留下你的邮箱,我发送给您。首先导入所用到的库:import pandas as pdfrom sklearn.tre原创 2020-11-23 18:48:06 · 8095 阅读 · 20 评论 -
机器学习之k 均值聚类教程(代码实战,详解核心算法)
k 均值聚类1.引入依赖import numpy as npimport matplotlib.pyplot as plt# 调用sklearn中的方法直接生成数据from sklearn.datasets.samples_generator import make_blobs2.数据加载和预处理x, y = make_blobs(n_samples=100, centers=6, random_state=1234, cluster_std=0.6)#print(x,y)plt.fig原创 2020-11-20 20:11:23 · 608 阅读 · 0 评论 -
机器学习之k近邻算法教程(代码实战,详解核心算法)
k近邻算法1.引入依赖import numpy as npimport pandas as pd# 这里直接引入sklearn里的数据集,iris鸢尾花from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split # 切分数据集为训练集和测试集from sklearn.metrics import accuracy_score # 计算分类预测的准确率2.数据加载和原创 2020-11-20 20:03:01 · 344 阅读 · 0 评论 -
机器学习之简单线性回归(最小二乘法)实战代码
所需数据点这里下载——> data数据获取简单线性回归(最小二乘法)1.引入依赖import numpy as npimport matplotlib.pyplot as plt2. 导入数据(data.csv)points = np.genfromtxt('data.csv', delimiter=',')points[0,0]# 提取points中的两列数据,分别作为x,yx = points[:, 0]y = points[:, 1]# 用plt画出散点图plt.原创 2020-11-20 19:51:47 · 1302 阅读 · 0 评论 -
使用 scikit-learn 介绍机器学习
机器学习:问题设置一般来说,一个学习问题通常会考虑一系列 n 个 样本 数据,然后尝试预测未知数据的属性。 如果每个样本是 多个属性的数据 (比如说是一个多维记录),就说它有许多“属性”,或称 features(特征) 。我们可以将学习问题分为几大类:监督学习 , 其中数据带有一个附加属性,即我们想要预测的结果值.分类 : 样本属于两个或更多个类,我们想从已经标记的数据中学习如何预测未标记数据的类别。 分类问题的一个例子是手写数字识别,其目的是将每个输入向量分配给有限数目的离散类别之一。 我们通常原创 2020-11-17 20:14:36 · 954 阅读 · 0 评论 -
机器学习 过拟合与欠拟合、岭回归
欠拟合与过拟合欠拟合一个假设在训练数据上不能获得很好的拟合,但是在训练数据外 的数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)分析:欠拟合原因:学习到数据的特征过少。解决办法:增加数据的特征数量。过拟合一个假设在训练集上能够获得比其他假设更好的拟合,但是在这个训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象(模型过于复杂)分析:过拟合:原因:原始特征过多,存在一些嘈杂特征,模型过于复杂是因为模型尝试去兼顾各个测试数原创 2020-05-31 20:19:34 · 381 阅读 · 0 评论 -
机器学习 线性回归策略,优化,案例
线性回归策略,优化,案例策略:损失函数(误差大小)优化如何求模型中的w,使得损失最小。第一种:最小二乘法之正规方程(不建议用)第二种(最小二乘法之梯度下降)sklearn线性回归正规方程、梯度下降APIscikit-learn:优点:封装好,建立模型简单,预测简单。缺点:算法的过程,有些参数都在算法API内部。tensorflow:封装高低,能够自己实例分析流程:正规方程源代码:from sklearn.datasets import load_bos原创 2020-05-29 15:21:15 · 830 阅读 · 0 评论 -
机器学习 线性回归和矩阵的运算
线性回归线性回归:线性回归:寻找一种能预测的趋势线性关系:二维:直线关系三维:特征。目标值,平面中线性关系定义:y=kx+bb为偏置。为了是对于单个特征的情况更加通用。线性关系模型:一个通过属性的线性结合来进行预测的函数:预测:用Jupyter画图。散点图import matplotlib.pyplot as pltplt.figure(figsize=(10,10)plt.scatter([60,72,75,80,83],[126,151.2,157.5,168,174原创 2020-05-29 14:19:48 · 630 阅读 · 0 评论 -
机器学习 决策树和随机森林
决策树决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。源代码:from sklearn.feature_extraction import DictVectorizerfrom sklearn.tree import DecisionTreeClassifier,export_graphvizimport pandas as pddef decision(): """ 决策树对坦坦尼克号进行预测生原创 2020-05-21 13:03:04 · 385 阅读 · 0 评论 -
机器学习 分类模型的评估
分类模型的评估精确率(Precision)召回率(Recall)estimator.score()一般最常见使用的时精确率,即预测结果正确的百分比混淆矩阵在分类任务下,预测结果与正确标记之间存在四种不同的组合,构成混淆矩阵(适用于多分类)猫:混淆矩阵狗:混淆矩阵评估标准:准确率:精确率和召回率。精确率:预测结果为正例样本中真实为正例的比例(查的准)召回率:真实为正例的样本中预测结果为正例的比例(查的对,对正样本的区分能力)其他的分类标准,F1-score,反映了模型的稳原创 2020-05-14 12:16:05 · 300 阅读 · 0 评论 -
机器学习 朴素贝叶斯算法
朴素贝叶斯算法概率基础:定义:一件事情发生的可能性联合概率:包含多个条件,且所有条件同时成立。公式:p(A,B)=p(A)*p(B)条件概率:就是事件A在另外一个事件B已经发生条件下发生概率。公式:p(A|B)特性:P(A1,A2|B)=P(A1|B)P(A2|B)注意:此条件概率的成立,是由于A1,A2相互独立的结果。女神喜欢的概率:4/7职业时程序员并且体型匀称的概率:p(程序员,匀称)=3/7*4/7=12/49在女神喜欢的条件下,职业是程序员的概率:1/2在女神喜欢原创 2020-05-13 20:33:01 · 243 阅读 · 0 评论 -
机器学习 k-近邻算法
k-近邻算法以及案例预测入住位置分类算法k-近邻算法(KNN):封面类算法的判定依据:离散型思想:通过你的“邻居”来推断你的类型,相似的样本,特征之间的值应该都是相近的。定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。来源:KNN算法最早是由Cover和Hart提出的一种分类算法。两个样本的距离可以通过如下公式计算...原创 2020-05-06 13:38:38 · 218 阅读 · 0 评论 -
机器学习 数据的划分和转换器与预估器
数据的划分与转换器和预估器数据集的划分训练集用于训练,构建模型。测试集在模型检测时使用,用于评估模型是否有效。sklearn数据集接口介绍数据集划分API sklearn.model_selection.train_test_splitsklearn.datasets - 加载获取流行数据集 - datasets.load_*() - 获取小规模数据集,数据包...原创 2020-04-29 11:09:47 · 260 阅读 · 0 评论 -
机器学习算法分类以及开发流程
机器学习算法分类以及开发流程***1.机器学习的模型是什么 ***算法是核心,数据和计算是基础找准定位:分析很多的数据分析具体的业务应用常见的算法特征工程,调参数,优化我们应该怎么做:要学会分析问题,使用机器学习算法的目的,想要算法完成何种任务掌握算法基本思想,学会对问题用相应的算法解决学会利用库或者框架解决问题数据类型:离散型数据:由...原创 2020-04-28 17:16:11 · 317 阅读 · 0 评论 -
机器学习 数据降维
数据降维维度: 特征的数量降维:减少特征数量主要的方式:1、特征选择特征选择的原因:冗余:部分特征的相关的高,容易消耗算性能噪声:部分特征对预测结果有影响特征选择就是单纯的从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也可以不改变值,但是选择后的特征位数肯定比选择前小,毕竟我们只选择了其中的一部分特征主要方法(三大武器):Filter(过滤式)...原创 2020-04-28 16:31:10 · 337 阅读 · 0 评论 -
机器学习 特征工程和文本特征提取
机器学习 特征工程和文本特征提取首先下载Scikit-learn库下载命令 pip install Scikit-learn通过导入import sklearn命令查看是否可用注意:安装Scikit-learn需要Numpy,pandas等库对字典的特征值化from sklearn.feature_extraction import DictVectorizerdef ...原创 2020-04-25 20:42:46 · 293 阅读 · 0 评论