Unicorn .-优快云博客

原创交叉验证应用

交叉验证另一种常用的模型选择方法是交叉验证( cross validation)。如果给定的样本数据充足，进行模型选择的一种简单方法是随机地将数据集切分成三部分，分别为训练集(training set)、验证集(validation set）和测试集(testset)。训练集用来训练模型，验证集用于模型的选择，而测试集用于最终对学习方法的评估。在学习到的不同复杂度的模型中，选择对验证集有最小预测误差的模型。由于验证集有足够多的数据，用它对模型进行选择也是有效的。但是，在许多实际应用中数据是不充足的。为

2022-04-03 13:36:38 1430

原创网格搜索，随机搜索

调参的工具网格搜索导入需要的库from sklearn import svmfrom sklearn import datasetsfrom sklearn.model_selection import GridSearchCVimport pandas as pd from sklearn.datasets import load_irisiris=datasets.load_iris()parrameters={'kernel':('linear','rbf'),'C':[1,10]

2022-04-03 13:31:46 856

原创逻辑回归---kaggle糖尿病预测实例

逻辑回归—kaggle糖尿病预测import warningswarnings.filterwarnings('ignore')#忽略匹配警告data=np.loadtxt(r"C:\践\pima-indians-diabetes.data.csv",delimiter=",",skiprows=1,dtype=np.float)dataarray([[ 6. , 148. , 72. , ..., 0.627, 50. , 1. ], [ 1.

2022-03-19 09:33:26 1160

原创鲍鱼数据集岭回归解析解

要求：首先数据集进行一定的预处理，之后计算岭回归的解析解，并采用合适的指标对结果进行评估。import pandas as pdimport warningswarnings.filterwarnings('ignore')#忽略匹配警告data=pd.read_csv(r'C:/Users/86139/Desktop/大二下/机器学习/机器学习实践/abalone_dataset.csv')data.head() sex length

2022-03-12 16:32:02 4164 1

原创 BGD线性回归(批量梯度下降算法)实例

BGD线性回归批量梯度下降算法简写BGD一个特征（n），两个未知量（n+1）#1.生成回归数据from sklearn.datasets import make_regressionX,y=make_regression(n_samples=100,n_features=1,noise=50,random_state=8)plt.scatter(X,y)#2.拆分训练集和测试集from sklearn.model_selection import train_test_splitX..

2022-03-09 23:23:07 680

原创 Hadoop版本

Apache Hadoop版本分为两代：第一代 Hadoop称为 Hadoop 1.0第二代 Hadoop称为Hadoop 2.0第一代Hadoop包含三个大版本，分别是0.20.x , 0.21.x和0.22.x ，其中, 0.20.x最后演化成1.0.x，变成了稳定版，而0.21.x和0.22.x则增加了NameNode HA等新的重大特性。第二代 Hadoop包含两个版本，分别是0.23.x和2.x ，它们完全不同于Hadoop 1.0 ，是一套全新的架构，均包含HDFS Federatio

2022-03-05 15:36:02 5542 1

原创线性回归sklearn实现2

3.1 sklearn 回归实践#绘制一条直线%matplotlib inlineimport numpy as npimport matplotlib.pyplot as pltx=np.linspace(-6,6,100)y=0.5*x+2plt.plot(x,y)#已知两点，绘制一条直线%matplotlib inlineimport numpy as npimport matplotlib.pyplot as pltx=np.array([2,6])y=np.array

2022-03-05 10:37:22 1729

原创 numpy 深拷贝、浅拷贝和视图总结和例子

numpy 深拷贝、浅拷贝和视图总结和例子ndarray类的索引和切片方法组切片得到的是原始数组的视图，所有修改都会直接反映到源数组。如果需要得到的ndarray 切片的一份副本,需要进行复制操作比如arange[5:8].copy()Python的列表序列不同，通过下标范围获取的新的数组是原始数组的一个视图。它与原始数组共享同一块数据空间.import numpy as npa=np.arange(10)aarray([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

2022-02-24 19:13:27 1374

原创 MNIST书写数字识别

MNIST书写数字识别#加载MNIST书写数据集from sklearn.datasets import fetch_openmlmnist =fetch_openml('mnist_784')#查看前100张照片的标注print(mnist.target[:100])['5' '0' '4' '1' '9' '2' '1' '3' '1' '4' '3' '5' '3' '6' '1' '7' '2' '8' '6' '9' '4' '0' '9' '1' '1' '2' '4' '3'

2022-02-23 22:57:43 213

原创多层感知器算法

多层感知器算法#导入MLP分类器from sklearn.neural_network import MLPClassifier#导入红酒数据集from sklearn.datasets import load_winewine=load_wine()#选取前两个特征进行建模X=wine.data[:,:2]#类别变量y=wine.target#数据可视化import matplotlib.pyplot as plt%matplotlib inlineplt.figure(d

2022-02-23 22:52:46 778

原创 Sklearn 聚类分析 kmeans,DBSCAN

KMenas算法#导入KMeans模块from sklearn.cluster import KMeansfrom sklearn.datasets import make_blobs#随机生成含150个类别数为3的数据集X,y=make_blobs(n_samples=150,centers=3,random_state=8)#数据可视化import matplotlib.pyplot as plt%matplotlib inlineplt.figure(dpi=100)plt.sc

2022-02-23 22:47:14 1366

原创 Numpy 基本操作

**NumPy**NumPy是什么NumPy是一个开源的Python科学计算库。Numerical PythonNumPy有什么功能NumPy主要的功能之一用来操作数组和矩阵。NumPy是科学计算、深度学习等高端领域的必备工具。使用TensorFlow、Caffe框架训练神经网络模型时，需要进行大量复杂的运算，可以直接调用NumPy里面的API。NumPy还包含了很多使用的数学函数，覆盖了很多的数学领域，比如，线性代数、傅里叶变换、随机数生成。Numpy基础之ndarrayNump

2022-02-23 22:20:59 1611

原创 sklearn库

sklearn库sklearn 是 scikit — learn 的简称,是一个基于 Python 的第三方模块。 sklearn 库集成了一些常用的机器学习方法,在进行机器学习任务时,并不需要实现算法,只需要简单的调用 sklearn 库中提供的模块就能完成大多数的机器学习任务。sklearn 库是在 Numpy 、 Scipy 和 matplotlib 的基础上开发而成的,因此在介绍 sklearn 的安装前,需要先安装这些依赖库。Sklearn 内置数据集鸢尾花（iris）数据集#导入鸢尾花

2021-10-11 17:01:15 4920

CX