- 博客(13)
- 收藏
- 关注
原创 交叉验证应用
交叉验证另一种常用的模型选择方法是交叉验证( cross validation)。如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切分成三部分,分别为训练集(training set)、验证集(validation set)和测试集(testset)。训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法的评估。在学习到的不同复杂度的模型中,选择对验证集有最小预测误差的模型。由于验证集有足够多的数据,用它对模型进行选择也是有效的。但是,在许多实际应用中数据是不充足的。为
2022-04-03 13:36:38
1325
原创 网格搜索,随机搜索
调参的工具网格搜索导入需要的库from sklearn import svmfrom sklearn import datasetsfrom sklearn.model_selection import GridSearchCVimport pandas as pd from sklearn.datasets import load_irisiris=datasets.load_iris()parrameters={'kernel':('linear','rbf'),'C':[1,10]
2022-04-03 13:31:46
775
原创 逻辑回归---kaggle糖尿病预测实例
逻辑回归—kaggle糖尿病预测import warningswarnings.filterwarnings('ignore')#忽略匹配警告data=np.loadtxt(r"C:\践\pima-indians-diabetes.data.csv",delimiter=",",skiprows=1,dtype=np.float)dataarray([[ 6. , 148. , 72. , ..., 0.627, 50. , 1. ], [ 1.
2022-03-19 09:33:26
1035
原创 鲍鱼数据集 岭回归解析解
要求:首先数据集进行一定的预处理,之后计算岭回归的解析解,并采用合适的指标对结果进行评估。import pandas as pdimport warningswarnings.filterwarnings('ignore')#忽略匹配警告data=pd.read_csv(r'C:/Users/86139/Desktop/大二下/机器学习/机器学习实践/abalone_dataset.csv')data.head() sex length
2022-03-12 16:32:02
4102
1
原创 BGD线性回归(批量梯度下降算法)实例
BGD线性回归批量梯度下降算法 简写BGD一个特征(n),两个未知量(n+1)#1.生成回归数据from sklearn.datasets import make_regressionX,y=make_regression(n_samples=100,n_features=1,noise=50,random_state=8)plt.scatter(X,y)#2.拆分训练集和测试集from sklearn.model_selection import train_test_splitX..
2022-03-09 23:23:07
639
原创 Hadoop版本
Apache Hadoop版本分为两代:第一代 Hadoop称为 Hadoop 1.0第二代 Hadoop称为Hadoop 2.0第一代Hadoop包含三个大版本,分别是0.20.x , 0.21.x和0.22.x ,其中, 0.20.x最后演化成1.0.x,变成了稳定版,而0.21.x和0.22.x则增加了NameNode HA等新的重大特性。第二代 Hadoop包含两个版本,分别是0.23.x和2.x ,它们完全不同于Hadoop 1.0 ,是一套全新的架构,均包含HDFS Federatio
2022-03-05 15:36:02
5423
1
原创 线性回归sklearn实现2
3.1 sklearn 回归实践#绘制一条直线%matplotlib inlineimport numpy as npimport matplotlib.pyplot as pltx=np.linspace(-6,6,100)y=0.5*x+2plt.plot(x,y)#已知两点,绘制一条直线%matplotlib inlineimport numpy as npimport matplotlib.pyplot as pltx=np.array([2,6])y=np.array
2022-03-05 10:37:22
1682
原创 numpy 深拷贝、浅拷贝和视图总结和例子
numpy 深拷贝、浅拷贝和视图总结和例子ndarray类的索引和切片方法组切片得到的是原始数组的视图,所有修改都会直接反映到源数组。如果需要得到的ndarray 切片的一份副本,需要进行复制操作比如arange[5:8].copy()Python的列表序列不同,通过下标范围获取的新的数组是原始数组的一个视图。它与原始数组共享同一块数据空间.import numpy as npa=np.arange(10)aarray([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
2022-02-24 19:13:27
1278
原创 MNIST书写数字识别
MNIST书写数字识别#加载MNIST书写数据集from sklearn.datasets import fetch_openmlmnist =fetch_openml('mnist_784')#查看前100张照片的标注print(mnist.target[:100])['5' '0' '4' '1' '9' '2' '1' '3' '1' '4' '3' '5' '3' '6' '1' '7' '2' '8' '6' '9' '4' '0' '9' '1' '1' '2' '4' '3'
2022-02-23 22:57:43
184
原创 多层感知器算法
多层感知器算法#导入MLP分类器from sklearn.neural_network import MLPClassifier#导入红酒数据集from sklearn.datasets import load_winewine=load_wine()#选取前两个特征进行建模X=wine.data[:,:2]#类别变量y=wine.target#数据可视化import matplotlib.pyplot as plt%matplotlib inlineplt.figure(d
2022-02-23 22:52:46
695
原创 Sklearn 聚类分析 kmeans,DBSCAN
KMenas算法#导入KMeans模块from sklearn.cluster import KMeansfrom sklearn.datasets import make_blobs#随机生成含150个类别数为3的数据集X,y=make_blobs(n_samples=150,centers=3,random_state=8)#数据可视化import matplotlib.pyplot as plt%matplotlib inlineplt.figure(dpi=100)plt.sc
2022-02-23 22:47:14
1306
原创 Numpy 基本操作
**NumPy**NumPy是什么NumPy是一个开源的Python科学计算库。Numerical PythonNumPy有什么功能NumPy主要的功能之一用来操作数组和矩阵。NumPy是科学计算、深度学习等高端领域的必备工具。使用TensorFlow、Caffe框架训练神经网络模型时,需要进行大量复杂的运算,可以直接调用NumPy里面的API。NumPy还包含了很多使用的数学函数,覆盖了很多的数学领域,比如,线性代数、傅里叶变换、随机数生成。Numpy基础之ndarrayNump
2022-02-23 22:20:59
1558
原创 sklearn库
sklearn库sklearn 是 scikit — learn 的简称,是一个基于 Python 的第三方模块。 sklearn 库集成了一些常用的机器学习方法,在进行机器学习任务时,并不需要实现算法,只需要简单的调用 sklearn 库中提供的模块就能完成大多数的机器学习任务。sklearn 库是在 Numpy 、 Scipy 和 matplotlib 的基础上开发而成的,因此在介绍 sklearn 的安装前,需要先安装这些依赖库。Sklearn 内置数据集鸢尾花(iris)数据集#导入鸢尾花
2021-10-11 17:01:15
4737
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人