自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 纯小白的Sklearn学习(XGBoost-otto商品分类案例)-day(13)

案例:用xgboost实现otto商品分类案例。

2025-05-09 11:15:20 724

原创 纯小白的Sklearn学习(SVM-手写数字识别案例)-day(12)

这样可以保证所要降维的所有数据,都是基于上面识别之后的特征来进行降维的,数据特征具有一致性(不知道这么表述是否正确)。此句是因为函数当中的pca.fit和svm都要求输入进去的数据是二维的,所以需要检查数据长度,如果是以为的就转化成二维数据在重新储存进原函数中。导入数据后,数据为784个特征列+1个目标列组成的数据 ,每一行都代表一个数字,只不过将这一个数字写成了以行为单位的像素值的形式。,这意味着新数组将只有一个样本(在机器学习数据的语境中,通常将数据的第一个维度视为样本维度)。函数用于改变数组的形状。

2025-04-30 11:07:09 603

原创 纯小白的Sklearn学习(朴素贝叶斯-用户评论情感分析案例)-day(11)

案例:用户评论情感分析案例。

2025-04-21 15:44:09 475

原创 纯小白的Sklearn学习(K-Means-instacart案例)-day(10)

案例:Kaggle竞赛题instacart案例,数据来源为kaggle官网。

2025-04-15 15:43:17 583

原创 纯小白的Sklearn学习(K-Means)-day(9)

案例:随机生成数据簇演示K-Means分类。

2025-04-12 11:06:09 526

原创 纯小白的Sklearn学习(随机森林-otto competition)-day(8)

这个案例使我迷惑了,写这个贴子更像是来寻求帮助的吧。

2025-04-10 15:56:31 674

原创 纯小白的Sklearn学习(决策树-泰坦尼克生存预测)-day(7)

看了关于这个案例的好多代码,慢慢感觉数据处理和特征筛选的过程太重要了,一个模型可以有千百种结果,完全取决于前期数据处理过程。1、导入框架下面的三个文件就是从Kaggle下载的data文件。

2025-04-06 17:29:58 1961

原创 纯小白的Sklearn学习(决策树-红酒分类)-day(6)

feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']# 用pandas的concat方法将数据拼接并按照列的方式拼接,具体日后要实验axis参数并加深体会,但是这个数据并没有在下面代码中用到,做他干什么呢?,class_names=["琴酒","雪梨","贝尔摩德"]# 划分训练集和测试集。

2025-03-31 13:53:39 1570

原创 纯小白的Sklearn学习(逻辑回归-肿瘤预测)-day(5)

数据里面包含无效数据“?”,所以在数据处理阶段需要对这些数据进行替换和删除,此两行命令就是这个干这事儿的,将所有?替换成NaN,这里没理解太透彻,就是理解为将一些乱七八糟的无效数据统一替换成NaN,这个叫什么。1、导入数据后是乱的,需要定义column_names列名,然后用names参数添加列名(表头)到数据中,表示缺失值的常量,Numpy库就是这么定义的,想删除数据必须要替换成Nunmy认识的好处理的NaN?,是对数据进行切片截取然后在赋予给x的过程,本案例为取全部行,第一列到倒数第二列的所有数据。

2025-03-28 09:49:13 1139

原创 纯小白的Sklearn学习(岭回归-波士顿房价预测)-day(4)

data = pd.read_csv("C:/Python-Project/梯度下降/price_boston_housing.txt")print('模型的偏置是:\n',estimator.intercept_)print('模型的系数是:\n',estimator.coef_)可以正常运行,但是预测结果准确性很差,不知道为什么。# 机器学习,此处为与前面章节的不同指出。print('均方差为:\n',ret)补充波士顿房价预测(岭回归)

2025-03-25 23:51:56 397

原创 纯小白的Sklearn学习(梯度下降-波士顿房价预测)-day(3)

3、读进去后发现pandas的数据格式和Numpy的格式是不一样的,所以就不能按教程一步一步操作了,只能自己摸索。2、读文件,教程里面的读文件是直接在load_boston完成的,不知道怎么的我就不行,所以网上download了txt版本的数据,然后用read方式读进去。# 将数据分离成了数据和目标集合,但是往下不会了,因为train_test_split需要的是array格式,下一步转换数据才能继续进行。重点代码:XX1 = data_1[["CRIM","ZN","INDUS"]]

2025-03-25 00:22:59 617

原创 纯小白的Sklearn学习(线性回归-学生成绩预测)-day(2)

这比较好理解,没啥说的,主要是用案例补代码基础知识的时候,对文件读取这一步的格式有疑问,报错warning直接扔给大模型基本上就能解决了。就是pd.read_csv我以为可以直接改成txt,后来发现直接读csv也行。print("预测的结果是:\n",estimator.predict(DataFrame_1[["score_1","score_2"]]))print("线性回归的系数是:\n",estimator.coef_)# 读入文件,训练集文件和预测集文件。# 建立线性回归API。

2025-03-22 21:10:25 232

原创 纯小白的Sklearn学习(K近邻-鸢尾花分类)-day(1)

纯小白的Sklearn学习-day(1)

2025-03-20 09:41:37 621 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除