sklearn线性回归学习中遇到的问题及解决方法

最新推荐文章于 2025-09-25 09:38:40 发布

原创

最新推荐文章于 2025-09-25 09:38:40 发布 · 4.6k 阅读

4 ·

CC 4.0 BY-SA版权

在机器学习的毕业设计中，使用sklearn进行线性回归遇到了挑战。复杂的数据格式和处理需求导致了效果不佳。首先，针对csv数据的分隔问题，进行了特殊的处理。其次，为解决形状不匹配问题，对数据进行了转置。此外，对于日期数据，将其转化为float类型以适应模型训练。

最近因为做毕业设计开始学习机器学习，这一周主要是对数据进行操作做出可视化的图来分析，另外就是学习论文中提到的一些机器学习算法。

现在仅仅是利用sklearn库中的现有方法实现训练和测试，但是由于手中现有的数据比较复杂，并不适合用线性回归的方法去拟合，所以效果并不理想。

1.首先是原始数据格式的问题：

我拿到的数据是csv格式的，用reader读进来以后是用‘\t’对每个字符分隔，每行都是list。但是这样就不能用list[1][1]这种方法对单独某条记录中的一个字段进行处理，所以就进行如下的步骤：

reader=csv.reader(file(csvfile,'rb'))
tmp=[]    
for line in reader:
    str="".join(line).split('\t')
    tmp.append(str)

这样就变成每行的字段之间用‘,’进行分隔，可以单独提取某个字段了。但是提取的表示如下：

for i in tmp:
        if i[0].find(day)<>-1:
            numberoflines+=1

相当于把一行看成一个字符串数组。

2.一个去除重复的小技巧：

label0=list(set(label))#得到观测日期的不重复记录

3.无论哪一种模型进行fit的时候输入都要是列向量

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

徐不依

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

[Python从零到壹] 十二.机器学习之回归分析万字总结全网首发（线性回归、多项式回归、逻辑回归）

杨秀璋的专栏

07-03

5万+

前一篇文章讲述了数据分析部分，主要普及网络数据分析的基本概念，讲述数据分析流程和相关技术，同时详细讲解Python提供的若干第三方数据分析库，包括Numpy、Pandas、Matplotlib、Sklearn等。本文介绍回归模型的原理知识，包括线性回归、多项式回归和逻辑回归，并详细介绍Python Sklearn机器学习库的LinearRegression和LogisticRegression算法及回归分析实例。进入基础文章，希望对您有所帮助。

机器学习算法——线性回归的详细介绍及利用sklearn包实现线性回归模型

Ma Sizhou

02-27

5346

目录1、线性回归简介1.1 线性回归应用场景1.2 什么是线性回归1.2.1 定义与公式1.2.2 线性回归的特征与目标的关系分析2、线性回归api初步使用2.1 线性回归API2.2 举例2.2.1 步骤分析2.2.2 代码过程3、线性回归的损失和优化3.1 损失函数3.2 优化算法3.2.1 正规方程（1）什么是正规方程（2）正规方程求解举例3.2.2 正规方程的推导**推导方式一**：**推导方式二**：3.2.2 梯度下降(Gradient Descent)（1）什么是梯度下降（2）梯度的概念（3.

参与评论您还未登录，请先登录后发表或查看评论

sklearn做文本数据分析中遇到的问题

Klose_10的博客

10-27

468

文本表示方面 CountVectorizer()类使用 from sklearn.feature_extraction.text import CountVectorizer vec=CountVectorizer()#sklearn函数的通用写法 corpus = [ 'This is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the

model.fit( )函数：训练模型

最新发布

思索的涟漪，突破自我

09-25

399

小索奇之前帮一个朋友看他的房价预测模型，发现他的训练数据里有个小区的房价记录错了，把 “150 万” 写成了 “1500 万”，就这一个数据，让模型对周边小区的预测值普遍高了 30%，后来删掉这个异常值，预测精度直接提上来了。简单说就是特征之间长得太像了，比如你做 “汽车油耗预测”，同时用了 “汽车重量” 和 “汽车排量” 这两个特征，这俩本身就高度相关（排量大的车一般更重），放进模型里会导致系数估计不准，甚至出现 “排量越大油耗越低” 这种反常识的结果。最后一个坑，就是只看训练集误差，不管测试集表现。

model.fit函数

泛红尘的博客

08-25

5938

model.fitx：输入的训练样本。y：输入的目标值。epochs：迭代次数。batch_size：批量大小。verbose：控制训练过程中日志输出的详细程度。：从训练数据中分割出一部分作为验证集。更多参数详细介绍可以参考TensorFlow官方文档。通过本篇博客的介绍，我们了解了model.fit函数的历史、优点以及与其他方法的不同之处。通过详细的步骤说明和代码示例，我们可以轻松地使用该方法训练深度学习模型。同时，我们使用Mermaid代码绘制了方法的结构图，并给出了具体的数组计算过程。

sklearn 分类器常见问题

heroacool的专栏

07-22

479

我遇到的问题是2分类问题。

【sklearn 使用遇到的问题】

iamhereandnow的博客

11-23

1568

@[TOC](TypeError: int() argument must be a string, a bytes-like object or a number, not ‘_NoValueType’) 使用sklearn.metrics的各种函数遇到的问题——TypeError: int() argument must be a string, a bytes-like object or a number, not ‘_NoValueType’ 为了给最近做的事件句分类结果进行效果评估，调用skle

使用sklearn库学习线性回归（二）

理科男同学

11-05

2989

1，多重共线性问题（Ridge回归和Lasso回归） 1.1，什么是多重共线性我们在对多元线性回归的损失函数求导，并得出求解系数的式子和过程，在最后一步中我们需要左乘的逆矩阵，而逆矩阵存在的充分必要条件是特征矩阵不存在多重共线性。首先解释一下逆矩阵存在的充分必要条件：也就是矩阵的行列式不等于零，对于线性回归而言，即是说不能为0。这是使用最小二乘法来求解线性回归的核心条件之一。但是行列式不为零的充分必要条件是矩阵要满秩，求矩阵的秩我们一般使用行变换的方法，转换为阶梯型的矩阵，这些概念都是线...

sklearn库——线性回归模型

qq_57099024的博客

01-05

4268

目录简单线性回归 多元线性回归 分类变量转换成虚拟变量简单线性回归 from sklearn import linear_model#导入所需要的包 lr=linear_model.LinearRegression()#指定模型 #再fit中指定自变量和响应变量，注意此处使用的是大写X和小写y #由于sklearn接受的是numpy数组，所以又是需要处理数据，为了将dataframe传入sklearn。 predicted=lr.fit(X=tips['total_bill'].values

sklearn 使用过程中遇到的问题和解决方法

Sunshine_in_Moon的专栏

11-04

1万+

Sklearn是Python下非常优秀的机器学习模块，相信大家有所耳闻。本篇博客是我在平常使用中遇到的一些问题和解决方法的记录，也可以看做是一个笔记。仅供参考。 1、加载Mnist数据时报错 from sklearn.datasets import fetch_mldata mnist = fetch_mldata('MNIST original') 很多地方都是利用上面两条语句加载MN

新版sklearn使用中的一些问题

weixin_45386315的博客

04-03

1678

项目场景：利用python进行稳健性回归检验时出现的问题。问题描述：在使用新版sklearn进行回归检验时，数据应该为二维矩阵，但问题就在这了，我并不知道应该在哪个位置将数据转换为二维矩阵，进行了很多尝试也没有成功，于是来找各位程序猿大哥们解答一下问题。 import pandas as pd import numpy as np from sklearn import model_selection data = pd.read_excel('Eletrical length data set

机器学习-线性回归问题

qq_43992721的博客

04-21

1218

机器学习之线性回归 在B站看了吴恩达的线性回归内容，从网上也找到了实现代码，自己进行学习模拟，写出来一份线性回归的代码 1.1 线性回归 我的认为就是在一组离散的数据中画一条线，使这条线对所有点的代价总和最小，找到的这条线就可以在一定程度上对数据进行预测，是一种回归问题。 1.2 代价函数 ![在这里插入图片描述](https://img-blog.csdnimg.cn/1157a46e6d3c4856b79ef0db41b34b9b.png) ...

python sklearn 线性回归 报错_手写算法-Python代码实现非线性回归

weixin_36005427的博客

01-28

409

生成非线性数据集前面我们介绍了Python代码实现线性回归，今天，我们来聊一聊当数据呈现非线性时，这时我们继续用线性表达式去拟合，显然效果会很差，那我们该怎么处理？继续上实例(我们的代码里用到的数据集尽量直接由Python生成，因此，是可以全部跑通的，有需要的同学，建议大家粘贴复现一下，多思考，多动手，才可以学的更好。)import numpy as npfrom matplotlib impor...

文本处理时from sklearn import linear_model

yanerhao的专栏

08-20

3833

有助于学习的优快云博客地址链接———sklearn库学习 1、python sklearn包——grid search笔记 http://blog.youkuaiyun.com/u010454729/article/details/50754460 2、scikit-learn 支持向量机算法库使用小结 http://www.cnblogs.com/pinard/p/6117515.htm

机器学习实践（十二）—sklearn之线性回归

醒途

05-08

5042

一、线性回归应用场景房价预测销售额度预测金融：贷款额度预测、利用线性回归以及系数分析因子二、线性回归的原理什么是回归在机器学习中，回归就是拟合的意思，我们需要找出一个模型来拟合(回归)数据。什么是线性回归 线性回归是：利用回归方程(函数)，对特征值和目标值之间关系进行建模的一种分析方式。特征值和目标值可以是一个或多个，特征值和目标值可以看作函数意义上的自变量和因变量...

python机器学习基础03——sklearn之线性回归相关处理

友培的博客

02-12

2905

文章目录线性回归+评价指标引入误差L范式介绍sklearn-线性回归评价指标多项式回归和过拟合欠拟合处理欠拟合的处理-多项式回归过拟合处理-正则化 线性回归+评价指标引入误差在回归任务中不需要归一化的操作，本身就是寻找出权重的过程，不需要将各维度进行统一约束找出特征和特征权重之间的一种组合，从而来预测对应的结果，误差的存在是必然的，回归的问题不像分类的问题，回归是一个连续值的预测，分类而是离散值的确定，那我们如何处理回归的误差？回归算法是一个迭代算法。所谓的迭代就好比是系统版本的迭代，迭代后的系

sklearn.linear_model import LogisticRegression分析iris数据

viviliving的专栏

12-12

2308

from sklearn import datasets from numpy import * from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split def colicSklearn(): iris = datasets.load_iris() X = iris.data Y = iris.target train.

sklearn实现线性回归

qq_55621259的博客

09-04

4747

主要使用到的函数为 linear_model.LinearRegression()调用模型和model.fit()来训练模型，需要注意的是model.fit传入的必须是二维矩阵！三、对训练好的模型进行预测。线性回归的原理就不讲了，主要就是拟合w和b来找直线尽可能多的与数据接近。下面我们是基于 sklearn 实现线性回归算法，大概可以分为三步。二、训练线性回归模型。我们拟合一个简单的y = 3 *x^2 +22。

sklearn线性回归模型是否支持多输入多输出

02-27

<think>嗯，用户现在问的是Scikit-learn的线性回归模型是否支持多输入多输出。我需要先确认他们所说的“多输入多输出”具体指什么。通常来说，多输入可能是指多个特征变量，也就是多元回归，而多输出则是同时预测多个目标变量，即多输出回归。首先，我得回忆一下Scikit-learn中的LinearRegression模型。根据文档，标准的LinearRegression类确实支持多输出回归。也就是说，当目标变量y是一个二维数组，形状为(n_samples, n_targets)时，模型会为每个目标变量拟合一个系数向量。这种情况下，模型确实可以处理多个输出。接下来，我需要检查用户可能遇到的问题。他们可能在尝试将多个目标变量传入模型时遇到了问题，或者不确定如何正确设置参数。需要明确的是，LinearRegression默认支持多输出，无需特别设置参数，只要确保y的格式正确。另外，用户可能混淆了多输入和多输出的概念。多输入通常指多个特征，这在回归模型中本来就是支持的，而多输出则需要目标变量是二维的。需要提醒用户注意输入数据的形状，确保y是二维数组，例如使用reshape(-1, 1)如果原本是单变量输出的话。可能还需要比较其他模型，比如使用MultiOutputRegressor，但LinearRegression本身已经内置支持，所以不需要额外封装。不过，如果用户需要不同的回归器处理每个输出，可能需要用到这个类，但这里的问题应该不涉及这种情况。另外，用户可能关心如何处理多输出的评估指标，比如R²分数在多输出情况下的计算方式，或者如何解释多输出的系数。可能需要简要提及这些方面，但用户当前的问题可能集中在是否支持上，所以不需要深入。最后，总结回答时需要明确指出LinearRegression支持多输入多输出，解释具体的数据格式要求，并可能给出一个简单的示例代码说明如何应用，这样用户能更直观地理解。</think>$\boxed{核心结论}$ **sklearn的 `LinearRegression` 支持多输入、多输出回归**，且能自动处理以下场景： - **多输入**：接受二维特征矩阵（形状 `(n_samples, n_features)`） - **多输出**：接受二维目标矩阵（形状 `(n_samples, n_targets)`） --- $\boxed{技术验证}$ 通过代码演示多输出回归的实际效果： ```python from sklearn.linear_model import LinearRegression import numpy as np # 生成示例数据 X = np.random.rand(100, 3) # 100样本，3个特征（多输入） y = np.random.rand(100, 2) # 100样本，2个目标（多输出） # 创建并训练模型 model = LinearRegression() model.fit(X, y) # 验证输出维度 print(model.coef_.shape) # 输出 (2,3)，表示每个目标对应3个特征系数 ``` --- $\boxed{算法原理}$ **多输出回归的数学表达** $$ \hat{Y} = XW + b $$ - $X \in \mathbb{R}^{n \times p}$：特征矩阵（p个特征） - $W \in \mathbb{R}^{p \times m}$：系数矩阵（m个输出目标） - $b \in \mathbb{R}^{m}$：偏置项向量 - $\hat{Y} \in \mathbb{R}^{n \times m}$：预测结果矩阵 --- $\boxed{性能对比}$ | 方法 | 适用场景 | 内存消耗 | 计算速度 | |------|---------|---------|---------| | 单模型多输出 | 目标间存在相关性 | 低 | 快（矩阵运算优化） | | 多个单输出模型 | 目标完全独立 | 高 | 慢（需循环训练） | --- $\boxed{进阶技巧}$ 1. **目标标准化**：当输出量纲差异大时，先进行 `StandardScaler` 处理 2. **稀疏解**：使用 `LassoCV` 替代可实现特征选择 3. **非线性扩展**：通过 `PolynomialFeatures` 添加交互项 --- $\boxed{错误排查}$ 常见错误及解决方法： ```python # 错误现象：ValueError: y should be a 1d array # 原因：单输出时y被错误转换为二维数组 y = y.ravel() # 将形状(n,1)转换为(n,) # 错误现象：收敛警告 # 解决方案：增加样本量或启用标准化 model = LinearRegression(normalize=True) # 旧版本用法 # 新版本推荐先用StandardScaler预处理 ``` --- $\boxed{行业应用案例}$ **光伏发电预测系统** - **输入特征**：日照强度、温度、湿度、面板倾角（4维输入） - **输出目标**：小时发电量、设备损耗率（2维输出） - **优势**：单模型同时预测物理量和设备状态，保证预测一致性