浅析深度学习（二）--回归实战（新冠人数预测）

原创

已于 2023-01-14 10:14:58 修改 · 置顶 · 1.7k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #回归 #python

于 2023-01-13 16:58:19 首次发布

任务

过程：

一.调包

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
import csv #读csv文件的
import numpy as np
import time
import matplotlib.pyplot as plt
import pandas as pd #分析数据的

from torch import optim
import torch.nn as nn
import torch
from torch.utils.data import Dataset,DataLoader

二.创建函数selectkbest--挑选重要参数

slectkbest原理：通过给特征进行打分，然后从高到底选取特征，要用到皮尔森系数和单变量线性回归，

皮尔森系数可以表明y与各个特征的相关度

单变量线性回归可以用来表明特征的回归效果

#selectkbest
def get_feature_importance(feature_data, label_data, k =4,column = None):
    """
    此处省略 feature_data, label_data 的生成代码。
    如果是 CSV 文件，可通过 read_csv() 函数获得特征和标签。
    这个函数的目的是， 找到所有的特征种， 比较有用的k个特征， 并打印这些列的名字。
    """
    model = SelectKBest(chi2, k=k)      #定义一个选择k个最佳特征的函数
    X_new = model.fit_transform(feature_data, label_data)   #用这个函数选择k个最佳特征
    #feature_data是特征数据，label_data是标签数据，该函数可以选择出k个特征

 print('x_new', X_new)
    scores = model.scores_                # scores即每一列与结果的相关性
    # 按重要性排序，选出最重要的 k 个
    indices = np.argsort(scores)[::-1]        #[::-1]表示反转一个列表或者矩阵。  argsort是从小到大排序
    # argsort这个函数， 可以矩阵排序后的下标。 比如 indices[0]表示的是，scores中最小值的下标。

    if column:                            # 如果需要打印选中的列
        k_best_features = [column[i+1] for i in indices[0:k].tolist()]         # 选中这些列 打印
        print('k best features are: ',k_best_features)
    return X_new, indices[0:k]                  # 返回选中列的特征和他们的下标。

X_new选择了k个最佳特征，用indices记录下标，并输出打印

x_new打印结果

三.创建类cobidDataset--数据集

通常包含三个任务

init--初始化（包括列表读取后转矩阵，取关键列，划分训练集和验证集，对数据的列进行归一化

getitem--返回值

len--返回长度

#数据集：完成三个工作：1.初始化 2.getitem返回x【idx】，y【idx】 3.返回x的长度
class covidData

最低0.47元/天解锁文章