python 读取 excel 为矩阵，跳过标题行，按列归一化

最新推荐文章于 2023-01-10 10:14:20 发布

原创最新推荐文章于 2023-01-10 10:14:20 发布 · 2.2k 阅读

17 ·

CC 4.0 BY-SA版权

Python应用专栏收录该内容

15 篇文章

订阅专栏

该代码段展示了一个Python脚本，用于从Excel文件中读取数据，跳过标题行并进行数据矩阵的构建。如果遇到`xlrd`不支持.xlsx文件的错误，可以通过降级`xlrd`版本为1.2.0来解决。数据矩阵在读取后可选进行归一化处理，使用了`sklearn`的`MinMaxScaler`。

如下图所示的 excel 文件，想跳过标题行，读取数据矩阵：

代码如下：

import numpy as np
import xlrd
from sklearn import preprocessing


def excel_to_matrix(path, data_norm=True):
    table = xlrd.open_workbook(path).sheets()[0]
    row = table.nrows
    col = table.ncols
    datamatrix = np.zeros((row-1, col))
    for x in range(col):
        cols = np.array(table.col_values(x))
        datamatrix[:, x] = cols[1:]  # 不读标题行
    if data_norm:
        min_max_scaler = preprocessing.MinMaxScaler()
        datamatrix = min_max_scaler.fit_transform(datamatrix)
    return datamatrix


if __name__ == '__main__':
    path = r'.\normed_Data.xlsx'
    data = excel_to_matrix(path)
    print(np.shape(data))

如果运行过程中遇到报错信息：