pandas导入excel文件内容不一致的问题

最新推荐文章于 2024-12-29 22:36:11 发布

原创最新推荐文章于 2024-12-29 22:36:11 发布 · 2.6k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据挖掘 #数据分析

pandas 专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍了如何使用Pandas的read_excel函数从Excel文件中读取多个表格数据，包括设置sheet_name参数读取特定工作表，通过header和names定制列名，以及利用usecols选择性读取特定列。示例代码展示了不同参数的用法，帮助理解在处理大型Excel文件时如何高效地获取所需数据。

当excel文件里面含有多个表时，用pandas导入会出现生成的dateframe表不一样。

错误

import pandas as pd
df=pd.read_xlsx('文件名.xlsx')

整体代码

pd.read_excel(path, sheet_name=0, header=0, names=None, index_col=None, 
              usecols=None, squeeze=False,dtype=None, engine=None, 
              converters=None, true_values=None, false_values=None, 
              skiprows=None, nrows=None, na_values=None, parse_dates=False, 
              date_parser=None, thousands=None, comment=None, skipfooter=0, 
              convert_float=True, **kwds)

sheet_name --> 读取工作表（sheet）名称
sheet_name:None代表读取所有的sheet;

#sheet_name=1代表取出第2个表
df=pd.read_excel(path,sheet_name=1)

header --> 指定前几行作为列名（指定数据表的表头，默认值为0）
names --> 自定义列名(但是names的长度必须和Excel列长度必须一致）

df=pd.read_excel(path,sheet_name=1,
					names=['a','b','c'])

usecols --> 读取指定的列

#usecols可避免读取所有数据
df=pd.read_excel(path,sheet_name=1,
					usecols=[0,1,2] #读取第1，2，3列数据

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

麻辣清汤

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pandas读取Excel表头乱序但是数据未按表头读取解决方案

weixin_42636075的博客

01-11

1016

pandas读取Excel表头乱序但是数据未按表头读取解决方案

解决Python中使用pd.read_excel报错的问题

热门推荐

07-06

1万+

但是，在使用read_excel函数时，有时会出现xlrd.biffh.XLRDError: Excel xlsx file not supported的错误，让我们不能正常的读取Excel表格。需要注意的是，ExcelFile方法的参数中，需要传入Excel文件的路径；接着，在使用pandas库的read_excel函数之前，需要调用pandas库的ExcelFile方法，并将参数engine设置为’openpyxl’，表示使用openpyxl库去读取Excel文件。希望这篇文章对你有所帮助！

1 条评论您还未登录，请先登录后发表或查看评论

超实用！使用Python快速对比两个Excel表格之间的差异

【活用数据】

10-16

1万+

主要介绍如何通过DeepDiff实现两个Excel文件数据的快速对比。

pandas read_excel() 读取类型不一致

m0_45321132的博客

10-14

1164

pandas read_excel() 读取多文件同一字段数据类型不一致问题 # 文件1 lawyer_fuwu1.xlsx 杜永胜 1.3706201110244824e+16 <class 'numpy.float64'> # 文件2 lawyer_fuwu2.xlsx 徐祗向 13702202010173693 <class 'str'> 构成原因：检查数据发现是源文件的数据本身存在差异文件1都是数字而文件2中含有字符于是pandas解析时文件1返回了float类型

pandas DataFrame存入到excel中和从excel中读取出来时的不同

HUIxihuanni的博客

05-17

9849

在写一个自动化小程序的时候，遇到了一个小bug，找了老半天也没找到问题在哪里，后来才发现问题出现在pandas从excel中读存取数据时。例如，一个excel文件是这样的：用Python pandas模块将excel中数据读出来是这样，会将表中的所有数据作为columns中的数据，并自动的给DataFrame添加一个从0-n-1(n为数据的行)...

pandas对比excel数据是否一致

qq_30774825的博客

02-23

1363

pandas做数据对比

解决Python pandas df 写入excel 出现的问题

09-20

xlwt是一个用来写入Excel文件的库，但在较新版本的pandas中，推荐使用openpyxl库来处理Excel文件，因为xlwt库不支持写入.xlsx格式的文件。解决这个问题的方法非常简单，只需要在命令行中使用pip命令安装openpyxl库...

java使用poi+python的pandas实现导入excel表格中的数据到数据库

m0_59505149的博客

06-21

1279

1.解析行的时候从第二行开始解析，因为第一行是表头不需要解析 2.解析列的时候也是从第二列开始解析，第一列的id不需要解析，我们插入的时候如果是mysql的话可以设置自增，如果是oracle可以通过触发器在插入数据时后生成我们需要的id 3.对于excel表格中使用科学计数法的列，我们需要在解析的时候进行处理，这里我们处理了number列，以免插入数据库中的数据是2E+08这种格式的。

日常笔记--1.18(pandas之excel数据文件导入和导出常见问题)

qq_47496372的博客

01-18

1327

导入 1.导入路径的方便写法：一般文件的路径直接复制下来默认为\，在python字符串中\有转义的含义，所以要么使用/，要么采取其他方式使得\不被解读为转义字符,可以在路径前面加r，即保持字符原始值的意思： r"C:\Users\Haley\Desktop\order.xlsx"（不用去替换/） 2.pandas导入excel文件后数值变成了科学计数解决办法。在读取时加上converter参数，先转成str再读：converters={“id”: str} 3.pandas导入excel文件

Windows下Python使用Pandas模块操作Excel文件的教程

09-21

在Windows环境下，Python数据分析工作经常会涉及对Excel文件的处理，而Pandas库是进行此类操作的强大工具。首先，我们需要确保有一个合适的Python环境。在这种情况下，推荐使用ANACONDA，这是一个预装了众多常用库...

pandas操作excel

qq_45488501的博客

12-29

862

通过以上内容，你可以全面掌握Pandas操作Excel的各种方法，无论是简单的数据读取和写入，还是复杂的数据清洗、分析和处理，Pandas都能成为你高效处理Excel数据的得力工具。pivot_table = pd.pivot_table(df, index='列1', values=['列2', '列3'], aggfunc='mean')df = pd.read_excel('data.xlsx', usecols=['列1', '列3'])使用merge()方法按指定列合并两个DataFrame。

pandas读取excel文件数据格式被转换

书山有路勤为径，学海无涯苦作舟

05-09

8257

当读取exccel问件时候,纯数字文本格式会被转换成int类型,由于文本格式数据表中会出现类似以0开头的数据,如00123,读取完后数据会变成int格式,而前面的0就会被忽略掉,造成数据被改变,我们在读取时候加入一个参数detype,强制一下格式就行了 df = pd.read_excel("路径\abc.xlsx",dtype={"工号": "object"}) 这样读取后的数据查看df.head() 读入数据后工号数据前面的0就会显示出来前后对比: 加参数前 ...

解决pandas.core.frame.DataFrame格式数据与numpy.ndarray格式数据不一致导致无法运算问题

牛肉胡辣汤

10-31

1048

本文介绍了一种解决pandas的DataFrame格式数据与numpy的ndarray格式数据不一致导致无法运算的问题的方法。通过将DataFrame的某一列转换为ndarray，并使用pd.Series()将其转换为pandas的Series数据格式，可以避免格式不一致的错误。这种方法在数据处理和分析中是常见且实用的技巧，希望本文对你有所帮助。在实际应用场景中，我们可能会遇到需要对DataFrame中的某一列进行运算的情况。

TestNG参数化测试-只需简单5步

weixin_40881502的博客

01-16

1472

TESTNG的参数化大致有两种方式: 通过testng.xml文件参数化 @DataProvider 今天和大家分享使用xml方式参数化,这种方式的优点是代码和数据分离,便于维护. 1.这里使用Intellij IDE, 新建Maven工程, 一步步next下去即可, 项目生成目录结构如下: 2.看下用pom.xml文件示例代码 Maven中配置...

python按列读取数据时出现错误_python – 在pandas数据帧中分配新列标签时出现长度不匹配错误...

weixin_39750598的博客

12-08

2003

我正在使用的选项卡文件缺少最终的列名.当我尝试通过附加缺失值来修复标头时,出现不匹配错误.这是一个说明问题的例子：玩具的例子应该有一个”作为第一个列表的最后一个元素：missingcol = [[gene, cell_1, '', cell_2][MYC, 5.0, P, 4.0, A][AKT, 3.0, A, 1.0, P]]为了解决这个问题,我阅读了第一行,在一个带有header = Non...

pandas 读excel，日期变成了数字，pandas方法解决

lhr_zz的博客

12-01

1677

摘抄至 https://blog.youkuaiyun.com/RogerFedereYY/article/details/113756065 简单来说就是日期变成了数字解决方案如下 def date(para): delta = pd.Timedelta(str(int(para))+'days') time = pd.to_datetime('1899-12-30') + delta return time data['发货日期'] = data['发货日期'].apply(date)

听说你也遇到过这个问题？pandas读取excel，日期变为数字

菜鸟IT女

08-24

2559

一、问题描述好好的用pandas读取excel，结果日期自动的变为了数字。寻思着怎么给转回来？二、解决 import pandas as pd data = pd.read_excel("test.xlsx",header=1) data.head() def date(para): if type(para) == int: delta = pd.Timedelta(str(int(para))+'days') time = pd.to_datetime('

【已解决】pandas读excel中长数字变成科学计数法的问题

weixin_51633501的博客

04-30

3890

pandas 读excel中的长数字时，即使excel中已经设置为文本，读进df后也会自动变成科学计数法。

pandas导入excel数据

最新发布

03-18

<think>嗯，用户问的是关于用pandas导入Excel数据的问题。首先，我需要回忆一下pandas中处理Excel文件的常用方法。通常我们会用read_excel函数，但可能需要安装openpyxl或者xlrd库，特别是对于.xlsx文件，openpyxl更常用。首先，我应该指出如何安装必要的库，比如pandas和openpyxl。用户可能已经安装了pandas，但可能没有装openpyxl，所以需要提醒他们用pip安装。然后，给出一个基本的示例代码，展示如何读取Excel文件，比如pd.read_excel('data.xlsx')，并说明常用参数，比如sheet_name、header、usecols这些。接下来，要解释参数的作用。比如sheet_name可以指定读取哪个工作表，header设置标题行，usecols选择特定的列。还要提到处理多个工作表的情况，比如获取所有工作表的名字，或者读取特定索引的工作表。然后，可能需要提到数据类型的问题，比如dtype参数来指定列的类型，或者转换器converters来处理特殊数据。还有处理缺失值，na_values参数的使用。另外，可能会遇到一些常见问题，比如引擎问题，如果文件是.xls格式可能需要xlrd，但xlrd新版本不支持xlsx，所以需要确认安装正确的库。路径问题，比如文件不在当前目录下，应该使用绝对路径或者正确相对路径。还有数据量大的时候内存问题，可以考虑分块读取或者指定dtype减少内存占用。最后，要总结关键点，并给出相关问题，帮助用户进一步学习。比如如何导出Excel，处理多个工作表，处理大文件，数据类型转换等。这样用户可以根据自己的需求继续深入。</think><< 使用pandas导入Excel数据主要通过`read_excel()`函数实现。以下是详细实现方法和注意事项： ```python import pandas as pd # 基础用法（需安装openpyxl/xlrd） df = pd.read_excel('data.xlsx', sheet_name='Sheet1') # 常用参数示例 df = pd.read_excel( 'data.xlsx', sheet_name=0, # 工作表索引或名称 header=0, # 标题行位置 usecols='A:C,F', # 指定读取列 skiprows=[0,2], # 跳过指定行 dtype={'Age': int}, # 指定列类型 na_values=['NA', ''] # 定义缺失值标识 ) # 读取所有工作表 all_sheets = pd.read_excel('data.xlsx', sheet_name=None) ``` **实现原理和注意事项：** 1. 依赖库需要： - `.xlsx`文件需要安装`openpyxl`：`pip install openpyxl` - `.xls`文件需要安装`xlrd`：`pip install xlrd` 2. 常见问题处理： - 路径问题：建议使用原始字符串或双反斜杠（`r'C:\data\file.xlsx'`） - 大数据文件：使用`chunksize`参数分块读取 - 日期解析：`parse_dates`参数处理日期列 - 混合数据类型：设置`dtype`或使用`converters`参数 3. 高级功能： - 读取密码保护的Excel：需使用`msoffcrypto`库解密 - 处理合并单元格：需使用`openpyxl`直接解析 - 读取公式结果：默认读取计算后的值，需要保持Excel刷新状态 ```