Pandas read_excel()函数 thousands参数的使用

本文介绍了Pandas的read_excel()函数中thousands参数的用途,它用于将Excel文件中以字符串形式存储且带有千分位分隔符的数字转换为数值类型。通过实例展示了如何正确使用该参数将str类型的数字转换为int类型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Pandas read_excel()函数 thousands参数的使用

最近在学习使用pandas的read_excel()函数使用,在查看API文档时,看到thousands参数的描述:

thousands [str, default None] Thousands separator for parsing string columns to numeric. Note that this parameter is only necessary for columns stored as TEXT in Excel, any numeric columns will automatically be parsed, regardless of display format.

参数说明:

传递的类型为str,默认为None。

作用: 处理Excel表中以字符串类型存储的数字,且带有类似‘,’分隔符,例如: 200,000,000, 将此类字符串转换为数值类型。

举例如下:

例如我们有这样一组数据val列是以字符串形式存储的:

date val
2014/3/1
### 回答1: Pandasread_excel函数的常用参数有: - filepath_or_buffer: excel文件路径或文件名 - sheet_name: 要读取的excel sheet的名称或编号(默认读取第一个sheet) - header: 行号作为列名(默认为0) - skiprows: 跳过前几行(默认为0) - skipfooter: 跳过最后几行(默认为0) - index_col: 使用哪一列作为索引(默认为None) - names: 给列赋予新的名称(默认为None) - usecols: 使用哪些列(默认读取所有列) - engine: 使用的读取引擎(默认为'openpyxl', 可选'xlrd'或'xlwt') - converters: 转换某些特殊列的数据类型(默认为None) - true_values: 将特定值解释为True(默认为None) - false_values: 将特定值解释为False(默认为None) - na_values: 将特定值解释为NA/NaN(默认为None) - keep_default_na: 是否保留默认的NA/NaN值(默认为True) - verbose: 显示读取进度(默认为False) - parse_dates: 将哪些列解释为日期(默认为None) - date_parser: 日期解析函数(默认为None) - dayfirst: 是否默认将日期按照'DD/MM/YYYY'的格式解析(默认为False) - iterator: 是否使用迭代器读取文件(默认为False) - chunksize: 迭代器读取的块大小(默认为None) - compression: 压缩类型(默认为None, 可选'infer', 'gzip', 'bz2', 'zip', 'xz'等) - thousands: 千位分隔符(默认为None) - decimal: 小数点符号(默认为'.') - linetermin: 行结束符(默认为'\r\n') - quotechar: 引用符(默认为'"') - quoting: 引用模式(默认为csv.QUOTE_MINIMAL, 可选csv.QUOTE_ALL, csv.QUOTE_NONNUMERIC, csv.QUOTE_NONE) - doublequote: 是否将引用符内的引用符转义(默认为True) - escapechar: 转义符(默认为None) - comment: 注释符(默认为None) - encoding: 编码方式(默认为None, 可选'utf-8', 'cp1252'等) - dialect: 对话方式(默认为None, 可选csv.excel, csv.excel_tab等) - tupleize_cols: 是否将列转换为元组(默认为False) - error_bad_lines: 是否忽略读取过程中出现的错误(默认为True) - warn_bad_lines: 是否在出现错误时发出警告(默认为True) - skip_blank_lines: 是否跳过空行(默认为True) - keep_date_col: 是否保留原有的日期列(默认为True) - dayname: 是否包含星期名称(默认为False) - thousands: 千位分隔符(默认为',') - keep_default_na: 是否保留默认的NA/NaN值(默认为True) - na_filter: 是否过滤NA/NaN值(默认为True) - memory_map: 是否使用pandasread_excel()函数有许多可选参数。 常用参数如下: - `io`: 文件路径或者文件类型。 - `sheet_name`: 读取的工作表名称或编号。 - `header`: 用来作为列名的行号。 - `skiprows`: 跳过的行数。 - `index_col`: 作为索引的列编号。 - `usecols`: 选择读取的列。 - `nrows`: 读取的行数。 其他参数可以参考官方文档:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值