pandas库的to_csv精度丢失问题

最新推荐文章于 2024-04-23 20:58:12 发布

顿顿有鱼有虾

最新推荐文章于 2024-04-23 20:58:12 发布

阅读量1k

点赞数

分类专栏：问题记录文章标签： pandas

本文链接：https://blog.youkuaiyun.com/qq_32202885/article/details/134577826

版权

问题记录专栏收录该内容

1 篇文章

订阅专栏

文章讲述了在使用Python的pandas库处理数据时，遇到从18位精度到CSV文件16位精度丢失的问题。作者分享了通过设置`dtype=str`在`read_csv`中恢复精度，并介绍在`to_csv`中指定小数位数的方法来避免精度损失。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在用python处理数据的时候发现了一个问题，在使用pandas库将数据保存为csv文件时发生了精度丢失，在转换之前数据的精度为18位，转换为csv文件后使用pandas.read_csv重新读入发现精度缺失，精度仅为16位数。经过多次查找找到了一种简单的解决办法，在使用pandas.read_csv时加入dtype=str,

data=pd.read_csv(path,dtype=str,header=None)

data=data.astype('float64')

通过以上方式发现精度没有发生丢失，我们还可以在使用to_csv时指定保留的小数位数

  outfile.to_csv('outfile.csv', index=False, encoding='gbk',float_format='%.3f')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

顿顿有鱼有虾

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

深入理解pandas读取excel,txt,csv文件等命令

梦想橡皮擦，专栏100例写作模式先行者，现象级专栏《Python 爬虫 100 例》作者、《滚雪球学 Python 专栏》原创者

03-06

2万+

pandas读取excle和csv文件常见用法 https://blog.youkuaiyun.com/geekleee/article/details/52903082

（讲解+实例）带你熟悉Python中的数据分析库Pandas

nine_mink的博客

03-07

3121

pandas模块简介 pandas是一个强大的分析结构化数据的工具集；它的使用基础是Numpy（提供高性能的矩阵运算）；用于数据挖掘和数据分析，同时也提供数据清洗功能。 Pandas中常见的数据结构有两种： Series DateFrame 类似一维数组的对象类似多维数组/表格数组；每列数据可以是不同的类型；索引包括列索引和行索引。 Series 构建Series：ser_...

参与评论您还未登录，请先登录后发表或查看评论

Pandas 处理 `csv` 数据类型问题

rao826699158的博客

02-19

3060

在大数据开发和测试的场景中我们需要将数据在不同的格式之间进行转换，笔者在转换的时候遇到了两个问题，通过摸索找到了解决方法，遂分享给大家。

Pandas数据分析中常见的浮点数精度损失问题详解

devid008的博客

06-12

2409

在使用Pandas进行数据分析计算时，我们经常会遇到由于浮点数精度损失导致的问题。这是因为在计算机中，浮点数是一个有限精度的类型，无法精确表示所有的实数。这会导致浮点数计算时产生舍入误差和精度损失，进而影响计算的正确性。

Pandas---输出csv文件解决科学计数法显示数据丢失问题

qq_41982466的博客

12-23

6441

改变单列数据类型 d = {'玩具':['车','飞机','轮船'], '数量':[3,2,5], '价格':[10000000000000,90000000000000,80000000000000]} df = pd.DataFrame(d) 玩具数量价格 0 车 3 10000000000000 1 飞机 2 90000000000000 2 轮船 5 80000000000000 df['价格'] = '"' + df['价格'].apply(str) + '"' 玩具数量价格 0

【csv】csv文件存储上数据精度丢失问题

Paloma_Gao的博客

12-01

3061

csv显示问题

Python读取CSV文件，数值精度丢失

hzp666的博客

11-24

1509

Excel保存为csv以后，大数值的列，会把转换为科学计数法，而且后边几位都会被转为0.搞了很多方法,最后直接安装 openpyxl 组件和 pandas，读取Excel文件就行了。 data = pd.read_excel("C:/work/20221111AI/cleaned_data_noTitle.xlsx") 查看效果： print(data['account_number'][0]) 网上还有其他解决方法，但是试了报用。

python csv保存精度_python – 在pandas中使用read_csv时精度丢失

weixin_39781326的博客

12-21

1377

我在文本文件中有以下格式的文件,我试图读入一个pandas数据帧.895|2015-4-23|19|10000|LA|0.4677978806|0.4773469340|0.4089938425|0.8224291972|0.8652525793|0.6829942860|0.5139162227|如您所见,输入文件中的浮点后有10个整数.df = pd.read_csv('mockup.txt'...

python将时间戳输出到csv表格，精度丢失

weixin_44852081的博客

08-31

1110

使用python将时间输出到csv表格，时间显示有误，时间显示精度丢失解决办法

pandas 读取JSON字符串解析长整形丢失数据精度，读取值与实际值不一致

C'mon的博客

04-23

465

方法读取JSON存为Excel文件时，发现Excel中order_no的值与JSON字符串中的值不一致，开始怀疑是Excel保存精度问题，但是Excel输出实际为字符串格式应该不会存在精度问题，后面直接在输出Excel文件前打印pandas 对象该列值，发现在pandas中该值就已经不准了，所以初步判断是pandas的问题，因为之前也遇到过pandas自动把unix时间戳转换了，问题在于在读取 JSON 数据时，Pandas 可能会根据数据的值自动推断数据类型，导致长数字被解释为整数类型而不是字符串类型。

python 精度损失_Python pandas通过隐式转换实现整数精度损失

weixin_39804335的博客

12-09

462

我正在处理大量不同的csv文件作为pandas数据帧读入，然后从中提取有趣的indizes和数据并将其收集到一个新的数据帧中，我逐行构建然后保存。每行代表一个文件中的信息。原始数据帧以毫秒精度纪元时间为索引。虽然时间不必要精确，但我无法改变它。>>> df.indexInt64Index([1382441313687, 1382441314687, 1382441315687, ...

在一个从左到右，从上到下递增的数组中找到给定的数值

weixin_43997764的博客

11-09

2855

如题 [ [1,2,3], [3,4,5] ] 对于这种如果暴力搜索肯定超时，观察数组特征，从左下角开始，1=行数-1，j=0，如果target大于当前值，则列指针向右走，j++，如果target小于当前值，行指针向上走i– #include <iostream> #include <vector> using namespace std; bool findTarget(vector<vector< int>>& v,int target) {

dataframe读取csv，精度丢失处理方法，必看！！！

qq_43722906的博客

05-13

5827

问题描述：在处理csv数据文件时，我需要的是完整的整型数值，如下图某一列的值用notepad++打开显示为18位的整型数值，但是用excel打开会以科学计数法形式显示，如果我们直接pd.read_csv（）不做任何处理的话，显示的也是以科学计数法显示，并且数据精度丢失。如下图查了很多资料，有以下方法，比如方法一： df['列名']=df['列名'].astype('int64') 结果如下确实变成整型了，但是最后一位还是丢失了。方法二： pd.set_option('display.fl

python csv pandas_python – 用pandas.DataFrame.to_csv()打印不同精度的列？

weixin_39531178的博客

03-01

239

题可以为Python pandas package method pandas.DataFrame.to_csv打印的每列指定一个浮点精度吗？背景如果我有一个这样排列的pandas数据框：In [53]: df_data[:5]Out[53]:year month day lats lons vals0 2012 6 16 81.862745 -2...

excel保存csv文件数字失真解决办法

weixin_44218499的博客

11-25

3978

用excel保存csv文件时，如果数字太大，excel会自动转换为科学计数法，导致csv文件里的数据变为科学计数法，从而失去意义解决办法： 1、利用空excel文件导入保存的csv文件创建一个空的excel导入保存的csv文件，并将有较大数字的那一列变为文本格式 ...

pandas数据处理基础之丢失数据处理（待续）

mocas_wang的博客

11-19

625

查看数据缺失情况： data.isnull()##元素级别的判断，把对应的所有元素的位置都列出来，元素为空或者NA就显示True，否则就是False df.isnull().any()##列级别的判断，只要该列有为空或者NA的元素，就为True，否则False data[data.isnull().values==True]##可以只显示存在缺失值的行列，清楚的确定缺失值的位置。 dat...

pandas 读取csv文件，再写入文件，产生超长小数位数问题

qq_39314099的博客

01-07

8760

python中的浮点数是17位精度，所以小数在python中实际是17位，这在用pandas时更能体现出来，假如有这样的一个csv文件：其中有很多小数，经由python的pandas读取，再写入： import pandas as pd df = pd.read_csv('D:\\csv\\Data.csv') df.to_csv('D:\\csv\\111.csv', index=F...

Python精度丢失，四舍五入遇5进1

weixin_49223979的博客

01-19

564

如果不decimal，21.705保留两位小数会等于21.70，处理后，0后面的5就会往前进1，这样就是准确的数值了！python四舍五入有时候遇5时不进1，是由于利用代码计算的时候会精度丢失，所以需要处理一下~pandas数据类型解决精度丢失。

python的csv库：保存数字仅有15位，精度丢失的解决办法

冲击10w

08-29

1474

在CSV文件中可以被视为分隔符，确保数据不会被自动格式化或截断。能够解决问题，那么这确实是一个有效的解决方案。可以看到20位数字+‘/t’被不失精度地保存！如果在字符串后添加制表符。

pandas问题

最新发布

03-27

### Pandas 常见问题及解决方案 #### 安装依赖问题当尝试安装 Pandas 时，可能会遇到依赖项冲突或不兼容的情况。这种情况下可以通过更新 pip 或 conda 来解决问题，并确保环境中的其他包版本与 Pandas 兼容[^2]。 ```bash pip install --upgrade pip pip install pandas ``` 如果仍然存在问题，建议创建一个新的虚拟环境并重新安装 Pandas： ```bash python -m venv my_env source my_env/bin/activate # Windows 用户使用 `my_env\Scripts\activate` pip install pandas ``` --- #### 处理 NaN 值在数据处理中，NaN 值是一个常见的挑战。如果不妥善处理，可能导致计算错误或其他异常行为。一种常用的方法是利用 `fillna` 方法填充缺失值[^3]。例如，可以用零替代所有列中的 NaN 值： ```python dataframe.fillna(0, inplace=True) ``` 也可以根据业务逻辑选择不同的策略，比如向前填充 (`ffill`) 或向后填充 (`bfill`)： ```python dataframe['column_name'] = dataframe['column_name'].fillna(method='ffill') ``` --- #### 科学计数法导致的精度丢失在将 DataFrame 导出到 CSV 文件时，某些浮点数值可能被转换为科学计数法表示形式，从而引发精度损失[^4]。为了避免这种情况，可以在调用 `to_csv` 方法时设置参数 `float_format`。示例代码如下： ```python dataframe.to_csv('output.csv', float_format='%.15f') # 小数点保留 15 位 ``` 此方法可有效防止因科学计数法引起的精度问题。 --- #### 性能优化技巧对于大规模数据集的操作，性能优化至关重要。以下是几种提升 Pandas 运行效率的方式[^1]： 1. **减少内存占用** 使用适当的数据类型（如 `int8`, `float32`），可以显著降低内存消耗。 ```python dataframe['column'] = dataframe['column'].astype('int8') ``` 2. **矢量化操作代替循环** 避免逐行迭代，尽可能采用内置函数完成批量操作。 ```python dataframe['new_column'] = dataframe['old_column'] * 2 ``` 3. **启用多线程加速** 利用第三方库（如 `modin` 或 `dask`）支持分布式计算框架，加快大数据量场景下的执行速度。 --- #### 数据读取与写入的最佳实践为了提高文件 I/O 效率，在加载大型 CSV 文件时推荐指定分隔符、编码方式以及必要的列名子集。此外，合理配置缓冲区大小也能改善吞吐表现。读取部分字段的例子： ```python useful_columns = ['colA', 'colB'] df = pd.read_csv('large_file.csv', usecols=useful_columns) ``` 保存结果至磁盘前压缩目标文档以节省存储空间： ```python compression_opts = dict(method='zip', archive_name='out.csv') dataframe.to_csv('out.zip', index=False, compression=compression_opts) ``` ---