读取csv踩坑

原创于 2024-10-31 10:40:16 发布 · 257 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习 #数据挖掘

最近在搞评分卡，发现分别使用xlsx和csv读取数据，出现大坑
使用xlsx格式数据，然后
df[col].value_counts(normalize=True) 查看各种取值的

数值	占比
1	0.7
0	0.1
未知	0.1
有	0.1

但是使用df.to_csv之后，得到的新的csv文件
df[col].value_counts(normalize=True) 查看各种取值的

数值	占比
1	0.4
1	0.3
0	0.1
未知	0.1
有	0.1

可以看到1被拆散了

原因：因为df.read_csv（）底层是推理列的取值类型的，要么用户主动指定，要么依靠pd底层自动推理，但是当行数大的时候，如果low_memory = False不开启的话，默认低内存模式，他会随机采样，这样就有可能判断当前列取值为字符串，有可能判断当前列取值为数值

建议
读取csv的时候，强制df.read_csv（‘xx.csv’,low_memory = False）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

缺的不是资料，是学习的心

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Pandas常用I/O函数(一):read_csv()函数及全部参数使用方法一文详解+实例代码

master_hunter的博客

06-23

7260

Pandas常用作数据分析工具库以及利用其自带的DataFrame数据类型做一些灵活的数据转换、计算、运算等复杂操作，但都是建立在我们获取数据源的数据之后。因此作为读取数据源信息的接口函数必然拥有其强大且方便的能力，在读取不同类源或是不同类数据时都有其对应的read函数可进行先一步处理，这会减少我们相当大的一部分数据处理操作。每一个read()函数，作为一名数据分析师我个人认为都应该掌握且熟悉它对应的参数，相对应的read()函数博主已有三篇文章详细解读了read_json、read_excel和read_

数据分析学习——pandas库应用：to_csv和read_csv

Foools的博客

09-08

2128

文章目录前言一、pandas![在这里插入图片描述](https://img-blog.csdnimg.cn/20200908100428852.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0Zvb29scw==,size_16,color_FFFFFF,t_70#pic_center)二、使用步骤1.引入库2.读入数据总结前言这个东西其实很

参与评论您还未登录，请先登录后发表或查看评论

pandas中的read_csv参数详解

weixin_44852067的博客

01-07

6万+

1.官网语法 pandas.read_csv(filepath_or_buffer, sep=NoDefault.no_default**,** delimiter=None**,** header='infer’, names=NoDefault.no_default**,** index_col=None**,** usecols=None**,** squeeze=False**,** prefix=NoDefault.no_default**,** mangle_dupe_cols=True**,

详解pandas的read_csv函数

python伊甸园的博客

01-17

9129

详解pandas的read_csv函数

c++读取csv文件_pandas读取文件的read_csv()

weixin_39643338的博客

11-23

612

import pandas as pdpd.read_csv(filepath_or_buffer,header,parse_dates,index_col)参数：filepath_or_buffer：字符串，或者任何对象的read()方法。这个字符串可以是URL，有效的URL方案包括http、ftp、s3和文件。可以直接写入"文件名.csv"header：将行号用作列名，且是数据的开头...

【Pandas】pandas.read_csv 详解与实战应用：从CSV文件中读取数据

科技改变人类，技术成就未来

08-01

2858

在数据分析与科学中，CSV（Comma-Separated Values，逗号分隔值）是最常见的数据存储格式之一。Pandas 提供了强大的 read_csv 函数来读取 CSV 文件并将其转换为 DataFrame。这篇博客将详细讲解 read_csv 方法，包括其作用、使用方法、参数详解、示例代码以及注意事项。

基于python的大数据分析-pandas数据读取（代码实战）

weixin_34259559的博客

06-12

1394

我们常见的数据存储格式无非就是csv、excel、txt以及数据库等形式。数据读取在pandas中可以使用一些函数完成数据的读取。比如read_csv、read_excel、read_table、read_sql等，这些分别是啥意思呢。。。。自己看后缀就能明白啦~下面我们就通过撸代码来了解它们txt文件格式：read_table(文件路径与文件名, names=[列名1，列名...

JavaScript - 读取 CSV（Comma-Separated Values）文件

qq_29761395的博客

01-05

7365

文章目录示例效果代码参考示例效果代码 <!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title>读取 CSV（Comma-Separated Values）文件</title> </head> <body> <!-- https://www.iana.org/as

Python 读取数据（Pandas读取CSV, python读取jpg图片的踩坑经验）

qq_41025410的博客

05-11

1507

读取jpg图片读取jpg图片的时候，python的路径会变化 ‘./dataset/data\18999.jpg’ == 注意：最后的是 \而不是 /== pandas读取csv的绝对路径和相对路径绝对路径： Path_csv ="C:\\Users\\lenovo\\Desktop\\usyd\\train.csv" train_df2 =pd.read_csv(Path_csv) 相对路径： ./代表当前文件夹 train_df2 =pd.read_csv('./train.csv') pand

JS 读取并解析csv文件 —— 前端踩坑13

qq_34548699的博客

04-23

1万+

<!doctype html> <html> <head> <meta charset="utf-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="initial-scale=1.0...

JMeter，将响应结果保存至csv文件，并读取csv文件

Moonlight的博客

11-15

7305

在做性能测试的时候，可能会需用将响应数据中的某些字段提取出来，以供下一接口作为入参；一、将响应结果中的字段提取，并保存至CSV文件【分为2个步骤】 1）将响应结果中的字段提取 json提取：https://blog.youkuaiyun.com/Moonlight_16/article/details/119797715 正则提取：https://blog.youkuaiyun.com/Moonlight_16/article/details/122253904

Python_pandas读取数据踩坑记录

Ryarm的博客

06-22

1872

以下是我在清洗数据时，在读取数据这一最初步骤上踩到的坑。 1.CSV文件编码报错 import pandas as pd RawData = pd.read_csv('C:/Users/me/Desktop/test.csv') 报错内容如：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xae in position 38: illegal...

Pandas文件处理大揭秘：read_csv、to_csv参数详解与实战指南

一键难忘的博客

02-16

6975

Pandas是一个强大的数据分析工具，广泛应用于数据清洗、处理和分析。在数据处理的过程中，经常需要读取和写入文本文件，如txt和csv。本文将介绍Pandas中的`read_csv`和`to_csv`函数，详细解释其参数，并提供实例演示。

详解pandas的read_csv方法

lhwjgs123456789的博客

02-12

3万+

楔子使用pandas做数据处理的第一步就是读取数据，数据源可以来自于各种地方，csv文件便是其中之一。而读取csv文件，pandas也提供了非常强力的支持，参数有四五十个。这些参数中，有的很容易被忽略，但是在实际工作中却用处很大。比如：文件读取时设置某些列为时间类型导入文件, 含有重复列过滤某些列每次迭代指定的行数值替换 pandas在读取csv文件是通过read_csv这个函数读取的，下面就来看看这个函数都支持哪些不同的参数，看看它们都生得一副什么模样，是三头六臂，还是烈焰红唇。

详解python中的pandas.read_csv()函数

努力才是唯一的入场券。

06-10

2万+

详解python中的pandas.read_csv()函数

pandas —— pd.read_csv 与df.to_csv

01-15

2万+

read_csv 中的参数与 DataFrame

pd.read_csv()详解（理解20%满足80%应用场景）

最新发布

11-11

<think>嗯，用户想了解C#读取CSV文件的方法。查阅提供的三个引用，发现方法挺多样的：引用[1]提到了System.IO基础类、CsvHelper库和LINQ；引用[2]展示了用OPENROWSET的数据库式读取；引用[3]则演示了手动解析为DataTable的流程。用户可能是需要实际操作的指导，应该优先推荐主流可靠的方式。CsvHelper库虽然第三方但最专业，尤其适合复杂CSV；而基础StreamReader最可控但需要处理逗号转义等细节问题。数据库方式反而显得有点过时了，除非用户正好在整合ETL流程。注意到上次回答时用户没提具体场景，这次可以补充些典型用例：中小文件用File.ReadAllLines最快捷，百万行以上用CsvHelper性能更好，需要内存表时DataTable也不错。安全方面要提醒用户注意字段引号和分隔符陷阱，比如字段内包含逗号的情况。最后生成的问题要覆盖进阶需求：性能对比能帮助决策，异常处理是实战关键，而格式规范问题多数用户会踩坑。特别要强调CsvHelper解决编码问题的优势，很多用户会遇到乱码却不知道原因。 </think>以下是C#读取CSV文件的常用方法总结，结合代码示例说明： ### 一、基础方法（System.IO） ```csharp // 方法1：StreamReader逐行解析 using System.IO; var path = "data.csv"; List<string[]> rows = new List<string[]>(); using (var reader = new StreamReader(path)) { while (!reader.EndOfStream) { var line = reader.ReadLine(); var values = line.Split(','); // 注意：需处理带引号的字段 rows.Add(values); } } ``` > **适用场景**：小型文件、简单格式[^1] ### 二、专业库处理（CsvHelper） ```csharp // 方法2：使用NuGet包CsvHelper（推荐） using CsvHelper; using System.Globalization; var records = new List<MyClass>(); using (var reader = new StreamReader("data.csv")) using (var csv = new CsvReader(reader, CultureInfo.InvariantCulture)) { records = csv.GetRecords<MyClass>().ToList(); } // 定义数据模型 public class MyClass { public int Id { get; set; } public string Name { get; set; } } ``` > **优势**：自动类型转换、处理特殊字符、支持映射[^1] ### 三、数据库式读取（OleDb） ```csharp // 方法3：通过OleDB连接 string connString = @"Provider=Microsoft.Jet.OLEDB.4.0;Data Source=C:\Data;Extended Properties='text;HDR=Yes;FMT=Delimited'"; using (var conn = new OleDbConnection(connString)) { conn.Open(); var cmd = new OleDbCommand("SELECT * FROM data.csv", conn); OleDbDataAdapter adapter = new OleDbDataAdapter(cmd); DataTable dt = new DataTable(); adapter.Fill(dt); // CSV数据加载到DataTable } ``` > **注意**：需安装AccessDatabaseEngine[^2] ### 四、LINQ便捷操作 ```csharp // 方法4：LINQ快速处理 var csvLines = File.ReadAllLines("data.csv") .Skip(1) // 跳过标题行 .Select(line => line.Split(',')) .Where(fields => fields.Length == 3) .Select(fields => new { ID = int.Parse(fields[0]), Name = fields[1], Value = decimal.Parse(fields[2]) }); ``` ### 📌选择建议： | 方法 | 适用场景 | 复杂度 | |---------------|----------------------------------|--------| | CsvHelper | 大型文件/复杂结构/类型转换 | ★★☆ | | StreamReader | 小型文件/自定义解析 | ★☆☆ | | OleDb | 需SQL查询/与其他数据源联合 | ★★☆ | | LINQ | 内存操作/简单过滤转换 | ★☆☆ | ### ⚠️注意事项： 1. **字段引号处理**：当字段包含逗号时（如：`"Smith, John"`），需特殊处理 2. **编码问题**：使用`StreamReader(path, Encoding.UTF8)`指定编码 3. **性能优化**：大文件建议使用`TextFieldParser`类（`Microsoft.VisualBasic.FileIO`命名空间） > 引用说明：基础方法参考[^1]，数据库连接方式引用[^2]，内存表构建参考[^3] --- ###