tf.decode_csv() error: “Unquoted fields cannot have quotes/CRLFs inside”

最新推荐文章于 2023-05-31 09:04:11 发布

原创最新推荐文章于 2023-05-31 09:04:11 发布 · 691 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习 #tensorflow

药老算法专栏收录该内容

17 篇文章

订阅专栏

本文介绍了在使用TensorFlow运行深度神经网络（DNN）时遇到的'Unquoted fields cannot have quotes/CRLFs inside'异常的解决方法。问题源于数据中的引号和回车换行符。解决方案包括设置`tf.decode_csv`的`use_quote_delim=False`来处理引号，以及替换掉数据中的回车换行符。通过理解源码和调整参数，可以成功解决这个问题。

部署运行你感兴趣的模型镜像

一、背景

今天基于TensorFlow跑DNN，报了一个异常InvalidArgumentError (see above for traceback): Unquoted fields cannot have quotes/CRLFs inside”，在decode csv文件的时候报上面这个错，中文解释是“未加引号的字段中不能包含引号/ CRLF”，异常如下：
在这里插入图片描述

二、解决

1.处理引号

本实验中DNN的训练集是将各个特征通过’\t’进行拼接，通过异常显示应该是字符串中有引号，导致在decode的时候无法区分拼接的特征，使得抛出了异常，google了一波，找到了答案，在tf.decode_csv()函数中，有个参数是use_quote_delim 参数，看原始代码的解释为：

se_quote_delim: An optional bool. Defaults to True.
If false, treats double quotation marks as regular
characters inside of the string fields (ignoring RFC 4180, Section 2,
Bullet 5).

此参数默认True，会把双引号当成引用，在使用tf.decode_csv读取文件的时候如果某一行有双引号会报错。

所以需要将其设置为False，这样就会把双引号当做为一个普通的字符串变量，在这里读取不会报错，如下：

在这里插入图片描述