linux c++ getline读取文本文件

本文详细介绍了如何在Linux环境中利用C++的getline函数高效地读取文本文件内容,同时探讨了文件编码问题及其处理方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

函数原型:

istream& getline ( istream& is, string& str, char delim );
istream& getline ( istream& is, string& str ); 

读取文件,第一个按参数delim作为分隔符,第二个以'\n'作为分隔符。

问题产生:
在windows,新建文本文档,输入字符,换行保存,另存时选择文件编码为 unicode big endian.
在用上面第二个函数读取该文本的时候,会忽略掉第一行的字符。

文本示例:(三个逗号,windows平台下另存文件,选择编码:unicode big endian)
,
,
,

程序示例

#include <iostream>
#include <fstream>

using namespace std;

int main()
{
        ifstream ifs("unicode_big_endian.txt");
        string str;
        int i = 0;
        while(getline(ifs, str))
        {   
                printf("%04X\n", *(unsigned short *)str.c_str());
        }   

        return 0;
}

期望输出:

2C00
2C00
2C00

实际输出:

FFFE
2C00
2C00

如果直接在linux下,touch 创建一个文本,同样的输入3行逗号。
运行如上命令。

实际输出:

002C
002C
002C

问题原因:
用 hexdump -C <file-name> 命令查看编码为unicode big endian的文件:

00000000  fe ff 00 2c 00 0d 00 0a  00 2c 00 0d 00 0a 00 2c  |...,.....,.....,|
00000010

发现文件头多了 fe ff 两个字节。

同样,查看在linux下用touch创建的文件:

00000000  2c 0a 2c 0a 2c 0a                                 |,.,.,.|
00000006

而用file查看两个文件的格式,如下:
unicode big endian的文件:

unicode_big_endian.txt: Big-endian UTF-16 Unicode character data, with CRLF line terminators

linux touch产生的文件:
unicode_big_endian.txt_bak1: ASCII text

问题解决:
其实这只是个文本编码的问题。
在windows下,文件保存的编码有四种,分别是:ANSI、unicode、unicode big endian、utf-8。
默认为ANSI编码,即系统的默认编码。(在区域与语言块设置)。

根据字节流的BOM(Byte Order Mark)规则,在一段字节流开始时,需要发送该字节流的编码方式,

UTF-8:	EF BB BF
UTF-16:	FF FE
UTF-16 Big-endian: FE FF
UTF-32 Big-endian: FF FE 00 00
UTF-32 Little-endian: 00 00 FE FF
如果上面都不是,则为ANSI编码

在windows下保存文件时,选择了格式unicode big endian的编码方式,所以文件头写上了UTF-16 Big-endian的表示FE FF标志。
而Linux 下touch创建的文件是ASCII编码方式,所以开头无任何标志。

所以在文件编码不是默认编码时,应注意文件开头的字节。
如果按行读取该文件,应注意在第一行加一个空行,保证忽略该文件的编码方式的标志。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值