详解C语言文件操作

我们在写程序时有时会遇到一个问题，就是即使程序关闭了也想把里面的数据保存下来，例如写了通讯录的程序，当通讯录运行起来的时候，可以给通讯录中增加、删除数据，此时数据是存放在内存中，当程序退出的时候，通讯录中的数据自然就不存在了，等下次运行通讯录程序的时候，数据又得重新录入，如果使用这样的通讯录就很难受。
我们在想既然是通讯录就应该把信息记录下来，只有我们自己选择删除数据的时候，数据才不复存在。
这就涉及到了数据持久化的问题，我们一般数据持久化的方法有，把数据存放在磁盘文件、存放到数据库等方式。
使用文件我们可以将数据直接存放在电脑的硬盘上，做到了数据的持久化。

二、什么是文件

磁盘上的文件是文件。
但是在程序设计中，我们一般谈的文件有两种：程序文件、数据文件（从文件功能的角度来分类的）。

2.1 程序文件

包括源程序文件（后缀为.c）,目标文件（windows环境后缀为.obj）,可执行程序（windows环境后缀为.exe）。

如：

2.2 数据文件

文件的内容不一定是程序，而是程序运行时读写的数据，比如程序运行需要从中读取数据的文件，或者输出内容的文件。

如：

txt后缀的文件就是一种数据文件。

本章讨论的是数据文件。

2.3 文件名

一个文件要有一个唯一的文件标识，以便用户识别和引用。
文件名包含3部分：文件路径+文件名主干+文件后缀

例如：

为了方便起见，文件标识常被称为文件名。

三、文件的打开和关闭

3.1 文件指针

缓冲文件系统中，关键的概念是“文件类型指针”，简称“文件指针”。
每个被使用的文件都在内存中开辟了一个相应的文件信息区，用来存放文件的相关信息（如文件的名字，文件状态及文件当前的位置等）。这些信息是保存在一个结构体变量中的。该结构体类型是有系统声明的，取名FILE.

每当打开一个文件的时候，系统会根据文件的情况自动创建一个FILE结构的变量，并填充其中的信息，使用者不必关心细节。
一般都是通过一个FILE的指针来维护这个FILE结构的变量，这样使用起来更加方便。

下面我们可以创建一个FILE*的指针变量:

FILE* pf;//文件指针变量

定义pf是一个指向FILE类型数据的指针变量。可以使pf指向某个文件的文件信息区（是一个结构体变量）。通过该文件信息区中的信息就能够访问该文件。也就是说，通过文件指针变量能够找到与它关联的文件。

比如：

3.2 文件的打开和关闭

文件在读写之前应该先打开文件，在使用结束之后应该关闭文件。

在编写程序的时候，在打开文件的同时，都会返回一个FILE*的指针变量指向该文件，也相当于建立了指针和文件的关系。

ANSIC 规定使用fopen函数来打开文件，fclose函数关闭文件

// 打开文件

FILE * fopen ( const char * filename, const char * mode );

// 关闭文件

int fclose ( FILE * stream );

打开方式如下：

文件使用方式	含义	如果指定文件不存在
“r”（只读）	为了输入数据，打开一个已经存在的文本文件	出错
“w”（只写）	为了输出数据，打开一个文本文件	建立一个新的文件
“a”（追加）	向文本文件尾添加数据	建立一个新的文件
“rb”（只读）	为了输入数据，打开一个二进制文件	出错
“wb”（只写）	为了输出数据，打开一个二进制文件	建立一个新的文件
“ab”（追加）	向一个二进制文件尾添加数据	出错
“r+”（读写）	为了读和写，打开一个文本文件	出错
“w+”（读写）	为了读和写，建议一个新的文件	建立一个新的文件
“a+”（读写）	打开一个文件，在文件尾进行读写	建立一个新的文件
“rb+”（读写）	为了读和写打开一个二进制文件	出错
“wb+”（读写）	为了读和写，新建一个新的二进制文件	建立一个新的文件
“ab+”（读写）	打开一个二进制文件，在文件尾进行读和写	建立一个新的文件

示例代码：

#include <stdio.h>
int main()
{
	FILE* p = fopen("data.txt", "w");
	if (NULL == p)//判断打开是否成功
	{
		perror("fopen");
	}
	fputs("hello", p);
	fclose(p);
	p = NULL;
	return 0;
}

运行效果：

四、文件的顺序读写

4.1 字符输入或输出函数

字符输入函数：fgetc

int fgetc ( FILE * stream );

作用：以字符为单位读取文件中的数据到内存上，返回该数据的ASCII码值，读取失败或者读取完则返回EOF，同一个程序重复读取会接着之前的位置读，例如下面这个程序，如果在读一次就会读到e

例如：

字符输出函数：fputc

int fputc ( int character, FILE * stream );

作用：以字符为单位将数据从内存写入文件中，将character的数据写入到stream指向的文件里，写入失败会返回EOF，同一个程序重复写入会按照之前位置继续写

例如：

4.2 文本行输入或输出函数

文本行输入函数：fgets

char * fgets ( char * str, int num, FILE * stream );

作用：从stream指向的文件中读取num个内容输入到str所指向的位置，成功的话返回str的地址，失败或读取完则返回NULL，同一程序重复读取会接着之前的位置向下继续读.

例如：

文本行输出函数： fputs

int fputs ( const char * str, FILE * stream );

作用：会将str指向的那一串字符串写入到stream指向的文件里，会按行写入，若成功则返回写入数据的个数，失败则返回EOF，同一程序重复写入会接着之前的位置向下一行写入.

例如：

4.3 格式化输入或输出函数

格式化输入函数：fscanf

int fscanf ( FILE * stream, const char * format, ... );

作用：与scanf类似，格式化读取stream指向的文件内容，失败返回EOF，成功返回1

例如：

格式化输出函数：fprintf

int fprintf ( FILE * stream, const char * format, ... );

作用：与printf类似，格式化将内容写入到stream指向的文件里，成功则返回写入字符的个数，失败返回负数

例如：

4.4 二进制输入或者输出

二进制输入：fread

size_t fread ( void * ptr, size_t size, size_t count, FILE * stream );

作用：向stream文件中读取count个，size大小的内容，写入到str所指向的空间，成功则返回count，失败则返回其他数字

例如：

二进制输出：fwrite

size_t fwrite ( const void * ptr, size_t size, size_t count, FILE * stream );

作用：读取ptr所指向的内容，读取count个，大小为size的内容写入到stream文件里，成功则返回count，失败返回其他数字

例如：

4.5 对比一组函数

scanf/fscanf/sscanf
printf/fprintf/sprintf

五、文件的随机读写

5.1 fseek

根据文件指针的位置和偏移量来定位文件指针

int fseek ( FILE * stream, long int offset, int origin );

stream：指向文件的指针

offset:偏移量

origin：开始的位置

例子：

5.2 ftell

long int ftell ( FILE * stream );

作用：返回文件指针相对于起始位置的偏移量

例子：

5.3 rewind

void rewind ( FILE * stream );

作用：让文件指针回到文件的其实位置

例如：

六、文本文件和二进制文件

根据数据的组织形式，数据文件被称为文本文件或者二进制文件。
数据在内存中以二进制的形式存储，如果不加转换的输出到外存，就是二进制文件。
如果要求在外存上以ASCII码的形式存储，则需要在存储前转换。以ASCII字符的形式存储的文件就是文本文件。
一个数据在内存中是怎么存储的呢？
字符一律以ASCII形式存储，数值型数据既可以用ASCII形式存储，也可以使用二进制形式存储。
如有整数10000，如果以ASCII码的形式输出到磁盘，则磁盘中占用5个字节（每个字符一个字节），而二进制形式输出，则在磁盘上只占4个字节（VS2019测试）。

二进制存入：

ASCII形式存入

由此可见，二进制存储更节省空间

测试代码：

int main()
{
	FILE* p = fopen("data.txt", "wb");
	if (NULL == p)
	{
		perror("fopen");
	}
	int b=10000;
	int a = fwrite(&b, sizeof(int), 1, p);
	if (a != 1)
	{
		perror("fwrite");
	}
	fclose(p);
	p = NULL;
	return 0;
}

七、文件读取结束的判断

7.1 被错用的feof

牢记：在文件的读取过程中，不能用feof函数的返回值直接用来判断文件的是否结束

而是应当与文件读取结束的时候，判断是读取失败结束，还是遇到文件尾结束。

1.文本文件读取是否结束，判断返回值是否为EOF（fgetc），或者NULL（fgets）

2.二进制文件的读取结束判断，判断返回值是否小于实际要读取的个数

正确的判断方法：

文本文件：

int main()
{
	FILE* p = fopen("data.txt", "w");
	if (NULL == p)
	{
		perror("fopen");
	}
	char arr[] = "abcdef";
	int a = fputs(arr, p);
	fclose(p);
	p = fopen("data.txt", "r");
	char arr1[20];
	char* b;
	while (b = fgets(arr1, 6, p)!=NULL)
	{
	    if (feof(p))
		{
			printf("读取结束\n");
			printf("%s\n", arr);
		}
		else if(ferror(p))
		{
			printf("读取错误");
		}
	
	}
	
	return 0;
}

二进制文件：

int main()
{
	FILE* p = fopen("data.txt", "wb");
	if (NULL == p)
	{
		perror("fopen");
	}
	char arr1[] = "abcdef";
	int sz = sizeof(arr1) / sizeof(arr1[0]);
	fwrite(arr1, sizeof(char), sz, p);
	fclose(p);
	p = fopen("data.txt", "rb");
	if (NULL == p)
	{
		perror("fopen");
	}
	char arr2[10];
	int a = fread(arr2, sizeof(char), sz, p);
	if (a == sz)
	{
		printf("读取成功:");
		printf("%s", arr2);
	}
	else
	{
		if (feof(p))
		{
			printf("读取结束");
		}
		else if (ferror(p))
		{
			printf("读取错误");
		}
	}
	
	return 0;
}

八、文件缓冲区

ANSIC 标准采用“缓冲文件系统”处理的数据文件的，所谓缓冲文件系统是指系统自动地在内存中为程序中每一个正在使用的文件开辟一块“文件缓冲区”。从内存向磁盘输出数据会先送到内存中的缓冲区，装满缓冲区后才一起送到磁盘上。如果从磁盘向计算机读入数据，则从磁盘文件中读取数据输入到内存缓冲区（充满缓冲区），然后再从缓冲区逐个地将数据送到程序数据区（程序变量等）。缓冲区的大小根据C编译系统决定的。

测试代码：

#include <stdio.h>
#include <windows.h>
//VS2019 WIN10环境测试
int main()
{
	FILE* pf = fopen("test.txt", "w");
	fputs("abcdef", pf);//先将代码放在输出缓冲区
	printf("睡眠10秒-已经写数据了，打开test.txt文件，发现文件没有内容\n");
	Sleep(10000);
	printf("刷新缓冲区\n");
	fflush(pf);//刷新缓冲区时，才将输出缓冲区的数据写到文件（磁盘）
	//注：fflush 在高版本的VS上不能使用了
	printf("再睡眠10秒-此时，再次打开test.txt文件，文件有内容了\n");
	Sleep(10000);
	fclose(pf);
	//注：fclose在关闭文件的时候，也会刷新缓冲区
	pf = NULL;
	return 0;
}

这里可以得出一个结论：
因为有缓冲区的存在，C语言在操作文件的时候，需要做刷新缓冲区或者在文件操作结束的时候关闭文件。
如果不做，可能导致读写文件的问题。