一、项目介绍
多文本文件注释转化项目可以使得同一目录下所有C语言文件进行注释转化之后得到C++文件。项目主要利用C语言库函数和switch实现文本注释转化。
二、项目背景
在很多情况下我们写的源代码除了有C语言注释风格之外还有C++注释风格,有些时候这可能会给我们阅读源码产生误会,所以提出文本注释转化项目,就是帮助我们把C语言注释转化为C++注释。
三、设计思路
考虑C语言注释可能出现所有情况以及位置:
分类 | 示例 |
---|---|
一般注释 | int num = 0; /*int i = 0;*/ |
换行注释 | /*int i = 0;*/int j = 0; /*int i = 0;*/ int j = 0; |
匹配问题 | /*int i = 0; 2/*i= 1*/ |
多行注释问题 | /* int j = 0; int k = 0; int i = 0; */ int k = 0; |
连续注释问题 | /*int k = 0;*//*int i = 0;*/ |
连续的**/问题 | /*int i = 0;************/ |
C++注释问题 | // int k = 0; |
如果我们得到上述情况之后,直接上手就if/else语句写该项目,势必会造成该项目出现大量if/else语句,给我们后期维护以及阅读源码造成困难。所以接下来应该对上述情况进行分析。假设我们现在已经开始读取文件(文件读取位置未知),我们称此刻为未知状态。那么接下来读取无非下面四种情况:(1)读取到C语言注释 (2)读取到C++注释 (3)只是正常代码,并不是什么注释 (4)文件结束标志EOF。
最后考虑上述四种情况可以读出下列流程结果图:
到这里我们就可以开始写代码啦,总共有四种状态,所以我们可以定义一个枚举,来标识这四种状态。源码中部分函数介绍:
(1)ungetc函数
函数原型:int ungetc( int c, FILE *stream );
函数功能:Pushes a character back onto the stream.(读出的数据再次放回到缓冲区去,下一次读数据时,会再次读出来的)
(2)_findfirst、_findnext和_fineclose
在文件查找中使用这三个函数,除此之外还需要struct _finddata_t 结构体,它们都定义在头文件<io.h>中。首先讲一下这个结构体:
struct _finddata_t
{
unsigned attrib;
time_t time_create;
time_t time_access;
time_t time_write;
_fsize_t size;
char name[_MAX_FNAME];
};
这个结构体是用来存储文件各种信息的。
unsigned atrrib:文件属性的存储位置。它存储一个unsigned单元,用于表示文件的属性。文件属性是用位表示的,主要有以下一些:_A_ARCH(存档)、_A_HIDDEN(隐藏)、_A_NORMAL(正常)、_A_RDONLY(只读)、_A_SUBDIR(文件夹)、_A_SYSTEM(系统)。这些都是在<io.h>中定义的宏,可以直接使用,而本身的意义其实是一个无符号整型(只不过这个整型应该是2的几次幂,从而保证只有一位为1,而其他位为0)。既然是位表示,那么当一个文件有多个属性时,它往往是通过位或的方式,来得到几个属性的综合。例如只读+隐藏+系统属性,应该为:_A_HIDDEN | _A_RDONLY | _A_SYSTEM 。
time_t time_create:这里的time_t是一个变量类型(长整型?相当于long int?),用来存储时间的,我们暂时不用理它,只要知道,这个time_create变量是用来存储文件创建时间的就可以了。
time_t time_access:文件最后一次被访问的时间。
time_t time_write:文件最后一次被修改的时间。
_fsize_t size:文件的大小。这里的_fsize_t应该可以相当于unsigned整型,表示文件的字节数。
char name[_MAX_FNAME]:文件的文件名。这里的_MAX_FNAME是一个常量宏,它在<stdlib.h>头文件中被定义,表示的是文件名的最大长度。
前面也说了,这个结构体是用来存储文件信息的,那么如何把一个硬盘文件的文件信息“存到”这个结构体所表示的内存空间里去呢?这就要靠_findfirst、_findnext和_fineclose三个函数的搭配使用了。
首先还是对这三个函数一一介绍一番吧……
long _findfirst( char *filespec, struct _finddata_t *fileinfo );
返回值:如果查找成功的话,将返回一个long型的唯一的查找用的句柄(就是一个唯一编号)。这个句柄将在_findnext函数中被使用。若失败,则返回-1。
参数:
filespec:标明文件的字符串,可支持通配符。比如:*.c,则表示当前文件夹下的所有后缀为C的文件。
fileinfo :这里就是用来存放文件信息的结构体的指针。这个结构体必须在调用此函数前声明,不过不用初始化,只要分配了内存空间就可以了。函数成功后,函数会把找到的文件的信息放入这个结构体中。
int _findnext( long handle, struct _finddata_t *fileinfo );
返回值:若成功返回0,否则返回-1。
参数:
handle:即由_findfirst函数返回回来的句柄。
fileinfo:文件信息结构体的指针。找到文件后,函数将该文件信息放入此结构体中。
int _findclose( long handle );
返回值:成功返回0,失败返回-1。
参数:
handle :_findfirst函数返回回来的句柄。
注:结构体成员和函数说明来源于文章:https://blog.youkuaiyun.com/mituan1234567/article/details/17957289
四、项目拓展
在一个文件基础上,扩展为可以对多个文件进行同时注释替换。通过上述函数循环找到所有特定文件,然后注释转化,最终将转化之后的文件保存到特定目录。
五、测试用例
由于该项目需要考虑的情况太多,如果我们直接上手对所有情况进行测试,会造成不可预料的后果,尤其是死循环,一般死循环这种错误就是因为我们没有很好的把控文件结束判断。综上,我们应该先对每种情况单独测试,都成功之后在整体测试,这也会给我们提供1很好的机会定位错误。
六、效果展示
程序源代码如下:
//头文件
#pragma once
#define _CRT_SECURE_NO_WARNINGS 1
#include<iostream>
using namespace std;
#include <stdio.h>
#include <io.h>
#include<stdlib.h>
enum State{
NU_STATE, //未知状态
C_STATE, //C语言注释风格
CPP_STATE, //C++注释风格
EOF_STATE //文件结束标志
};
void ComentChange(FILE *fpIn, FILE *fpOut);
void DoCState(FILE *fpIn, FILE *fpOut, enum State* state);
void DoCppState(FILE *fpIn, FILE *fpOut, enum State* state);
void DoNuState(FILE *fpIn, FILE *fpOut, enum State* state);
//测试代码
#include "ComentChange.h"
#include<string.h>
void _ComentChange(char *pathname)
{
char buf_in[30] = "E:/";
FILE *fpIn = fopen(strcat(buf_in,pathname), "r");
if (nullptr == fpIn)
{
perror("fpIn");
exit(EXIT_FAILURE);
}
char buf_out[30] = "E:/change/";
FILE *fpOut = fopen(strcat(buf_out,pathname), "w+");
if (nullptr == fpOut)
{
fclose(fpIn);
perror("fpOut");
exit(EXIT_FAILURE);
}
//注释转化
ComentChange(fpIn, fpOut);
fclose(fpIn);
fclose(fpOut);
}
const char *to_search = "E:\\*.cpp"; //欲查找的文件,支持通配符
int main()
{
long handle; //用于查找的句柄
struct _finddata_t fileinfo; //文件信息的结构体
handle = _findfirst(to_search, &fileinfo); //第一次查找
if (handle<0)
return -1;
cout << fileinfo.name << endl; //打印出找到的文件的文件名
_ComentChange(fileinfo.name);
while (!_findnext(handle, &fileinfo)) //循环查找其他符合的文件,知道找不到其他的为止
{
cout << fileinfo.name << endl;
_ComentChange(fileinfo.name);
}
_findclose(handle); //别忘了关闭句柄
return 0;
}
//函数封装
#include "ComentChange.h"
void DoCState(FILE *fpIn, FILE *fpOut, enum State* state)
{
int first = fgetc(fpIn);
switch (first)
{
case '*':
{
int second = fgetc(fpIn);
switch (second)
{
case '/':
*state = NU_STATE;
break;
case '*':
fputc(first, fpOut);
ungetc(second, fpIn);//数据再次放回到缓冲区去,下一次读数据时,会再次读出来的。
//可能出现/*****/
break;
default:
fputc('*', fpOut);
fputc(second, fpOut);
break;
}
}
break;
default:
fputc(first, fpOut);
break;
//不可能是EOF
}
}
void DoCppState(FILE *fpIn, FILE *fpOut, enum State* state)
{
int first = fgetc(fpIn);
switch (first)
{
case '\r':
fputc('\r', fpOut);
*state = NU_STATE;
break;
case EOF:
*state = EOF_STATE;
break;
default:
fputc(first, fpOut);
break;
}
}
void DoNuState(FILE *fpIn, FILE *fpOut, enum State* state)
{
int first = fgetc(fpIn);
switch (first)
{
case '/':
{
int second = fgetc(fpIn);
switch (second)
{
case '/':
*state = CPP_STATE;
fputc('/', fpOut);
fputc('/', fpOut);
break;
case '*':
*state = C_STATE;
fputc('/', fpOut);
fputc('/', fpOut);
break;
/*case EOF://不可能是EOF
fputc('/', fpOut);
*state = EOF_STATE;
break;*/
default:
fputc('/', fpOut);
fputc(second, fpOut);
break;
}
}
break;
case EOF:
*state = EOF_STATE;
break;
default:
fputc(first, fpOut);
break;
}
}
void ComentChange(FILE *fpIn, FILE *fpOut)
{
enum State state = NU_STATE;
while (state != EOF_STATE)
{
switch (state)
{
case NU_STATE:
DoNuState(fpIn, fpOut, &state); //处理未知状态
break;
case C_STATE:
DoCState(fpIn, fpOut, &state); //处理C语言注释
break;
case CPP_STATE:
DoCppState(fpIn, fpOut, &state); //处理C++注释
break;
}
}
}
该项目还有不完善之处希望读者可以指小弟一条明路 ^_^