删除c++源文件的注释

最新推荐文章于 2021-04-17 18:27:46 发布

原创最新推荐文章于 2021-04-17 18:27:46 发布 · 2.8k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#c++ #action #string #file #input #c

C++中的注释有两种风格：

1. 单行注释：以 // 开始，换行结束。如果一行的最后一个字符是 / ，那么下一行也是注释

2. 多行注释：以 /* 开始， */ 结束

几点特殊：（只在程序中试了一下，不保证完全正确啊）

1. 双引号的注释不起作用

2. 转义字符

3. 没有嵌套注释

以下都是合法的注释：

//hello //hello / world /* hello world */ /* hello world */

测试程序：

#include "stdafx.h" #include <iostream> using namespace std; //This is / a test / program //Test only/// //Test / only// int main() { cout<<"line 1 // hello"<<endl; // line 1 cout<<"line 2 /* haha~ */"<<endl; // line 2 cout<<"line 3 /" /* hehe */"<<endl; /* line 3 */ /* ********///////////////////******** this is test program this is test program this is test program */ return 0; }

处理完后应该得到的结果是：

#include "stdafx.h" #include <iostream> using namespace std; int main() { cout<<"line 1 // hello"<<endl; cout<<"line 2 /* haha~ */"<<endl; cout<<"line 3 /" /* hehe */"<<endl; return 0; }

首先想象一下处理过程，一个字符一个字符的读取输入文件，如果是一般字符，原样输出；如果是特殊字符 /, *, ", /, /n 特殊处理。比如遇到一个 / 字符，则需要看下一个字符是否是 /，如果是就找到了单行注释的开头，接下来找换行符 /n，该行不输出；如果下一个字符是*，则找到了多行注释的开头，接下来需要找匹配的 */；如果是遇到了双引号"，则再遇到下一个"之前，要忽略掉这之间的注释。。。

这看起来很像状态机的运转过程，实际上在程序编译做词法分析的时候，就是用的类似的过程。

画一个状态机看看：

state 0: 正在分析，在这个状态下，读到什么，输出什么。

state 1: 读到第一个/

state 2: 读到第二个/。//...

state 3: 读到第一二*。/*

state 4: 读到第二个*。/*...*

state 5: 读到第一个双引号"

state 6: 读到转义字符（转义字符后面的双引号不用来配对的）

state 7: 读到//后面的行连接符/。 //....../

state 8: 读到//后面的行连接符/后，继续处理

state 9: 和state0是等价状态，分出这个状态可以做一些操作，比如删除注释。

#include "stdafx.h" #include <string> char fsm[10][128]; void Initfsm() { const int line_len = sizeof(char) * 128; memset(fsm[0], 0, line_len); memset(fsm[1], 0, line_len); memset(fsm[2], 2, line_len); memset(fsm[3], 3, line_len); memset(fsm[4], 3, line_len); memset(fsm[5], 5, line_len); memset(fsm[6], 5, line_len); memset(fsm[7], 2, line_len); memset(fsm[8], 8, line_len); memset(fsm[9], 0, line_len); fsm[0]['/'] = 1; fsm[0]['"'] = 5; fsm[1]['/'] = 2; fsm[1]['*'] = 3; fsm[1]['"'] = 5; fsm[2]['/n'] = 9; fsm[2]['//'] = 7; fsm[3]['*'] = 4; fsm[4]['/'] = 9; fsm[4]['*'] = 4; fsm[5]['"'] = 0; fsm[5]['//'] = 6; fsm[7]['//'] = 7; fsm[7]['/n'] = 8; fsm[8]['/n'] = 9; fsm[8]['//'] = 7; fsm[9]['/'] = 1; fsm[9]['"'] = 5; } int _tmain(int argc, _TCHAR* argv[]) { int state = 0; char c; std::string outStr; FILE *fin = fopen("D://Temp//input.cpp","r"); if (fin == NULL) { printf("Fail to open input file!"); return 0; } FILE *fout = fopen("D://Temp//output.cpp","w"); Initfsm(); while(fscanf(fin,"%c",&c)!=EOF) { state = fsm[state][c]; outStr += c; switch(state) { case 0: fprintf(fout, "%s", outStr.c_str()); outStr = ""; break; case 9: outStr = ""; if(c == '/n') { fputc(c, fout); } break; } } fclose(fin); fclose(fout); return 0; }

这个实现很巧妙也很简洁。

用更通用的状态机实现方法。所有的状态都定义成枚举的一个值，每次读入一个字符，根据当前状态和字符，决定要跳转的状态。在while的一开始，根据是PROCESS还是COMMENT状态，做action，实际应该在跳转到PROCESS或者COMMENT状态时，就做相应的action。这个action不能放在第二个switch的case里去，变成如果当前是PROCESS或者COMMENT，action，那样的话已经多了读了一个字符了。

enum State { PROCESS, SLASH1, SLASH2, STAR1, STAR2, QUOTE, ESCAPE, SLASH_EXTEND1, SLASH_EXTEND2, COMMENT }; void RemoveComments_2() { std::ifstream fin; std::ofstream fout; char ch; std::string outStr; fin.open("D://Temp//input.cpp"); if (fin.fail()) { std::cout << "Fail to open input file!" << std::endl; return; } fout.open("D://Temp//output.cpp"); State state = PROCESS; while (!fin.eof()) { //Action switch (state) { case PROCESS: fout << outStr; outStr = ""; break; case COMMENT: outStr = ""; if(ch == '/n') { fout << std::endl; } break; } ch = fin.get(); outStr += ch; //Change state switch(state) { case PROCESS: if ( ch == '/') state = SLASH1; else if ( ch == '/"') state = QUOTE; break; case SLASH1: if (ch == '/') state = SLASH2; else if (ch == '/"') state = QUOTE; else if (ch == '*') state = STAR1; else state = PROCESS; break; case SLASH2: if (ch == '//') state = SLASH_EXTEND1; else if (ch == '/n') state = COMMENT; break; case STAR1: if (ch == '*') state = STAR2; break; case STAR2: if (ch == '/') state = COMMENT; else if (ch == '*') state = STAR2; else state = STAR1; break; case QUOTE: if (ch == '/"') state = PROCESS; else if (ch == '//') state = ESCAPE; break; case ESCAPE: state = QUOTE; break; case SLASH_EXTEND1: if (ch == '/n') state = SLASH_EXTEND2; else if (ch == '//') state = SLASH_EXTEND1; else state = SLASH2; break; case SLASH_EXTEND2: if (ch == '/n') state = COMMENT; else if (ch == '//') state = SLASH_EXTEND1; break; case COMMENT: if (ch == '/') state = SLASH1; else if (ch == '/"') state = QUOTE; else state = PROCESS; break; } } }

这两个实现的缺点是只能处理ASCII编码的文件，如果有中文注释就挂了。关于如何处理不同编码文件的问题，容后再议：）

【参考】

http://www.cnblogs.com/yangyangye/articles/1771823.html

P.S.没有考虑单行注释可以跨行的情况