ios::sync_with_stdio(false);

C++快速读取大数据
本文对比了多种C++读取大数据的方法,包括使用scanf、cin及其取消同步后的效果,并测试了通过fread和read一次性读取文件再解析的惊人效率。

原文:http://blog.youkuaiyun.com/yujuan_mao/article/details/8119529

在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈,需要更快的读取方式。相信几乎所有的C++学习者都在cin机器缓慢的速度上栽过跟头,于是从此以后发誓不用cin读数据。还有人说Pascal的read语句的速度是C/C++中scanf比不上的,C++选手只能干着急。难道C++真的低Pascal一等吗?答案是不言而喻的。一个进阶的方法是把数据一下子读进来,然后再转化字符串,这种方法传说中很不错,但具体如何从没试过,因此今天就索性把能想到的所有的读数据的方式都测试了一边,结果是惊人的。

竞赛中读数据的情况最多的莫过于读一大堆整数了,于是我写了一个程序,生成一千万个随机数到data.txt中,一共55MB。然后我写了个程序主干计算运行时间,代码如下:

最简单的方法就算写一个循环scanf了,代码如下:

[cpp]  view plain  copy
 print ?
  1. #include <ctime>  
  2. int main()  
  3. {  
  4.     int start = clock();  
  5.     //DO SOMETHING  
  6.     printf("%.3lf\n",double(clock()-start)/CLOCKS_PER_SEC);  
  7. }  
[cpp]  view plain  copy
 print ?
  1. <p>最简单的方法就算写一个循环scanf了,代码如下:</p>  
[cpp]  view plain  copy
 print ?
  1. const int MAXN = 10000000;  
  2.    
  3. int numbers[MAXN];  
  4.    
  5. void scanf_read()  
  6. {  
  7.     freopen("data.txt","r",stdin);  
  8.     for (int i=0;i<MAXN;i++)  
  9.         scanf("%d",&numbers[i]);  
  10. }  



 

?可是效率如何呢?在我的电脑Linux平台上测试结果为2.01秒。接下来是cin,代码如下
[cpp]  view plain  copy
 print ?
  1. const int MAXN = 10000000;  
  2.    
  3. int numbers[MAXN];  
  4.    
  5. void cin_read()  
  6. {  
  7.     freopen("data.txt","r",stdin);  
  8.     for (int i=0;i<MAXN;i++)  
  9.         std::cin >> numbers[i];  
  10. }  

?[出乎我的意料,cin仅仅用了6.38秒,比我想象的要快。cin慢是有原因的,其实默认的时候,cin与stdin总是保持同步的,也就是说这两种方法可以混用,而不必担心文件指针混乱,同时cout和stdout也一样,两者混用不会输出顺序错乱。正因为这个兼容性的特性,导致cin有许多额外的开销,如何禁用这个特性呢?只需一个语句std::ios::sync_with_stdio(false);,这样就可以取消cin于stdin的同步了。程序如下:
[cpp]  view plain  copy
 print ?
  1. const int MAXN = 10000000;  
  2.    
  3. int numbers[MAXN];  
  4.    
  5. void cin_read_nosync()  
  6. {  
  7.     freopen("data.txt","r",stdin);  
  8.     std::ios::sync_with_stdio(false);  
  9.     for (int i=0;i<MAXN;i++)  
  10.         std::cin >> numbers[i];  
  11. }  

取消同步后效率究竟如何?经测试运行时间锐减到了2.05秒,与scanf效率相差无几了!有了这个以后可以放心使用cin和cout了。

接下来让我们测试一下读入整个文件再处理的方法,首先要写一个字符串转化为数组的函数,代码如下

[cpp]  view plain  copy
 print ?
  1. const int MAXS = 60*1024*1024;  
  2. char buf[MAXS];  
  3.    
  4. void analyse(char *buf,int len = MAXS)  
  5. {  
  6.     int i;  
  7.     numbers[i=0]=0;  
  8.     for (char *p=buf;*p && p-buf<len;p++)  
  9.         if (*p == ' ')  
  10.             numbers[++i]=0;  
  11.         else  
  12.             numbers[i] = numbers[i] * 10 + *p - '0';  
  13. }  


 

把整个文件读入一个字符串最常用的方法是用fread,代码如下:

[cpp]  view plain  copy
 print ?
  1. const int MAXN = 10000000;  
  2. const int MAXS = 60*1024*1024;  
  3.    
  4. int numbers[MAXN];  
  5. char buf[MAXS];  
  6.    
  7. void fread_analyse()  
  8. {  
  9.     freopen("data.txt","rb",stdin);  
  10.     int len = fread(buf,1,MAXS,stdin);  
  11.     buf[len] = '\0';  
  12.     analyse(buf,len);  
  13. }  


 

上述代码有着惊人的效率,经测试读取这10000000个数只用了0.29秒,效率提高了几乎10倍!掌握着种方法简直无敌了,不过,我记得fread是封装过的read,如果直接使用read,是不是更快呢?代码如下:

[cpp]  view plain  copy
 print ?
  1. const int MAXN = 10000000;  
  2. const int MAXS = 60*1024*1024;  
  3.    
  4. int numbers[MAXN];  
  5. char buf[MAXS];  
  6.    
  7. void read_analyse()  
  8. {  
  9.     int fd = open("data.txt",O_RDONLY);  
  10.     int len = read(fd,buf,MAXS);  
  11.     buf[len] = '\0';  
  12.     analyse(buf,len);  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值