随机sample文件Python程序

本文介绍了一种从大型文件中随机抽取指定数量行的有效方法。通过使用Python的linecache模块来实现快速读取,适用于数据预处理或采样分析场景。

经常遇到由于样本巨大,需要sample一部分文件进行案例分析的情况,下面的程序主要为了随机抽取一个大文件中的N行。

 1 #!/usr/bin/python  
 2 # -*- coding: <encoding name> -*-
 3 import sys
 4 reload(sys)
 5 sys.setdefaultencoding('utf-8')
 6 
 7 import os
 8 import json
 9 import codecs
10 import random
11 import linecache
12 
13 ## from 1 to 1000w or ...
14 Random_number_list=[x for x in range(815003)]
15 ## select 100 or ...
16 Random_data_line = random.sample(Random_number_list, 100)
17 ## open a file
18 write_fname=open('aa.txt','a+')
19 for tmp_line in Random_data_line:
20     tmpdata=linecache.getline('readfile',tmp_line)
21     write_fname.write(tmpdata)
22 write_fname.close()

 

转载于:https://www.cnblogs.com/tec-vegetables/p/5306373.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值