现有文本huge.txt,前 5 行内容如下:
| f1 | f2 |
| yewhhgfifsbplrxankqazzewzkhfxjetiprfvyinchmdventatkry | lwxazkmczmpcluechdtfgwapgvyzfxqczcuvadkfqrcciptmpo |
| viqxbdjjzkdcytdnjiuexottvgdjkafhykbotjsupyuybvgycqhfsdlypuftbezga | mmoermrlbovwmfnxgctizucfccatwlvugnqvikhbgaqvamwbzqluwavgcjtonutairrafrpywtwtpocgltmfrxz |
| plhdyslghehlptlsczizhjbtcqwasvspjqyeifsnqagqovvdukxftsp | tlisnnguudbqgrupqpoqjfshldpuwjdkfeizhkfwsvmdspswusmclhqzzxaumvwrerbsl |
| bltnilcncwgnsyxeosdtytvpdbxuiwukdqpgvvbihoqvvmhogmffzpivuysbhgitfqxptyuofsukmz | ajojwbcfptahjetpnmkbsfrblubvvjxyestplybzpxxwsrppgteoreckkscrsu |
| … | … |
该文本有200GB,现需要从中随机抽样 1 万行数据
借助集算器可以很方便地完成这件事。
1. 在集算器中编写脚本sample.dfx:
| A | |
|---|---|

本文介绍了如何借助集算器从一个200GB的巨大文本文件中,通过估算和随机算法抽取1万行数据。详细步骤包括计算记录平均长度、估算文件行数、生成随机行数以及选取样本。尽管方法简洁,但由于段落数目是估算的,实际抽样结果可能略少于1万行。
最低0.47元/天 解锁文章
686

被折叠的 条评论
为什么被折叠?



