从3000W行的数据取出前50

最新推荐文章于 2023-02-20 19:54:29 发布

转载最新推荐文章于 2023-02-20 19:54:29 发布 · 213 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/wrmfw/archive/2011/09/21/2183019.html

文章标签：

#数据结构与算法

本文介绍了一种在有限内存条件下，从大规模无序数据集中选取前50个最大ID的有效算法。通过使用缓冲区和Top数组，结合排序及二分查找技巧，实现了一个既节省内存又高效的数据筛选方案。

从3000W行的数据取出前50

一个数据文件，有3000W行，每行有一个id号，文件内容无任何排序。
现在让你把id前 TOP 位取出来, TOP = 50.

要求：你的程序最多能吃2G的内存，其他不限，要求考虑io/cup最优。

解决思路：

1 建一个top_array, 长度为50.
2 再建一个buffer, 长度为2^20 (1G)
3 循环开始
4   读取文件到buffer，直到buffer满为止
5   将Buffer的前50位读到top_array
7   将top_array排序，按照id升序
6   循环开始
7      接着读取buffer的下一位
       如果比最后一个还大，next;
        否则，插入到top_array相应位置，并删除最后一个。
    循环到Buffer全部读完为止

9 循环到文件读完为止

当然对to_arary进行插入的时候，用2分法，当然数据结构如果用最小堆/最大堆，也是一样的。

整体时间应该是

nlog(m)

posted on 2011-09-21 01:15 之乎者也2011 阅读( ...) 评论( ...) 编辑收藏

转载于:https://www.cnblogs.com/wrmfw/archive/2011/09/21/2183019.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ddl_2014

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

详解大模型微调数据集构建方法(持续更新)

herosunly的博客

06-05

28万+

本文详细介绍了大模型微调数据集构建方法，希望能对学习大模型的同学们有所帮助。文章目录 1. 前言 2. 微调数据集构建方法 2.1 方法一 2.2 方法二 2.3 方法三 2.4 方法四 2.5 方法五

[Python从零到壹] 十二.机器学习之回归分析万字总结全网首发（线性回归、多项式回归、逻辑回归）

热门推荐

杨秀璋的专栏

07-03

5万+

前一篇文章讲述了数据分析部分，主要普及网络数据分析的基本概念，讲述数据分析流程和相关技术，同时详细讲解Python提供的若干第三方数据分析库，包括Numpy、Pandas、Matplotlib、Sklearn等。本文介绍回归模型的原理知识，包括线性回归、多项式回归和逻辑回归，并详细介绍Python Sklearn机器学习库的LinearRegression和LogisticRegression算法及回归分析实例。进入基础文章，希望对您有所帮助。

参与评论您还未登录，请先登录后发表或查看评论

截取list数组前几条

qq_37240849的博客

02-28

8773

if(tags.size()>40){ tag = tags.subList(0,35);//如果tags集合大于40条数据就就截取前35条 }

三种数据库不同的取前10条记录

12-02

sql oracle mysql 数据库不同的取前10条记录

python行数据切片_机器学习Python——pandas取行、列、切片

weixin_42387906的博客

01-12

824

# -*- coding: utf-8 -*-import numpy as npimport pandas as pddata = DataFrame(np.arange(20).reshape(4,5),index = list("ABCD"),columns=list('vwxyz'))'''v w x y za 0 1 2 3 4b 5 6 ...

EasyExcel 低内存导出大数据量的Excel方案探索 50万行 50列（附：实现代码）

积木成林，聚沙成塔

02-20

9950

最近接到一个需求，需要从服务器中导出大量数据到Excel中，数据量大概为50万行，50列，借助这个机会，就想对使用使用低内存导出大数据量的方案进行探索，总结出一个通用可行性方案，以方便日后随时可以使用，同时也分享一下探索的过程。降低存入到内存中的数据，使用分批次查询、分批次插入数据的方式。尽可能的减少并发，避免使用多线程操作Excel，同时，还可以通过队列做异步和限流，排队处理导出请求。考虑到Excel文件过大无法操作，可以将一个大文件拆分为多个小文件。

《中国医生》值不值得看？Python爬取4w+观影数据告诉你答案

hhladminhhl的博客

07-15

3万+

前言最近一部根据真实事件改编的《中国医生》正在火热上映，感动了无数观众，更获钟南山院士高度评价：“真正体现了中国医生的良心、责任、决心、行动！” 影片以金银潭医院为核心故事背景，将抗疫中各地发生的真人真事浓缩凝练，全景式还原记录了波澜壮阔、艰苦卓绝的抗疫斗争。网友也对《中国医生》原型展开热烈讨论，关于《中国医生》的话题在多个平台登上热搜，今天我们就通过抓取近3万条评论数据，并对获取到的数据进行分析，看看电影观众们对这部电影的评价究竟如何？一、核心功能设计总体来说，我们需要先从猫眼电影爬取《中国医生》

从大量数据中取得前100个最大的算法

u012877418的专栏

11-18

1万+

概括：缘起：这个月初，有同学去腾讯面试，这是最后一题，从1000万个数据中取出最大的100个，觉得点意思。我第一反应和同学是一样的，遍历这个1000万的超级数组或文件100次，每次找出当前最大的那个，并从中移除。第二反应是，显然100*1000万的规模太大，不可取，特别是，当1000万的数据在文件中，(如果是int型数据,32位机，将有40M,实际字段可能不止sizeof(int)),文件读取

firebird学习笔记

weixin_30773135的博客

01-04

629

firebird学习笔记 firebird学习笔记 firebird默认的用户名:SYSDBA 密码:masterkey 开源的Firebird的可视化管理工具Mar...

mysql 优化表 3000万_MySQL 单表三千万条数据，怎么优化 count 查询？

weixin_35976688的博客

02-27

2065

CodeXx：innodb，20 来个字段，每天有几十万条数据插入，在不做分表的情况下，怎么优化查询？现在是 count 查询很慢，5s 左右，带上查询条件比如近一个月就更慢了 10 多 sJoyboo：分区，索引lidashuang：可以不做 count，就不做非做的话，看看能不能自己统计或者放 es 里？CodeXx：@Joyboo 索引对 count 查询貌似没用，还是得扫描全表mysql ...

截取列表前面100行_(300W)+行*(50+)字段数据读取处理实例

weixin_39890332的博客

12-03

479

大家好，我是Imp Sue.一个梦想要成为data sciense的菜鸟。最近开始着手写知乎，记录下成长点滴，废话不多说，开冲。最近有了新任务，产品经理需要我在存量客户数据中查找出双卡客户，并呈现相关的客户业务办理明细，找出其中办理了58元+套餐的客户，用于业务分析。业务细节大家可以忽略，简单来说，我就是拿到了两份数据。第一份就是存量客户的数据明细，里面记录着**移动公司地市范围内所有客户以及向关...

使用golang读取超大Excel(包含100列100W行)并随机取20W行数据

08-08

### 回答1：使用golang读取超大Excel可以使用第三方库"github.com/360EntSecGroup-Skylar/excelize"。它支持读取XLSX格式的Excel文件。读取Excel文件的方式如下： ``` package main import ( "fmt" "github.com/360EntSecGroup-Skylar/excelize" ) func main() { f, err := excelize.OpenFile("./test.xlsx") if err != nil { fmt.Println(err) return } // 读取指定sheet中的数据 rows := f.GetRows("Sheet1") for _, row := range rows { for _, colCell := range row { fmt.Print(colCell, "\t") } fmt.Println() } } ``` 随机取20W行数据可以使用rand包来实现。在读取Excel文件之后，可以使用rand.Perm函数来生成随机数组，然后根据随机数组中的索引来取出数据。代码示例如下： ``` package main import ( "fmt" "github.com/360EntSecGroup-Skylar/excelize" "math/rand" "time" ) func main() { f, err := excelize.OpenFile("./test.xlsx") if err != nil { fmt.Println(err) return } // 读取指定sheet中的数据 rows := f.GetRows("Sheet1") rand.Seed(time.Now().UnixNano()) // 随机取20W行数据 numRows := len(rows) randIndex := rand.Perm(numRows)[:20000] for _, index := range randIndex { row := rows[index] for _, colCell := range row { fmt.Print(colCell, "\t") } fmt.Println() } } ``` 这里虽然给出了一个例子，但是对于100列100W行的数据来说，用上述方式读取性能可能会有影响，建议考虑到数 ### 回答2：使用golang读取超大Excel文件并随机获取其中的20W行数据，可以通过以下步骤： 1. 使用go语言中的Excel文件处理库（如excelize）打开Excel文件。 2. 获取Excel文件的行数和列数。 3. 根据行数随机生成20W个不重复的行索引值，并将这些索引值存储在一个切片中。 4. 遍历切片中的索引值，读取对应行的数据。 5. 将读取到的数据保存到一个新的Excel文件中，作为结果输出。以下是一个示例代码，用于演示如何使用golang读取超大Excel文件并随机获取20W行数据： ```go package main import ( "fmt" "math/rand" "github.com/xuri/excelize/v2" ) func main() { // 打开Excel文件 f, err := excelize.OpenFile("path/to/large_excel.xlsx") if err != nil { fmt.Println(err) return } // 获取Excel文件的行数和列数 rows, _ := f.GetRows("Sheet1") rowCount := len(rows) colCount := len(rows[0]) // 创建一个切片用于存储随机生成的行索引值 var randomIndexes []int // 随机生成20W个不重复的行索引值 for i := 0; i < 200000; { index := rand.Intn(rowCount) // 如果生成的索引值已存在于切片中，则重新生成 if !contains(randomIndexes, index) { randomIndexes = append(randomIndexes, index) i++ } } // 创建一个新的Excel文件用于保存随机获取到的数据 newFile := excelize.NewFile() newSheet := "RandomData" // 遍历随机生成的行索引值，读取对应行的数据并保存到新的Excel文件中 for i, index := range randomIndexes { for j := 0; j < colCount; j++ { cell, _ := f.GetCellValue("Sheet1", getCellName(j, index)) newFile.SetCellValue(newSheet, getCellName(j, i), cell) } } // 保存新的Excel文件 err = newFile.SaveAs("path/to/random_data.xlsx") if err != nil { fmt.Println(err) return } fmt.Println("随机数据已保存到新的Excel文件中") } // 判断切片中是否包含某个值 func contains(s []int, e int) bool { for _, v := range s { if v == e { return true } } return false } // 根据列索引和行索引获取对应的单元格名称 func getCellName(colIndex, rowIndex int) string { colName := string('A' + colIndex) return fmt.Sprintf("%s%d", colName, rowIndex+1) } ``` 在上述示例中，使用`excelize`库打开Excel文件并获取行数和列数。然后，通过随机生成不重复的行索引值来模拟获取随机行的数据。最后，将读取到的数据保存到一个新的Excel文件中。请根据实际需求修改代码中的文件路径和行列数等参数。注意，读取和保存超大Excel文件可能会消耗大量的内存和时间，请确保系统资源充足。 ### 回答3：使用golang读取超大Excel文件，并随机选择其中20万行数据的方法如下： 1. 首先，我们需要安装和导入golang对Excel文件操作的包，推荐使用github.com/tealeg/xlsx包。首先使用以下命令安装该包： go get github.com/tealeg/xlsx 2. 导入所需的包： import ( "github.com/tealeg/xlsx" "math/rand" ) 3. 创建一个Excel文件对象： file, err := xlsx.OpenFile("your_excel_file.xlsx") if err != nil { log.Fatal(err) } 4. 选择要读取的工作表： sheet := file.Sheets[0] 5. 获取工作表中的所有行： rows := sheet.Rows 6. 计算工作表中总共有多少行数据： totalRows := len(rows) 7. 创建一个存储随机行索引的切片： randIndexes := rand.Perm(totalRows)[:200000] 8. 遍历切片中的随机行索引，读取并处理对应行的数据： for _, rowIndex := range randIndexes { row := rows[rowIndex] // 处理行数据 } 以上步骤就可以使用golang读取超大Excel文件并随机选择20万行数据。这里使用了第三方包github.com/tealeg/xlsx，在第4步我们选择了要读取的工作表，在第5步通过Sheet对象的Rows属性获取了所有行数据，在第6步我们计算了总共有多少行数据。在第7步我们使用rand.Perm函数生成了一个随机排列的数字切片，然后根据切片中的索引获取对应的行数据，处理行数据的部分可以根据具体需求进行编写。通过这种方式，我们可以读取超大Excel文件中的随机行数据。