mysql 从查询结果中随机取几条数据

最新推荐文章于 2024-04-19 00:00:13 发布

最新推荐文章于 2024-04-19 00:00:13 发布 · 738 阅读

文章标签：

#MySQL #QQ #Unix

本文提供了一个SQL查询语句示例，展示了如何从特定数据库表中根据条件选择记录，并使用RAND()函数进行随机排序，最后限制返回结果的数量。此查询适用于获取指定时间段内满足特定条件的随机样本。

select id,src_id,qq_nick,nick from small_user_5.player_50 where create_time > UNIX_TIMESTAMP('2010-01-18') and create_time < UNIX_TIMESTAMP('2010-02-01') and guideStep=100 ORDER BY[color=red] rand()[/color] limit 2;

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_18333

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Mysql中随机查询数据的几种算法

lymboy的博客

05-12

1259

Mysql中随机查询数据的几种算法欢迎关注笔者的微信公众号有这样一个需求，需要随机在数据库中选择一条（或多条）数据，刚开始觉得很简单，研究后发现学问很多。首先，数据库主键使用雪花算法生成，其有如下性质：全局唯一性递增性高可用性高性能性数据表结构 mysql> desc t_words; +-----------+--------------+------+-----+-------------------+-----------------------------+ | Fie

从mysql表中随机取出几行数据

imzoer的专栏

12-29

6754

select * from a order by rand() limit m,n; 上面这句话可以随机取出n条记录。但是效率非常差。有两种解决方法。第一、从根源上去解决。如果一定要随机取出n条记录，可以： 1、取出表总条数n 2、在应用程序中生成n个随机数（区间在0到n-1） 3、去数据库中把这些记录取出来【这种方法思路上是存在缺陷的：如果生成的id在数据库中不存在...就.

参与评论您还未登录，请先登录后发表或查看评论

mysql 在结果集中随机_MySql从表结果集中随机取一条数据

weixin_29150151的博客

02-07

181

博客文章地址：http://blog.youkuaiyun.com/macwhirr123/article/details/7489484Select * from (Select (@rowNo :=@rowNo+1) AS rowno, pwd from pur_admininfo, (Select @rowNo := 0) b) tmp where rowno=(Select Round(Rand() ...

mysql结果集随机取一_MySql从表结果集中随机取一条数据_MySQL

weixin_39758494的博客

01-19

283

bitsCN.comMySql从表结果集中随机取一条数据[sql] Select * from (Select (@rowNo :=@rowNo+1) AS rowno, pwd from pur_admininfo, (Select @rowNo := 0) b) tmp where rowno=(Select Round(Rand() * 10000000 % (Select Count(*)...

MySQL中如何随机获取一条记录

gjc592的博客

04-19

4074

点击上方蓝字关注我随机获取一条记录是在数据库查询中常见的需求，特别在需要展示随机内容或者随机推荐的场景下。在 MySQL 中，有多种方法可以实现随机获取一条记录，每种方法都有其适用的情况和性能特点。在本文中，我们将探讨几种常用的方法，并推荐适合不同情况下的最佳方法。方法一：使用ORDER BY RAND()这是最常见的随机获取一条记录的方法之一：SELECT * FROM testdb....

MYSQL查询随机N条数据的方法

elsery

10-09

837

SELECT * FROM test1 ORDER BY rand() LIMIT 2;rand在手册里是这么说的:RAND(N) 返回在范围0到1.0内的随机浮点值。如果一个整数参数N被指定，它被用作种子值。

mysql随机查询若干条数据的方法

12-15

一个15万余条的库，查询5条数据，居然要8秒以上搜索Google，网上基本上都是查询max(id) * rand()来随机获取数据。代码如下:SELECT * FROM `table` AS t1 JOIN (SELECT ROUND(RAND() * (SELECT MAX(id) FROM `table...

MySql分组后随机获取每组一条数据的操作

12-14

补充知识：在MySQL中，随机选取多条数据也有多种方法，但效率各不相同。以下列举了六种常见的方法： 1. 直接使用`RAND()`函数： ```sql SELECT * FROM tablename ORDER BY RAND() LIMIT 想要获取的数据条数; ```...

精选资源

PHP实现在数据库百万条数据中随机获取20条记录的方法

01-20

今天偶然想起来一个坑爹数据，如：PHP取百万条数据中随机20条记录，当时就用的算法。 1.先统计统计数据库多少条记录（这个做个数据缓存，如1小时重新统计一次）， 2.根据总条数，随机1次，1次性取出20条记录（当然这...

mysql优化取随机数据慢的方法

12-15

前天因为工作需要我把从一个5W记录的数据库中随机抽取几条记录了，这里我是直接使用mysql rand by函数来直接，几千条记录没关系，但如果到了几万条感觉要几秒，这个就很慢了，下面小编与大家一起来看看mysql 取随机...

mysql取得查询结果中随机的一条数据

FangYANYI的专栏

11-22

2431

今天在做项目中遇到有一个需求是：随机取出广告表中的一条数据。一开始我想在程序获得所有广告ID后随机一个ID再去取对应的数据，但始终感觉这样不好。接下来我就在网上搜解决办法搜的一觉得不错方法如下： SELECT * FROM BusinessAdvert ad WHERE ad.Deleted1 AND r1.id >= r2.id ORDER BY r1.id ASC LIM

mysql查询结果随机取一个_从SQL查询结果随机取一条数据

weixin_35844772的博客

02-06

3609

最近工作中会涉及复杂的SQL语句，还是挺有意思的。以前想写没有应用场景，现在正好可以多锻炼锻炼。我觉得在实际开发中，程序代码并不是最难的，最难的还是SQL。SQL逻辑性最强，而且还要很清楚表设计，业务场景。特别是复杂的业条场景下提炼数据，要考虑到功能，性能，是否会锁表。需求：有一张表保存诺干条广告信息。当APP启动时，根据登录用户所在的区域，随机取出一条广告返回，作为启动页。数据库：MySQL刚开...

mysql两个值随机取一个_php – MySQL在两个值之间获取一个随机值

weixin_30844301的博客

02-05

716

实际上,ROUND((RAND()*(max-min))min)是MySQL做你想要的最好的方式.它也是ActionScript,JavaScript和Python中最好的方式.老实说,我更喜欢PHP的方式,因为它更方便.因为我不知道你会返回多少行,我不能建议你使用PHP或MySQL是否更好,但如果你处理大量的值,你可能会更好使用MySQL附录所以有一个问题,在PHP或MySQL中是否更好.我不是...

MySql从表结果集中随机取一条数据

无知人生，记录点滴

08-21

682

该功能的实现基于“mysql 查找结果中自动加序号列 ” 博客文章地址：http://blog.youkuaiyun.com/macwhirr123/article/details/7489484 Select * from (Select (@rowNo :=@rowNo+1) AS rowno, pwd from pur_admininfo, (Select @rowNo := 0) b) t...

MySQL 根据某个字段排序后，获取一条或者某几条数据

qq_36189144的博客

03-18

9664

数据库格式：需求：根据area分组并统计分组后的总数，根据统计出来的总数降序排序，获取前10条数据。 <select id="selectByAreaDevNumList" resultMap="BaseResultMap" parameterType="java.util.List" > select area ,COUNT(*) from c...

mysql 随机获取记录条数

zkg510168343的专栏

12-16

493

SELECT * FROM users WHERE userId >= ((SELECT MAX(userId) FROM users)-(SELECT MIN(userId) FROM users)) * RAND() + (SELECT MIN(userId) FROM users) LIMIT 1

mysql查看某一条记录在数据库中是第几条

Tinker

12-16

7331

操作数据的时候，中间需要断开一次，但表中数据id是不连续的，为了下次运行从所断掉的id处开始，所以记录断开时的id：416641，查看这条数据在数据库表中是第几条：SELECT count(*) from (SELECT * FROM fortress.x_media_assets_publish ORDER BY id) as a where id >= (SELECT id from fo

mysql数据库查询随机100条_Mysql取随机数据效率测试（200W条中读取100条）

weixin_30466329的博客

01-20

4538

第一种方案：SELECT *FROM `follow_record` AS t1 JOIN (SELECT ROUND(RAND() * ((SELECT MAX(record_id) FROM `follow_record`)-(SELECT MIN(record_id) FROM `follow_record`))+(SELECT MIN(record_id) FROM `follow_rec...

mysql查询某个id在表中是第几条数据，并且在第几页

最新发布

02-21

<think>嗯，用户想要用SQLAlchemy从MySQL中随机取10000条数据，而且还要考虑性能。首先，我得想一下，怎么在保证性能的情况下实现随机取数据呢。因为通常来说，随机取数据可能会比较耗资源，尤其是当数据量大的时候。首先，用户提到的随机取数据，常见的方法是用ORDER BY RAND()，但是这个方法在数据量大的时候性能会很差，因为它需要对所有数据进行排序，然后随机选。对于10000条来说，这显然不现实，尤其是当表很大的时候，这样的操作会很慢。那怎么办呢？可能需要找一个更高效的方法。比如，先获取表的总行数，然后生成随机偏移量，再用LIMIT和OFFSET来取数据。不过，这种方法在MySQL中，如果偏移量很大，性能也会有问题，因为OFFSET会扫描前面的所有行，直到偏移位置。如果总行数是100万，随机取10000次的话，可能效率也不高。或者，可以考虑在应用层处理。比如，先获取所有符合条件的ID，然后在应用层随机选取10000个ID，最后用IN查询来获取这些数据。这种方法的好处是避免了数据库的随机排序，但是当ID不连续或者有间隙的时候，可能会有问题。而且，如果表特别大，获取所有ID也可能消耗较多内存和网络资源。另外，有没有其他方法呢？比如，使用WHERE子句加上随机数，比如给一个随机条件，比如id > some_random_value，然后取一定数量的数据。但这种方法可能无法保证正好取到10000条，可能需要多次查询，或者在应用层补足数量。还有一种方法是利用MySQL的TABLESAMPLE，但是MySQL好像不支持这个语法，可能得用其他方式模拟。回到用户的问题，用户需要的是随机取10000条，同时考虑性能。所以，可能需要权衡不同的方法。如果数据量不是特别大，先获取最大ID，然后生成随机ID，可能是个办法。比如，假设ID是连续的，生成随机ID，然后查询。但如果有删除操作，ID可能不连续，这样会有空洞，导致实际取到的数据不足。这种情况下，可能需要先获取所有存在的ID，再随机选择，但这样对于大数据量表来说，可能不太行。或者，可以预先计算一个随机列，比如添加一个专门的列，存储随机数，并建立索引。每次查询时，根据这个列来排序，这样可以利用索引，提高速度。但需要维护这个列，可能会增加写操作的开销。再考虑一下，用户的需求是每次随机取10000条，是否需要完全随机的？如果是近似随机，可能可以接受一些偏差。比如，先计算总行数，生成一个随机偏移量，然后取10000条。这样只需要一次全表扫描，但偏移量大的时候，OFFSET会比较慢。比如，总行数是1亿，随机偏移量可能是0到99990000，然后取OFFSET N LIMIT 10000。这时候，OFFSET N会导致扫描N行，对于N很大时，会很慢。不过，如果使用覆盖索引，可能可以更快，因为索引扫描比全表扫描快。如果表的主键是自增且连续的，没有空洞，那么计算总行数，生成随机偏移量，然后取数据，可能可行。但如果有空洞，这种方法可能无法取到足够的行，或者需要多次查询。例如，假设表的总行数是total_rows，那么可以生成一个随机偏移量offset = random.randint(0, total_rows - 10000)，然后查询OFFSET offset LIMIT 10000。这样只需要一次查询，但总行数需要准确，且主键连续。这可能是一个折中的办法，虽然不一定完全随机，但性能较好。如果用户接受这种近似随机的方案，可能是一个可行的办法。但需要确保主键是连续的，或者处理可能存在的空洞。另外，如果表有索引，可以考虑在索引列上生成随机数，然后利用索引进行排序。例如，如果有一个已索引的列，比如时间戳，或者某个自增列，可以结合随机函数来排序，但这可能不如专门的随机数列有效。或者，使用子查询，先随机选择主键，然后再JOIN回原表。例如： SELECT * FROM table WHERE id IN (SELECT id FROM table ORDER BY RAND() LIMIT 10000); 但子查询中的ORDER BY RAND()仍然需要全表扫描，性能可能不好。不过，如果子查询只选择主键，可能稍微快一点，但依然可能不够。总结一下，可能的解决方案： 1. 避免使用ORDER BY RAND()，而是使用随机偏移量。适用于主键连续的情况，性能较好，但可能不准确。 2. 预存随机数列并建立索引，每次查询时用该列排序。需要维护额外列，但查询快。 3. 分批次随机获取，例如多次查询，每次取部分数据，然后在应用层合并。可能增加查询次数，但每次查询更快。 4. 使用WHERE子句结合随机数，例如利用主键的范围，生成多个随机区间，再UNION结果。但具体实现可能复杂。对于用户的情况，假设表的主键是自增且相对连续，没有太多空洞，那么随机偏移量的方法可能最合适。首先获取总行数，然后生成随机偏移量，然后取LIMIT 10000 OFFSET {offset}。但需要注意，当总行数减去10000小于offset时，需要调整offset。例如，offset的最大值应该是max(0, total_rows - 10000)。具体实现步骤： 1. 使用SQLAlchemy获取表的总行数：session.query(Table).count() 2. 生成随机偏移量：offset = random.randint(0, max(0, total_rows - 10000)) 3. 执行查询：session.query(Table).offset(offset).limit(10000).all() 这种方法在总行数较大的情况下，比如超过10000行时，可以快速获取数据。但如果表的总行数刚好是10000左右，可能offset为0，只能取到全部数据。另外，如果主键不连续，可能会有空洞，导致实际取到的数据不足10000条，这时候可能需要检查结果数量，并进行补充查询，但这样会增加复杂度。另一种方法，如果主键是整数且大致连续，可以生成随机ID范围。例如，找到最小和最大ID，然后在最小ID和最大ID - 10000之间随机选择一个起始点，然后查询WHERE id >= start_id LIMIT 10000。但同样，如果有空洞，可能需要调整。或者，使用应用层随机选择ID。例如，先获取最小和最大ID，然后生成10000个随机ID，然后查询WHERE id IN (...)，但这样生成的ID可能很多不存在，导致查询结果不足，需要多次查询，直到凑够10000条。这种方法可能在ID分布均匀的情况下有效，但效率取决于空洞的数量。如果用户需要严格的随机性，可能必须使用ORDER BY RAND()，但必须优化其性能。比如，先缩小数据范围，例如添加WHERE条件，减少需要排序的数据量。或者，使用覆盖索引，让排序在索引中进行，减少磁盘IO。但无论如何，ORDER BY RAND()在大数据量下性能不佳，所以可能需要其他权衡。回到用户的问题，用户需要的是高性能的随机取10000条数据。所以，可能最合适的办法是使用随机偏移量，前提是数据的主键连续或者近似连续，并且能够接受可能的少量重复或遗漏。在SQLAlchemy中的实现代码可能如下： from sqlalchemy import create_engine, MetaData, Table from sqlalchemy.orm import sessionmaker import random engine = create_engine('mysql://user:pass@host/db') Session = sessionmaker(bind=engine) session = Session() metadata = MetaData() metadata.reflect(bind=engine) table = metadata.tables['your_table'] total_rows = session.query(table).count() if total_rows <= 10000: results = session.query(table).all() else: offset = random.randint(0, total_rows - 10000) results = session.query(table).offset(offset).limit(10000).all() session.close() 这种方法在总行数足够大的情况下，可以快速获取数据，因为offset和limit在MySQL中，如果使用主键范围扫描，可能比较高效。但需要注意，如果表没有主键或者主键不是按顺序存储的，OFFSET的性能可能较差。另外，如果使用InnoDB引擎，主键是聚簇索引，所以按主键顺序扫描会比较快。因此，如果查询中按主键排序，然后使用OFFSET，可能性能更好。例如，在查询中添加order_by(table.c.id)，但默认情况下可能已经按主键排序，但为了确保，可以显式指定。此外，可以考虑使用流式查询或者服务器端游标，避免一次性加载所有数据到内存，但这可能对性能影响不大，因为用户需要的是10000条数据，应该可以一次性处理。另外，如果表中的数据经常变动，总行数和偏移量可能不准，导致取到重复或遗漏的数据。需要根据实际场景考虑这一点。总的来说，推荐的方案是使用随机偏移量，前提是主键连续，并且能够接受可能的少量数据遗漏。如果必须严格随机，可能需要考虑其他方法，但性能会有所牺牲。</think> SQLAlchemy 中从 MySQL 随机高效获取 10000 条数据时，需避免直接使用 `ORDER BY RAND()`（性能极差）。以下是几种优化方案及实现示例： --- ### 1. **随机偏移量法（主键连续时推荐）** **适用场景**：主键近似连续且无大量空洞（如自增 ID 表）。 **原理**：通过总行数计算随机偏移量，用 `LIMIT + OFFSET` 快速分页。 ```python from sqlalchemy import create_engine, Table, MetaData from sqlalchemy.orm import sessionmaker import random # 初始化数据库连接 engine = create_engine('mysql+pymysql://user:pass@host/db') Session = sessionmaker(bind=engine) session = Session() metadata = MetaData(bind=engine) # 反射获取表对象 your_table = Table('your_table', metadata, autoload=True) # 获取总行数 total_rows = session.query(your_table).count() # 计算随机偏移量 if total_rows <= 10000: query = session.query(your_table) else: offset = random.randint(0, total_rows - 10000) query = session.query(your_table).order_by(your_table.c.id).offset(offset).limit(10000) # 获取数据 results = query.all() session.close() ``` -- ### 2. **应用层随机 ID 抽样** **适用场景**：主键存在空洞但可接受多次查询。 **原理**：预查询所有 ID，在应用层随机抽取后分批查询。 ```python import random from sqlalchemy.sql import select # 获取所有主键 id_list = [row[0] for row in session.execute(select(your_table.c.id)).all()] # 随机抽取 10000 个 ID sampled_ids = random.sample(id_list, 10000) if len(id_list) >= 10000 else id_list # 分批查询（避免 IN 语句过长） batch_size = 1000 results = [] for i in range(0, len(sampled_ids), batch_size): batch = sampled_ids[i:i+batch_size] results += session.query(your_table).filter(your_table.c.id.in_(batch)).all() ``` -- ### 3. **预计算随机列（高频率查询推荐）** **适用场景**：需频繁随机查询且允许额外存储。 **原理**：新增一列存储随机数并建立索引，查询时按该列排序。 ```sql -- 数据库新增列并建立索引 ALTER TABLE your_table ADD COLUMN random_val FLOAT DEFAULT RAND(); CREATE INDEX idx_random ON your_table(random_val); ``` ```python # 查询时按随机列排序 results = session.query(your_table).order_by(your_table.c.random_val).limit(10000).all() ``` -- ### 4. **分块随机法（平衡性能与随机性）** **原理**：将数据分块后随机选择块，再从块中随机取数据。 ```python # 分块大小（如总数据量为 1e6，分 100 块） chunk_size = 10000 total_chunks = total_rows // chunk_size # 随机选择多个块 selected_chunks = random.sample(range(total_chunks), k=1) offset = selected_chunks[0] * chunk_size # 查询块内数据 results = session.query(your_table).order_by(your_table.c.id).offset(offset).limit(chunk_size).all() # 若需要更随机，可再从结果中二次抽样 final_samples = random.sample(results, 10000) if len(results) >= 10000 else results ``` --- ### 性能对比总结 | 方法 | 优点 | 缺点 | |--|-------------------------------| | 随机偏移量法 | 单次查询，速度最快 | 依赖主键连续性 | | 应用层 ID 抽样 | 严格随机 | 多次查询，网络开销大 | | 预计算随机列 | 查询极快，支持高并发 | 需维护额外列 | | 分块随机法 | 平衡性能与随机性 | 实现稍复杂 | 根据实际场景选择最合适的方法。**若无严格随机性要求，优先推荐随机偏移量法**。