100w数据查询只需要1秒钟

机器情况:

p4: 2.4

内存: 1 G

os: windows 2003

数据库:

SQL Server 2000

目的: 查询性能测试,比较两种查询的性能

SQL查询效率 step by step

-- setp 1.

-- 建表

create table t_userinfo

(

userid int identity(1,1) primary key nonclustered,

nick varchar(50) not null default '',

classid int not null default 0,

writetime datetime not null default getdate()

)

go

-- 建索引

create clustered index ix_userinfo_classid on t_userinfo(classid)

go

-- step 2.

declare @i int

declare @k int

declare @nick varchar(10)

set @i = 1

while @i<1000000

begin

set @k = @i % 10

set @nick = convert(varchar,@i)

insert into t_userinfo(nick,classid,writetime) values(@nick,@k,getdate())

set @i = @i + 1

end

-- 耗时 08:27 ,需要耐心等待

-- step 3.

select top 20 userid,nick,classid,writetime from t_userinfo

where userid not in

(

select top 900000 userid from t_userinfo order by userid asc

)

-- 耗时 8 秒 ,够长的

-- step 4.

select a.userid,b.nick,b.classid,b.writetime from

(

select top 20 a.userid from

(

select top 900020 userid from t_userinfo order by userid asc

) a order by a.userid desc

) a inner join t_userinfo b on a.userid = b.userid

order by a.userid asc

-- 耗时 1 秒,太快了吧,不可以思议

-- step 5 where 查询

select top 20 userid,nick,classid,writetime from t_userinfo

where classid = 1 and userid not in

(

select top 90000 userid from t_userinfo

where classid = 1

order by userid asc

)

-- 耗时 2 秒

-- step 6 where 查询

select a.userid,b.nick,b.classid,b.writetime from

(

select top 20 a.userid from

(

select top 90020 userid from t_userinfo

where classid = 1

order by userid asc

) a order by a.userid desc

) a inner join t_userinfo b on a.userid = b.userid

order by a.userid asc

-- 查询分析器显示不到 1 秒.

查询效率分析:

子查询为确保消除重复值,必须为外部查询的每个结果都处理嵌套查询。在这种情况下可以考虑用联接查询来取代。

如果要用子查询,那就用EXISTS替代IN、用NOT EXISTS替代NOT IN。因为EXISTS引入的子查询只是测试是否存在符合子查询中指定条件的行,效率较高。无论在哪种情况下,NOT IN都是最低效的。因为它对子查询中的表执行了一个全表遍历。

建立合理的索引,避免扫描多余数据,避免表扫描!

几百万条数据,照样几十毫秒完成查询。

 

本文来自优快云博客,转载请标明出处:http://blog.youkuaiyun.com/c00w00z/archive/2009/01/15/3791976.aspx

### 不同方法或工具处理300万规模数据集的性能对比分析 #### Hadoop与MLP模型组合方案 对于包含100万个电商用户的购物行为记录,在构建多层感知机(MLP)模型时采用了含有100个神经元的单隐含层数量设定以及最大迭代次数设为300次的方式来进行训练[^1]。此配置下的Hadoop平台配合MLP算法可以有效地应对大规模结构化和半结构化的电子商务交易日志,通过分布式文件系统实现并行读取写入操作,从而加速特征提取过程。 #### VoltDB实时数据库解决方案 另一方面,当涉及到更高频率的数据更新需求场景下,则有VoltDB这样的内存关系型数据库提供了出色的事务吞吐能力——每秒钟可达数百万级别的SQL查询响应速度;特别是在针对电信行业的基准测试里展示了其优秀的线性扩展特性,即使面对不断增长的工作负载也能够保持稳定的延迟表现[^2]。 #### 绩效评估指标考量因素 为了全面衡量这两种技术栈在相同数量级上的实际效能差异,可以从以下几个方面入手: - **处理时间**:即完成整个数据分析流程所需的时间长短; - **资源消耗情况**:包括CPU利用率、内存占用率等硬件层面的表现参数; - **准确性验证**:确保最终得出的结果具备足够的可靠性,比如预测精度或者分类错误率等统计学度量标准; - **成本效益比**:综合考虑前期部署投入费用加上后期运维开销之后所获得的价值回报水平。 ```python import pandas as pd from sklearn.neural_network import MLPClassifier from time import perf_counter def evaluate_performance(data_size, iterations=300): start_time = perf_counter() # 假定此处加载了合适大小的数据集 df = pd.DataFrame({'feature': range(0,data_size), 'label':[0]*data_size}) X_train = df[['feature']] y_train = df['label'] mlp_model = MLPClassifier(hidden_layer_sizes=(100,), max_iter=iterations) mlp_model.fit(X_train,y_train) end_time = perf_counter() return { "processing_time":end_time-start_time, "accuracy_score":mlp_model.score(X_train,y_train), "resource_usage":"Not measured here" } performance_result_3M = evaluate_performance(int(3e6)) print(performance_result_3M) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值