分拆统计字符串(转)

本文介绍了一种使用SQL查询来统计数据库表中关键字及其组合出现频率的方法。通过创建临时表和使用特定的SQL语句,可以有效地计算出每个关键字的独立出现次数以及任意两个关键字同时出现的次数。
在数据库表tbl1中有一个字段Keywords,它是nvarchar类型,长度为1000,该字段的内容是所要分析的论文的关键字
id keywords
-----------------------------------------------------------
1 kw1;kw2;kw3
2 kw2;kw3
3 kw3;kw1;kw4
问题1。
对于在keywords字段中出现的所有关键字集合(上例中关键字集合为{kw1,kw2,kw3,kw4})中的任意一个关键字,要统计它出现的次数(也就是包含该关键字的纪录的条数),然后写到另一张表中。最后的效果就是
keywords count
-------------------------
kw1 2
kw2 2
kw3 3
kw4 1

问题2。
在此基础上,要进行组合查询。也就是说在整个关键字集合中任意抽出两个关键字,统计它们在数据库表纪录中同时出现的次数。对于上题,最后效果要是:
keywords count
----------------------------------
kw1;kw2 1
kw1;kw3 2
kw1;kw4 1
kw2;kw3 2
kw2;kw4 0
kw3;kw4 1

--------------------------------------------------------------------------------------
--统计示例
--为统计处理专门做的序数表
select top 1000 id=identity(int,1,1) into 序数表 from syscolumns a,syscolumns b
alter table 序数表 add constraint pk_id_序数表 primary key(id)
go
--示例数据
create table tbl1(id int,keywords nvarchar(1000))
insert tbl1 select 1,’kw1;kw2;kw3’
union all select 2,’kw2;kw3’
union all select 3,’kw3;kw1;kw4’
go
--第一种统计(计数)
select keyword=substring(a.keywords,b.id,charindex(’;’,a.keywords+’;’,b.id)-b.id)
,[count]=count(distinct a.id)
from tbl1 a,序数表 b
where b.id<=len(a.keywords)
and substring(’;’+a.keywords,b.id,1)=’;’
group by substring(a.keywords,b.id,charindex(’;’,a.keywords+’;’,b.id)-b.id)
go
--第二种统计(组合统计)
select keyword=substring(a.keywords,b.id,charindex(’;’,a.keywords+’;’,b.id)-b.id)
,[count]=count(distinct a.id),a.id
into #t
from tbl1 a,序数表 b
where b.id<=len(a.keywords)
and substring(’;’+a.keywords,b.id,1)=’;’
group by substring(a.keywords,b.id,charindex(’;’,a.keywords+’;’,b.id)-b.id),a.id
select keyword=a.keyword+’;’+b.keyword,[count]=sum(case a.id when b.id then 1 else 0 end)
from #t a,#t b
where a.keywordgroup by a.keyword,b.keyword
order by keyword
drop table #t
go
--删除测试环境
drop table tbl1,序数表
/*--测试结果
--统计1
keyword count
---------- --------
kw1 2
kw2 2
kw3 3
kw4 1
(所影响的行数为 4 行)

--统计2
keyword count
----------------------- -----------
kw1;kw2 1
kw1;kw3 2
kw1;kw4 1
kw2;kw3 2
kw2;kw4 0
kw3;kw4 1
(所影响的行数为 6 行)
--*/

mydear 发表于:2007.08.08 10:33 ::分类: ( 一般分类 ) ::阅读:(0次) :: 评论 (0)
--&gt
===========================================================
更新字符串列表中,指定位置的字符串(转)
===========================================================
if exists (select * from dbo.sysobjects where id = object_id(N’[dbo].[f_updatestr]’) and xtype in (N’FN’, N’IF’, N’TF’))
drop function [dbo].[f_updatestr]
GO
/*--更新字符串列表中,指定位置的字符串
更新字符串列表中,指定位置的字符串为新的值
如果位置超出范围,则不做更新--*/
/*--调用示例
select dbo.f_updatestr(’001|002|003|’,1,’00a’,’|’)
--*/
create function f_updatestr(
@s varchar(8000),
@pos int,
@newstr varchar(100),
@spliststr varchar(10) --字符串列表的分隔符
)returns varchar(8000)
as
begin
declare @i int,@ilen int
select @i=charindex(@spliststr,@spliststr+@s)
,@ilen=len(@spliststr)
while @i>0 and @pos>1
select @i=charindex(@spliststr,@s,@i)+@ilen
,@pos=@pos-1
return(case @i when 0 then @s else stuff(@s,@i,charindex(@spliststr,@s+@spliststr,@i)-@i,@newstr) end)
end
go

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/7178747/viewspace-161530/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/7178747/viewspace-161530/

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值