finding anagrams(颠倒字母而成的字) of a given word; 编程珠玑之如何找出一个单词的换位词; 如何找出字典中的兄弟单词 ....

单词变换求解
本文探讨了一种高效查找字典中单词变换的方法。首先介绍了通过全排列查找变换的直觉但低效方法,随后提出利用hash函数优化搜索过程,通过构造特殊hash函数确保单词变换拥有相同hash值,从而实现快速匹配。

摘自: http://blog.youkuaiyun.com/jiqiren007/article/details/6451405

 

这篇文章主要是描述一个单词的变体或者变换。

问题的描述:

在编程珠玑里面是这样的:

image

image

据说是百度的一个面试题,是这样描述的:

image

其实总结下问题描述其实是差不多的:给定一个字典(即单词序列),用户输入一个单词,求出字典中单词的变换?

一:

看到这个题目后,直觉是可能是这样的:求出输入单词的全部变换(假如单词的长度是n,则其全部变换有n!个。如果有相同的字母就不是n!了吧?),求出单词的变换后,判断每个变换是否在字典中。

例如对于输入abc,则其变换有3!=6种:abc、acb、bca、bac、cab、cba。然后在依次判断这6个单词(当然这里不是单词了,而是字符串)是否在字典中,如果在字典中则记录下来。

很明显这种思想的复杂度是比较高的,因为对于n稍微大点的话,n!是一个很可怕的递增过程,因此这个方法是不太可取的。

二:

考虑使用hash的方法。构造一个hash函数,该函数使得单词的变换具有相同的hash值。

可以构造这样的函数,给定一个字符串,其hash值是字符串中字母的有序排列。例如字符串cda对应的hash值是acd;zhang的hash值是aghnz,即是字母从小到大的排列。这样对于一个单词的变换其hash值是相同的。

有上面的介绍后可以根据下面的步骤来进行了:

1、根据输入单词求出其hash值,即将单词按字母从小到大进行排列。

2、遍历给定的字典,对于字典里的每个单词,求出其hash值,然后和上一步中求出的hash值进行比较,如果相等,那么这个单词就是输入单词的一个变换,否则不是。

当然上面的方法是可行的。不过时间复杂度是比较高的:

word_hash = hash(word); //如果使用快排,复杂度是nlgn

for(i=0; i<n; i++)//n

{

temp = hash(dic[i]); //nlgn

if(strcmp(temp, word_hash) == 0)

{

output   dic[i];

}

}

总的时间复杂度是n*nlgn(不知道算的正确不),当然,如果hash的时间复杂度降低的话还是很不错的。

通过上面可以知道其实可以提前求出字典中单词的hash值,然后再进行匹配的。这样可以有一个变化的方法:

利用c++中的mutilmap或者其他容器,将hash值和字典中的单词昨为一个pair保存在mutilmap中。pair的情况是:<hash(word), word>,其中hash(word)作为map的key,word作为value。

这样就可以遍历map进行判断了。当然也可以先对map进行排序,这样会更快点。

 

这大概就是这个题目的思路。

编程珠玑上有一些简单的介绍和一个程序实现;这本 STL.Tutorial.and.Reference.Guide 的第12~15章节都是分析了这个问题,不断的改进,是一个很详细的介绍,值得学习。

<< 支持向量数据描述(Support Vector Data Description, SVDD)是由Tax和Duin提出的用于异常检测的一种算法。它可以将正常的数据点限定在一个超球体内,从而区分出边界外的异常点。 **一、基本SVDD模型程序应包含以下部分** 1. **初始化参数设置** - 设置核函数类型及其对应的参数。 - 设定正则化系数等超参数。 2. **训练过程** - 计算拉格朗日乘子αi以及偏置项ρ。 - 根据计算结果确定中心c0并求得半径R^2 = α.T @ K(X,X) @ α + k(c_0,c_0)-2*(K(X,c_0).T@α) 3. **预测新样本类别** - 对于每一个测试集中的个体x_test来说: 如果||Φ(x)- c ||²≤ R 则为normal否则为abnormal 以下是MATLAB中编写的基本版本的支持向量域描述(SVDD): ```matlab function [alpha,R,K]=svdd_train(KernelFunc,options,data) % Input: % KernelFunc - kernel function handle (@rbfKernel,@linearKernel etc.) % options.positive_weight - weight for positive class (default=1) % data - training samples n*d matrix n=size(data,1); if nargin<3 error('Not enough input arguments'); end; options.KernelParam=[]; % default value switch lower(inputname(1)) case 'rbfkernel' if isempty(options.KernelParam) options.KernelParam=median(pdist(data)); end; otherwise end; % Initialize the QP problem's Hessian Matrix. H=zeros(n,n); for i=1:n for j=1:n H(i,j)=data(i,:)*data(j,:)'; end; end; if strcmp(lower(func2str(KernelFunc)),'rbfkernel') sigma=options.KernelParam; for i=1:n for j=i:n temp=sum((repmat(data(i,:),n-j+1,1)-data(j:end,:)).^2,2)/(-sigma^2*2); H(i,j)=exp(temp)'; H(j,i)=H(i,j)'; end; end; elseif strcmp(lower(func2str(KernelFunc)),'linearkernel') else warning(['Unkown Kernel Function:' func2str(KernelFunc)]); end; C=options.C; %#ok<NASGU> q=-ones(n,1); A=[ ones(1,n)]; b=[1]; lb=zeros(n,1); ub=C.*ones(n,1); [x,fval,exitflag,output,lambda] = quadprog(H,q,[],[],A,b,lb,ub,[],optimset('LargeScale','off')); % get alpha and support vectors alpha=x; supportVectorsIdx=find(alpha>sqrt(eps)); % Compute center of sphere in feature space via average over all support vectors. centerFun=@(sptVec)(arrayfun(@(idx){sum(cell2mat(arrayfun(@(spv)... reshape(full(sparse(repmat(spv.',size(sptVec,1),1).* ... full(sparse(double(idx==supportVectorsIdx'),:,[])))),length(spv),[])', ... sptVec,1).' .* double(idx==supportVectorsIdx')),1)},1:length(supportVectorsIdx))); featureCenter=(cell2mat(centerFun(data(supportVectorsIdx,:))))'; % Calculate radius by finding farthest point to computed center within SV set. tempDist=arrayfun(@(sv_idx)sqrt(sum(kron(data(sv_idx,:),double(sv_idx==supportVectorsIdx))-featureCenter).^2)),supportVectorsIdx); radius=max([tempDist]); R=radius; % output Gram Matrix as it can be useful later on when predicting new points' labels or scores relative to this model. K=H(:,supportVectorsIdx); ``` 该段代码实现了基于不同内核(线性和高斯RBF两种情况处理)下的基础版SVDD建模: - 首先对输入进行了检验确保有足够的参数传入并且合理设置了默认值; - 接着根据选择的不同类型的核构造相应的Gram矩阵即相似度测量标准; - 再利用`quadprog()`求解二次规划得到拉格朗日乘数`alpha` - 最后用这些信息计算球心位置及空间内的最大距离作为半径;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值