面试就是项目+编程。这种套路一直都在,今天电面百度的图片搜索部门,主要是两道编程题目:最长公共字符串和最小(大)的前一千个数字。怎么样的算法比较好,我现在mark一下,过几天再做,现在把18-645的pro2做了再说。
最长公共子串
子字符串的定义和子序列的定义类似,但要求是连续分布在其他字符串中。比如输入两个字符串BDCABA和ABCBDAB的最长公共字符串有BD和AB,它们的长度都是2。
最长公共子字符串共有两种解决方法,下面具体说说我的思路
方法一:
Longest Common Substring和Longest Common Subsequence是有区别的
X = <a, b, c, f, b, c>
Y = <a, b, f, c, a, b>
X和Y的Longest Common Sequence为<a, b, c, b>,长度为4
X和Y的Longest Common Substring为 <a, b>长度为2
其实Substring问题是Subsequence问题的特殊情况,也是要找两个递增的下标序列
<i1, i2, ...ik> 和 <j1, j2, ..., jk>使
xi1 == yj1
xi2 == yj2
......
xik == yjk
与Subsequence问题不同的是,Substring问题不光要求下标序列是递增的,还要求每次
递增的增量为1, 即两个下标序列为:
< i, i+1, i+2, …, i+k-1> 和 < j, j+1, j+2, …, j+k-1>
类比Subquence问题的动态规划解法,Substring也可以用动态规划解决,令
c[i][j]表示Xi和Yi的最大Substring的长度,比如
X = < y, e, d, f>
Y = < y, e, k, f>
c[1][1] = 1
c[2][2] = 2
c[3][3] = 0
c[4][4] = 1
动态转移方程为:
如果xi == yj, 则 c[i][j] = c[i-1][j-1]+1
如果xi ! = yj, 那么c[i][j] = 0
最后求Longest Common Substring的长度等于
max{ c[i][j], 1<=i<=n, 1<=j<=m}
方法二:
将字符串s1和s2分别写在两把直尺上面(我依然用s1,s2来表示这两把直尺),然后将s1固定,s2的头部和s1的尾部对齐,然后逐渐移动直尺s2,比较重叠部分的字符串中的公共子串的长度,直到直尺s2移动到s1的头部。在这个过程中求得的最大长度就是s1、s2最大子串的长度。
下图是求解过程的图示(下图有点错误,应该是将s2从右往左移动),蓝色部分表示重叠的字符串,红色的部分表示重叠部分相同的子串
其中s1="shaohui",s2="ahui",最后求得的结果为3
转载自:http://blog.youkuaiyun.com/hackbuteer1/article/details/6686931
参考博客:http://www.cnblogs.com/ider/p/longest-common-substring-problem-optimization.html
最长公共子序列
使用DTW和回溯可以求出该问题的解。
参考博客:http://blog.youkuaiyun.com/hackbuteer1/article/details/6686925
top K
使用最大(小)堆存储k个数。然后进行调整的复杂度是log k,所以整个的复杂度就是O(n log k)
代码实现:
#include<stdio.h>
int n; ///数字个数,n很大(n>10000)
int dui[10];
#define K 10 ///Top K,K的取值
void create_dui(); ///建堆
void UpToDown(int); ///从上到下调整
int main()
{
int i;
int tmp;
while(scanf("%d",&n)!=EOF)
{
for(i=1;i<=K;i++) ///先输入K个
scanf("%d",&dui[i]);
create_dui(); ///建小顶堆
for(i=K+1;i<=n;i++)
{
scanf("%d",&tmp);
if(tmp>dui[1]) ///只有大于根节点才处理
{
dui[1]=tmp;
UpToDown(1); ///向下调整堆
}
}
}
return 1;
}
void create_dui()
{
int i;
int pos=K/2; ///从末尾数,第一个非叶节点的位置K/2
for(i=pos;i>=1;i--)
UpToDown(i);
}
void UpToDown(int i)
{
int t1,t2,tmp,pos;
t1=2*i; ///左孩子(存在的话)
t2=t1+1; ///右孩子(存在的话)
if(t1>K) ///无孩子节点
return;
else
{
if(t2>K) ///只有左孩子
pos=t1;
else
pos=dui[t1]>dui[t2]? t2:t1;
if(dui[i]>dui[pos]) ///pos保存在子孩子中,数值较小者的位置
{
tmp=dui[i];dui[i]=dui[pos];dui[pos]=tmp;
UpToDown(pos);
}
}
}
参考博客: http://www.cnblogs.com/xudong-bupt/archive/2013/03/20/2971262.html