【问题描述】
词法分析器的功能是将给定输入文本分成若干个预定义的语句。在该问题中预先给定一个合法语句列表(比如,tokens = {"ab","aba","A"})和一个输入的字符串,你的词法分析程序的工作方式应该按照以下规则:
1、a)如果给定的字符串不是以合法的语句开始,则从字符串中移除第一个字符;
b)如果给定的字符串是以一个合法的语句开始,那么找到最长匹配的语句并从输入的字符串中删除它,被移除的部分称为CONSUMED。
2、重复第一步的操作直到分析完输入字符串中所有的字符。
这个分析器是大小写敏感的,对于给定一个语句列表,该方法需要返回一个所有CONSUMED的列表(按照被解析的顺序排列)。
例如,给定语句列表tokens = {"ab","aba","A"} ,输入的待分析的字符串input = "ababbbaAab"。在字符串的开始,能够同时匹配"ab"和"aba",但是由于"aba"较长所以它作为第一个 CONSUMED。因此现在consumed = {"aba"},待分析的字符串变为input = "bbbaAab"。因为没有合法的语句是以"b"开始的因此需要从input中移除三次"b" ,然后consumed = {"aba"} input = "aAab"。因为该分析器是大小写敏感的,因此"a"和"A"不能匹配,因此移除"a",然后consumed = {"aba"} input = "Aab"。根据以上的操作模式最终得到consumed = {"aba","A","ab"} input = "",返回CONSUMED列表,即{"aba","A","ab"}。
定义:
类 Lexer
方法 public String[] tokenize(String[] tokens, String input)
约束:
1、给定的语句列表包括0至50个元素
2、每个语句包括1至50个字符
3、每个语句仅包含字母(a-z, A-Z)
4、输入的待分析的字符串长度为0至50,且仅包含字母(a-z, A-Z)
测试用例:
1、{"ab","aba","A"} "ababbbaAab"
Returns: { "aba", "A", "ab" }
2、{"a","a","aa","aaa","aaaa","aaaaa","aa"} "aaaaaaaaaaaaaaaaaaaaaaaaa"
Returns: { "aaaaa", "aaaaa", "aaaaa", "aaaaa", "aaaaa" }
3、{"wow","wo","w"} "awofwwofowwowowowwwooo"
Returns: { "wo", "w", "wo", "w", "wow", "wow", "w", "wo" }
4、{"int","double","long","char","boolean","byte","float"} "intlongdoublecharintintboolean"
Returns: { "int", "long", "double", "char", "int", "int", "boolean" }
5、{} "Great"
Returns: { }
6、{"AbCd","dEfG","GhIj"} "abCdEfGhIjAbCdEfGhIj"
Returns: { "dEfG", "AbCd", "GhIj" }
词法分析器的功能是将给定输入文本分成若干个预定义的语句。在该问题中预先给定一个合法语句列表(比如,tokens = {"ab","aba","A"})和一个输入的字符串,你的词法分析程序的工作方式应该按照以下规则:
1、a)如果给定的字符串不是以合法的语句开始,则从字符串中移除第一个字符;
b)如果给定的字符串是以一个合法的语句开始,那么找到最长匹配的语句并从输入的字符串中删除它,被移除的部分称为CONSUMED。
2、重复第一步的操作直到分析完输入字符串中所有的字符。
这个分析器是大小写敏感的,对于给定一个语句列表,该方法需要返回一个所有CONSUMED的列表(按照被解析的顺序排列)。
例如,给定语句列表tokens = {"ab","aba","A"} ,输入的待分析的字符串input = "ababbbaAab"。在字符串的开始,能够同时匹配"ab"和"aba",但是由于"aba"较长所以它作为第一个 CONSUMED。因此现在consumed = {"aba"},待分析的字符串变为input = "bbbaAab"。因为没有合法的语句是以"b"开始的因此需要从input中移除三次"b" ,然后consumed = {"aba"} input = "aAab"。因为该分析器是大小写敏感的,因此"a"和"A"不能匹配,因此移除"a",然后consumed = {"aba"} input = "Aab"。根据以上的操作模式最终得到consumed = {"aba","A","ab"} input = "",返回CONSUMED列表,即{"aba","A","ab"}。
定义:
类 Lexer
方法 public String[] tokenize(String[] tokens, String input)
约束:
1、给定的语句列表包括0至50个元素
2、每个语句包括1至50个字符
3、每个语句仅包含字母(a-z, A-Z)
4、输入的待分析的字符串长度为0至50,且仅包含字母(a-z, A-Z)
测试用例:
1、{"ab","aba","A"} "ababbbaAab"
Returns: { "aba", "A", "ab" }
2、{"a","a","aa","aaa","aaaa","aaaaa","aa"} "aaaaaaaaaaaaaaaaaaaaaaaaa"
Returns: { "aaaaa", "aaaaa", "aaaaa", "aaaaa", "aaaaa" }
3、{"wow","wo","w"} "awofwwofowwowowowwwooo"
Returns: { "wo", "w", "wo", "w", "wow", "wow", "w", "wo" }
4、{"int","double","long","char","boolean","byte","float"} "intlongdoublecharintintboolean"
Returns: { "int", "long", "double", "char", "int", "int", "boolean" }
5、{} "Great"
Returns: { }
6、{"AbCd","dEfG","GhIj"} "abCdEfGhIjAbCdEfGhIj"
Returns: { "dEfG", "AbCd", "GhIj" }
- import java.util.ArrayList;
- public class Lexer {
- public String[] tokenize(String[] tokens, String input){
- ArrayList<String> res = new ArrayList<String>();
- String tmp="";
- for(int i=0; i<tokens.length; i++){
- for(int k=i+1; k<tokens.length; k++){
- if(tokens[k].length()>tokens[i].length()){
- tmp = tokens[k];
- tokens[k]=tokens[i];
- tokens[i]=tmp;
- }
- }
- }
- tmp = input;
- while(tmp.length()>0){
- int i,k;
- for(i=0; i<tokens.length; i++){
- for(k=0; k<tokens[i].length() && k<tmp.length(); k++){
- if(tmp.charAt(k)!=tokens[i].charAt(k))
- break;
- }
- if(k==tokens[i].length()){
- res.add(tokens[i]);
- tmp = tmp.substring(k);
- break;
- }
- }
- if(i==tokens.length)
- tmp=tmp.substring(1);
- }
- return res.toArray(new String[0]);
- }
- }