第二步中,我们需要解决一个问题,就是把词语翻译成拼音。在osc中搜索:pinyin,http://pinyin4j.sourceforge.net/,download下来,直接使用:
public static void main(String[] args) {
String item = "娱乐八卦";
// System.out.println(Arrays.toString(split(item)));
// System.out.println(Arrays.toString(split("ylbg")));
// System.out.println(Arrays.toString(split("yu,le,ba,gua")));
ArrayList<String[]> list = pinyin(item);
for (String[] arr : list) {
System.out.println(Arrays.toString(arr));
}
}
/**
* 词语拼音
*/
public static ArrayList<String[]> pinyin(String s) {
HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE); // 小写
defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE); // 不用声标
String[] pinyinArray = null;
ArrayList<String[]> list = new ArrayList<String[]>();
for (char c : s.toCharArray()) {
try {
pinyinArray = PinyinHelper.toHanyuPinyinStringArray(c, defaultFormat);
} catch (BadHanyuPinyinOutputFormatCombination e) {
e.printStackTrace();
}
if (pinyinArray == null) {
list.add(new String[] {String.valueOf(c)});
} else {
list.add(pinyinArray);
}
}
return list;
}
输出:
[yu]
[le, yue]
[ba, ba]
[gua]
发现“乐”是多音字,[le, yue],“八”也是多音字,[ba, ba],分别是第一声、第二声,可以把
//defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE); // 不用声标
这行注释掉,“八”输出的是[ba1, ba2]。
但是这个不符合我们要求,因为用户输入不会区分第一声还是第二声,于是我们要进行一个过滤:
/**
* 词语拼音
*/
public static ArrayList<String[]> pinyin(String s) {
HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE); // 小写
defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE); // 不用声标
String[] pinyinArray = null;
ArrayList<String> temp;
ArrayList<String[]> list = new ArrayList<String[]>();
for (char c : s.toCharArray()) {
try {
pinyinArray = PinyinHelper.toHanyuPinyinStringArray(c, defaultFormat);
} catch (BadHanyuPinyinOutputFormatCombination e) {
e.printStackTrace();
}
if (pinyinArray == null) {
list.add(new String[] {String.valueOf(c)});
} else {
temp = new ArrayList<String>();
for (String p : pinyinArray) {
if (!temp.contains(p)) {
temp.add(p);
}
}
list.add(temp.toArray(new String[temp.size()]));
}
}
return list;
}
输出:
[yu]
[le, yue]
[ba]
[gua]
到这里,一个棘手问题马上就上来了,多音字组合。大家一看,很容易就知道有两个组合:
yu,le,ba,gua 和 yu,yue,ba,gua
那怎样让机器自己组合呢?