词语搜索算法思想 - 第三步 词语拼音

第二步中,我们需要解决一个问题,就是把词语翻译成拼音。在osc中搜索:pinyin,http://pinyin4j.sourceforge.net/,download下来,直接使用:

public static void main(String[] args) {
	String item = "娱乐八卦";
//	System.out.println(Arrays.toString(split(item)));
//	System.out.println(Arrays.toString(split("ylbg")));
//	System.out.println(Arrays.toString(split("yu,le,ba,gua")));
	ArrayList<String[]> list = pinyin(item);
	for (String[] arr : list) {
		System.out.println(Arrays.toString(arr));
	}
}

/**
 * 词语拼音
 */
public static ArrayList<String[]> pinyin(String s) {
        HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
        defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE); // 小写
        defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE); // 不用声标
        String[] pinyinArray = null;
        ArrayList<String[]> list = new ArrayList<String[]>();
        for (char c : s.toCharArray()) {
		try {
			pinyinArray = PinyinHelper.toHanyuPinyinStringArray(c, defaultFormat);
		} catch (BadHanyuPinyinOutputFormatCombination e) {
			e.printStackTrace();
		}
		if (pinyinArray == null) {
			list.add(new String[] {String.valueOf(c)});
		} else {
			list.add(pinyinArray);
		}
	}
    return list;
}

输出:

[yu]
[le, yue]
[ba, ba]
[gua]

发现“乐”是多音字,[le, yue],“八”也是多音字,[ba, ba],分别是第一声、第二声,可以把

//defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE); // 不用声标

这行注释掉,“八”输出的是[ba1, ba2]。

但是这个不符合我们要求,因为用户输入不会区分第一声还是第二声,于是我们要进行一个过滤:

/**
 * 词语拼音
 */
public static ArrayList<String[]> pinyin(String s) {
        HanyuPinyinOutputFormat defaultFormat = new HanyuPinyinOutputFormat();
        defaultFormat.setCaseType(HanyuPinyinCaseType.LOWERCASE); // 小写
        defaultFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE); // 不用声标
        String[] pinyinArray = null;
        ArrayList<String> temp;
        ArrayList<String[]> list = new ArrayList<String[]>();
        for (char c : s.toCharArray()) {
		try {
			pinyinArray = PinyinHelper.toHanyuPinyinStringArray(c, defaultFormat);
		} catch (BadHanyuPinyinOutputFormatCombination e) {
			e.printStackTrace();
		}
		if (pinyinArray == null) {
			list.add(new String[] {String.valueOf(c)});
		} else {
			temp = new ArrayList<String>();
			for (String p : pinyinArray) {
				if (!temp.contains(p)) {
					temp.add(p);
				}
			}
			list.add(temp.toArray(new String[temp.size()]));
		}
	}
    return list;
}

输出:

[yu]
[le, yue]
[ba]
[gua]

到这里,一个棘手问题马上就上来了,多音字组合。大家一看,很容易就知道有两个组合:

yu,le,ba,gua 和 yu,yue,ba,gua

那怎样让机器自己组合呢?

转载于:https://my.oschina.net/fangxu/blog/41564

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值