什么是分词?
分词就是利用计算机识别出文本中词汇的过程。比如句子“内塔尼亚胡说的确实在理”
分词作用
互联网绝大多数应用都需要分词,典型应用实例
汉字处理:拼音输入法、手写识别、简繁转换 …
信息检索:Google 、Baidu …
内容分析:机器翻译、广告推荐、内容监控 …
语音处理:语音识别、语音合成 …
…
分词难点
歧义无处不在
交叉歧义(多种切分交织在一起)
内塔内亚胡说的/确实/在理
组合歧义(不同情况下切分不同)
这个人/手上有痣
我们公司人手
歧义无处不在
交叉歧义(多种切分交织在一起)
内塔内亚胡说的/确实/在理
组合歧义(不同情况下切分不同)
这个人/手上有痣
我们公司人手
真歧义(几种切分都可以)
乒乓球拍/卖/完了
乒乓球/拍卖/完了
乒乓球拍/卖/完了
乒乓球/拍卖/完了
新词层出不穷
人名、地名、机构名
刘德华 长坂坡 耀华路
网名
你是我的谁 旺仔小馒头
公司名、产品名
摩托罗拉 谷歌 爱国者 腾讯 网易 新浪 诺基亚C5 尼康D700
普通词与新词互用
高明表演真好(演员)/他的表演很高明
×××(广东省长)到深圳检查工作/洞庭湖一片×××
普通词与新词交织在一起
克林顿对内塔尼亚胡说
×××听取龚学平等同志的汇报
人名、地名、机构名
刘德华 长坂坡 耀华路
网名
你是我的谁 旺仔小馒头
公司名、产品名
摩托罗拉 谷歌 爱国者 腾讯 网易 新浪 诺基亚C5 尼康D700
普通词与新词互用
高明表演真好(演员)/他的表演很高明
×××(广东省长)到深圳检查工作/洞庭湖一片×××
普通词与新词交织在一起
克林顿对内塔尼亚胡说
×××听取龚学平等同志的汇报
需求多种多样
切分速度:搜索引擎VS单机版语音合成
结果呈现:
切分粒度要求不同:机器翻译VS搜索引擎
分词重点要求不同:语音合成VS搜索引擎
唯一结果VS多结果:语音合成VS搜索引擎
新词敏感度不同:语音合成VS搜索引擎
处理对象:书面文本(规范/非规范)VS口语文本
硬件平台:嵌入式VS单机版VS服务器版
切分速度:搜索引擎VS单机版语音合成
结果呈现:
切分粒度要求不同:机器翻译VS搜索引擎
分词重点要求不同:语音合成VS搜索引擎
唯一结果VS多结果:语音合成VS搜索引擎
新词敏感度不同:语音合成VS搜索引擎
处理对象:书面文本(规范/非规范)VS口语文本
硬件平台:嵌入式VS单机版VS服务器版
转载于:https://blog.51cto.com/langiner/380450