上周我家楼下奶茶店出了个奇葩规定——用网络流行语点单可以打五折。当我听到00后店员面不改色地说出"尊贵的绝绝子要暴风吸入一杯yyds吗"时,突然意识到:当代人类的语言系统已经进入量子态,而让机器理解这些黑话的幕后推手,正是我们今天要盘点的语言模型。
一、文字界的算命先生:n-gram模型
如果把语言模型比作武侠世界,n-gram就是那套人人都会的太祖长拳。别看现在被深度学习按在地上摩擦,当年可是撑起了整个NLP江湖的半边天。
1.1 来自上古互联网的预言术
想象你穿越回2003年的网吧,看到有人用智能ABC输入法在QQ聊天。当时那个会预测"你好"之后接"吗"的傻白甜系统,就是n-gram的祖传手艺。它的核心理念简单到令人发指:通过统计前n个词出现的概率,预测下一个词。
比如"宫廷玉液酒"后面接"一百八一杯"的概率,在赵丽蓉老师的小品文本中高达99.99%。这套算法就像菜市场大妈,永远在碎碎念:“我瞅着这几个字经常扎堆出现…”