机器学习在语言处理与化妆品推荐中的应用
1. ILP规则生成词汇变体
在语言处理中,通过应用特定规则,我们能够识别匹配模式的具体出现情况。这些规则所匹配的模式具有重要特性,它们允许基于简单的单词列表快速生成变体,而无需依赖带注释的词库。要利用这些规则寻找变体,只需要一个给定语言的有效单词词库。这个过程不仅能基于形态规则找到变体,还能发现一些可能未在列表中注释的变体,例如正字法变体(如 “ann 到 anne”、“whisky 到 whiskey”、“majorca 到 mallorca”),甚至是拼写错误的单词。
为了测试ILP找到的规则在完整词库上的效果,我们编制了一个包含36个样本单词的新列表,并将这些单词作为术语应用到规则中以生成新的候选变体。样本单词列表涵盖了多种词汇和语法类别,包括形容词、名词(外来词、单数、复数、单数所有格、复数所有格)和动词(现在分词、过去式、不定式),并且单词长度从两个字符到八个字符不等。在分析结果时,由于我们只关注与查询无关的变体,所以如果候选变体与原术语在语义上相近,就认为该变体是相关的。
规则的行为并不特定于词汇或语法类别,但单词长度在生成新候选变体时似乎很重要。较长的单词(即五个字符及以上)比较短的单词能返回更多相关变体。这是因为所有规则都会将当前术语的编辑距离计算为一个较低的值(二或三)。单词越长,编辑距离为一到三的任意字符串越有可能是无效单词,从而不属于词库。有趣的是,Aleph和FOIL都未捕捉到单词长度的约束,这是因为规则的其他约束足以区分正例和反例。不过,如果进一步增加反例与正例的比例,ILP系统更有可能学习到单词长度的约束。
2. 化妆品推荐服务的发展与问题
随着智能手机等多功能移动终
超级会员免费看
订阅专栏 解锁全文
714

被折叠的 条评论
为什么被折叠?



