4、机器学习在语言处理与化妆品推荐中的应用

机器学习在语言处理与化妆品推荐中的应用

1. ILP规则生成词汇变体

在语言处理中,通过应用特定规则,我们能够识别匹配模式的具体出现情况。这些规则所匹配的模式具有重要特性,它们允许基于简单的单词列表快速生成变体,而无需依赖带注释的词库。要利用这些规则寻找变体,只需要一个给定语言的有效单词词库。这个过程不仅能基于形态规则找到变体,还能发现一些可能未在列表中注释的变体,例如正字法变体(如 “ann 到 anne”、“whisky 到 whiskey”、“majorca 到 mallorca”),甚至是拼写错误的单词。

为了测试ILP找到的规则在完整词库上的效果,我们编制了一个包含36个样本单词的新列表,并将这些单词作为术语应用到规则中以生成新的候选变体。样本单词列表涵盖了多种词汇和语法类别,包括形容词、名词(外来词、单数、复数、单数所有格、复数所有格)和动词(现在分词、过去式、不定式),并且单词长度从两个字符到八个字符不等。在分析结果时,由于我们只关注与查询无关的变体,所以如果候选变体与原术语在语义上相近,就认为该变体是相关的。

规则的行为并不特定于词汇或语法类别,但单词长度在生成新候选变体时似乎很重要。较长的单词(即五个字符及以上)比较短的单词能返回更多相关变体。这是因为所有规则都会将当前术语的编辑距离计算为一个较低的值(二或三)。单词越长,编辑距离为一到三的任意字符串越有可能是无效单词,从而不属于词库。有趣的是,Aleph和FOIL都未捕捉到单词长度的约束,这是因为规则的其他约束足以区分正例和反例。不过,如果进一步增加反例与正例的比例,ILP系统更有可能学习到单词长度的约束。

2. 化妆品推荐服务的发展与问题

随着智能手机等多功能移动终

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值