记录下最近做得 产品中文分词

需要对一些信息进行产品Score的排序

思路: 厂家, 产品系列, 产品型号, 分销, 零售商等字典, 按照需求特性对他们进行分级

格式化用户请求信息, 根据上述字典切割成有效关键词, 根据这些关键词进行score计算

因为考虑到用户可能会输入些辅助词语, 所以找了个简单的常规字典来切分这类词语

根据词语的重要性, 出现的次数计算出score,对此排序.

code比较简单, 这里需要注意的是如何分级, 分级的score如何设定.

简单的完成后, 排重需求比较急, 所以没有优化和测试该分词效率和资源占用状况


顺便说下通用搜索的分词, 目前已知的算法在准确性上面都有些不足之处.
难点主要在于 网络用词的出现, 新型专业用语, 某段时间的词语需要特别处理 等等.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值