- 博客(5)
- 收藏
- 关注
原创 BPE分词
BPE(Byte Pair Encoding)是一种通过合并高频字符对来构建子词单元的分词方法。本文通过中文拼音示例演示其工作原理:1)将"爸爸、妈妈、爷爷"拆分为拼音字母;2)统计并合并最高频字符对(如b+a→ba);3)迭代合并3次后得到包含基础字符和子词的词汇表;4)对新词按最长匹配原则分词。BPE的核心优势在于能自动学习常见字符组合,既压缩词汇量又能处理未登录词,如同用"积木"拼接新词。该方法与语言无关,适用于中英文等多种场景。
2025-12-26 09:05:55
428
原创 最小哈希(MinHash)
局部敏感哈希(LSH)通过使相似内容生成相近哈希值来解决相似度计算问题,与普通哈希完全相反。最小哈希(MinHash)作为LSH的经典实现,专门用于高效估算集合相似度(如Jaccard系数)。其核心原理是通过随机哈希的最小值代表集合,从而避免直接计算大规模集合的交并集,实现快速准确的相似度估算。例如,计算两个百万级元素集合的相似度时,MinHash能显著降低计算成本。
2025-12-26 08:38:59
191
原创 企业内部借书小程序---借书驿站
微信搜一搜借书驿站借书驿站小程序使用初体验功能特色页面截图借书驿站小程序使用初体验刚进入小程序,有新手操作视频功能特色注册即可使用 ,在小程序上面注册后就可以使用,无需等待审核;上传图书方便 扫码ISBN就可以快速上传 ;读者在手机上找到想看的书,可以提前预借;当面借阅,适合现场借阅,不用在小程序再搜索借阅图书;押金、租金、借阅天数、借阅次数均可灵活设置, 支持微信支付分 ;系统自动发送即将逾期提醒,提醒读者尽快还书;轻松搭建总分馆,多个图书馆可以通借通还;一书一码,解决无ISBN图
2021-12-27 11:39:34
1346
原创 借书巴巴
给大家推荐一款微信小程序 借书巴巴为什么要使用借书巴巴?家里书闲置起来实在可惜,何不分享出来让你身边的好友,同学,邻居,同事互相借着看…只需扫描图书背面的条形码即可轻松上传您的图书,微信邀请好友,群组即可实现图书分享。省钱,如果你身边的朋友有您需要的书就不用买.跟踪每次借阅历史,到期提醒功能,确保你借的每本书都有源可追。通过借着看,也能让你更愿意花时间去看书.正如古人说...
2019-09-16 16:16:51
659
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅