- 博客(72)
- 收藏
- 关注
原创 玩转tokenizer
本文介绍了使用Hugging Face Tokenizers库进行文本处理的4个案例:1)加载预训练的BERT分词器;2)自定义训练WordPiece分词器;3)将token ID解码回文本;4)批量处理文本。案例展示了从加载到训练、从编码到解码的完整流程,特别演示了如何用少量文本训练自定义分词器,并支持特殊标记。这些方法适用于自然语言处理任务,能高效处理单个或多个文本输入。
2025-08-16 21:29:53
180
原创 【毕设结束记录】
完美结束毕设,最终得了满绩(专业不超过20%),其实还有好多东西没写,但是我会公开源码,放在Github。如果有做微服务的同学可以挑战一下,分数不会低的,当然这几年的趋势是深度学习方向居多,我的同学们做深度学习的也越来越多,至少占一半以上,但是分高的也不多。专业(150人)包括我只有3个人做了微服务,但其实今后做的比例也不会大,因为涉及到的技术非常多,我的推荐是之前完整做过前端以及后端Spring项目的可以挑战微服务,需要的时间周期大概是两个月(边做边学)最终我从开始接触到完成应该是花了两个
2023-05-30 21:53:17
155
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人