- 博客(3)
- 收藏
- 关注
转载 机器视觉学习路线
内容来源:【计算机视觉知识库】CV学习路线/从头学系列【持续更新】_计算机cv怎么学-优快云博客1. 程序员数学 微积分基础、多元函数微积分、线性代数基础、线性代数高级、概率论等 机器学习面试、算法原理常用的数学知识2. Python学习Python基础:掌握 Python 基础语法, 具备基础的编程能力;掌握代码编程逻辑,条件判断与循环; 完成小游戏开发 01基本的print函数、二进制与字符编码、变量、数据类型、input函数、运算符02程序的组织结构:顺序、
2025-03-17 20:26:29
207
原创 transformers库之一:Tokenizer 和 AutoTokenizer
Tokenizer在自然语言处理(NLP)中是一个关键组件,它负责将文本字符串转换成模型可以处理的结构化数据形式,通常是将文本切分成“tokens”或单词、短语、子词等单位。这些tokens是模型理解文本的基础。Tokenizer的类型和复杂性可以根据任务需求而变化,从简单的基于空格的分割到更复杂的基于规则或机器学习的分词方法。在使用预训练模型处理文本之前,我们需要将文本转换为模型可以理解的格式。这就需要使用tokenizer对文本进行分词、编码等操作。
2024-09-13 12:13:05
4086
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1