9.4 Tokens

博客介绍了Tokens的相关内容,指出Tokens有标识符、关键字、字面量、运算符和标点符号等几种类型,空白和注释虽不是Tokens,但可作为Tokens的分隔符,还列出了token的具体形式。
9.4 Tokens
There are several kinds of tokens: identifiers, keywords, literals,
operators, and punctuators. White space and
comments are not tokens, though they act as separators for tokens.
token::
identifier
keyword
integer-literal
real-literal
character-literal
string-literal
operator-or-punctuator
03-11
### Tokens在信息技术中的定义 Tokens在信息技术领域通常指代由词法分析器从源代码或者自然语言文本中识别出来的基本单元[^1]。这些单元可以是单词、操作符或者是其他具有特定意义的字符串片段。 #### Token的最大长度限制 对于某些大型预训练模型而言,存在对单次请求所能处理token数量上的硬性规定。例如,在使用OpenAI开发的GPT-3系列API时,整个输入加上输出的内容总和不得超过4097个tokens;如果尝试超出这一数值,则会触发错误消息指出已超过该模型支持的最大上下文长度2049 tokens,并且提示与完成部分共同构成了总的token数超限问题[^3]。 #### Tokens的应用场景 当涉及到像in-context learning这样的技术应用场合下,tokens扮演着至关重要的角色。因为这种学习模式依赖于提供给大语言模型的一组精心构建的例子作为指导性的前缀序列(prompts),而每一个例子都可能被分割成多个独立的token以便更好地理解和执行后续的任务需求[^4]。 ```python # Python示例:如何计算一段话中有多少个token import tiktoken def num_tokens_from_string(string: str, encoding_name: str) -> int: """Returns the number of tokens in a text string.""" encoding = tiktoken.get_encoding(encoding_name) tokenized_text = encoding.encode(string) return len(tokenized_text) example_string = "这是一个测试句子用来展示如何统计Token的数量" encoding_used = "cl100k_base" print(f"The input contains {num_tokens_from_string(example_string, encoding_used)} tokens.") ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值