自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 word2vec基本概念

是一种非常重要的自然语言处理技术,它通过神经网络模型将词语转换为向量(通常称为“词向量”)。这些词向量能够捕捉到词语之间的语义关系,例如同义词、反义词或其他语义相似性。Word2Vec 是由和他的团队在 Google 提出的,并且成为了 NLP 领域的基础技术之一。这个blog写的更具体,复习用:。

2024-12-01 21:12:14 923

原创 大模型学习day1 | Let‘s Build GPT Tokenizer(Andrej Karpathy)创建GPT分词器

要将文本内容作为Transformer的输入,最符合直觉的方式是用Unicode编码。,这篇博客底下的附录网页内容也很精彩)。但是,每个字节对应一个编码值,这会导致输入的长度过于长。然而这会限制模型长程依赖关能力系,超出一定的范围会导致一些上下文信息的丧失。用token代替字节对应的编码作为模型的输入,显然更合适一个token能代表多个byte。在LLM中,token本质上是在文本中的常见字符序列,不受严格规则或语言语义的约束。此外,token可以包括任何符号,而不仅仅是字母。

2024-11-19 21:51:39 878

原创 字典的格式化输出

字典的格式化输出

2022-07-01 16:25:45 661

转载 python 对字符串处理join 注意事项

python 字符串处理中join方法的一些注意事项

2022-07-01 16:03:36 208

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除