
AI
文章平均质量分 89
weixin_40455124
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
huggingface NLP -Transformers库
1.1 易于使用:下载、加载和使用最先进的NLP模型进行推理只需两行代码即可完成。1.2 灵活:所有型号的核心都是简单的PyTorch nn.Module 或者 TensorFlow tf.kears.Model,可以像它们各自的机器学习(ML)框架中的任何其他模型一样进行处理。1.3 简单:当前位置整个库几乎没有任何摘要。“都在一个文件中”是一个核心概念:模型的正向传递完全定义在一个文件中,因此代码本身是可以理解的,并且是可以破解的。原创 2024-12-14 18:51:03 · 1292 阅读 · 0 评论 -
HUGGINGFACE NLP-tokenizers
训练首先计算语料库中使用的唯一单词集(在完成标准化和预标记化步骤之后),然后通过获取用于编写这些单词的所有符号来构建词汇表。如果您正在标记的示例使用不在训练语料库中的字符,则该字符将转换为未知标记这就是为什么许多 NLP 模型在分析带有表情符号的内容方面非常糟糕的原因之一获得这个基本词汇后,我们添加新的标记,直到通过学习合并达到所需的词汇量,这是将现有词汇表的两个元素合并为一个新元素的规则BPE 算法都会搜索最常见的现有标记对 (“对”,这里我们指的是单词中的两个连续标记)。原创 2024-12-14 17:41:34 · 1272 阅读 · 0 评论 -
HUGGINFACE NLP-dataset
3.1.1 Slice(切片):在数据库中,Slice是指将数据集按照某个维度进行切割。通过切片,可以将数据集划分成不同的部分,以便进行更详细的分析。例如,可以将销售数据按照时间切片成不同的时间段,比如按月、按季度或按年,以便分析每个时间段的销售情况。例如,可以将销售数据按照时间和地理位置进行切块,以便分析不同时间和地理位置下的销售情况。与 load_dataset() 不同,Dataset.from_file() 会将 Arrow 文件内存映射,而不会在缓存中准备数据集,从而为您节省磁盘空间。原创 2024-12-14 17:28:51 · 784 阅读 · 0 评论 -
HUGGINGFACE NLP- MAIN NLP TASKS
这个任务(可结合POS或NER)可以任何将一块Token作为制定一个标签(通常是B -),另一个标签(通常I -)表示Token是否是同一块,和第三个标签(通常是O)表示Token不属于任何块。B-ORG/I-ORG 的意思是这个词对应于组织名称实体的开头/内部。B-MISC/I-MISC 表示该词对应于一个杂项实体的开头/内部。B-LOC/I-LOC 指的是是这个词对应于地名实体的开头/内部。B-PER/I-PER意味着这个词对应于人名实体的开头/内部。1.2.1 不同tokenizer有不同分类标签。原创 2024-12-14 17:18:22 · 694 阅读 · 0 评论 -
huggingface NLP-微调一个预训练模型
微调一个预训练模型。原创 2024-12-14 17:14:55 · 1493 阅读 · 0 评论 -
HuggingFace NLP: Sharing models and tokenizers
1.3 recommend using the Auto* classes instead, as these are by design architecture-agnostic(架构无关)原创 2024-12-14 17:07:45 · 950 阅读 · 0 评论 -
huggingface-nlp course-introduce
1.1 NLP 是语言学和机器学习交叉领域,专注于理解与人类语言相关的一切。 NLP 任务的目标不仅是单独理解单个单词,而且是能够理解这些单词的上下文。1.1.1 对整个句子进行分类: 获取评论的情绪,检测电子邮件是否为垃圾邮件,确定句子在语法上是否正确或两个句子在逻辑上是否相关1.1.2 对句子中的每个词进行分类: 识别句子的语法成分(名词、动词、形容词)或命名实体(人、地点、组织)1.1.3 生成文本内容: 用自动生成的文本完成提示,用屏蔽词填充文本中的空白1.1.4 从文本中提取答案: 给定问原创 2024-12-14 17:02:18 · 1312 阅读 · 0 评论