
自然语言处理
文章平均质量分 93
goTsHgo
这个作者很懒,什么都没留下…
展开
-
自然语言处理(NLP)的开源生态系统:Hugging Face 原理和使用
可以通过TrainerAPI 进行快速微调。# 数据集(使用样例)# 数据处理# 定义 Trainer# 开始训练底层实现定义训练的超参数(如批量大小、学习率、训练轮数)。Trainer封装了 PyTorch 的训练逻辑,包括分布式训练支持、评估、模型保存等。数据集通过datasets进行预处理和动态加载,使用.map高效完成数据管道。模块化设计:适合快速开发和自定义。高效分词和数据处理:支持大规模文本的高效处理。强大的模型支持:涵盖了大部分主流 Transformer 架构。原创 2024-11-14 09:14:07 · 1757 阅读 · 0 评论 -
Multi-head Attention机制简介和使用示例
Multi-head Attention 在 NLP 和 CV 中广泛使用,其核心是通过多头机制并行地计算不同子空间中的注意力,从而使模型能够学习输入序列的全局依赖关系。在生产环境中,我们可以通过 PyTorch 实现和保存模型,将其部署为推理服务。d_%7Bk%7D。原创 2024-11-06 08:22:15 · 1562 阅读 · 1 评论 -
自然语言处理——Hugging Face 详解
Hugging Face 通过提供易用的 API、预训练模型和社区支持,极大地降低了 NLP 和深度学习的使用门槛。它的库让研究人员和开发者能够快速上手并在各种任务上获得很好的效果。通过微调、模型共享和高效的训练工具,Hugging Face 为 NLU(自然语言理解)任务和 NLP 研究提供了强大的支持,帮助推动了该领域的进步。原创 2024-11-05 17:09:48 · 3114 阅读 · 0 评论 -
关键词提取技术:TextRank 详解
TextRank是一种基于图的排序算法,用于从文本中提取关键词和进行自动摘要。它是受 Google 的 PageRank 算法启发而提出的。与 TF-IDF 不同,TextRank 不依赖外部语料库,也不需要训练数据。它通过构建词语之间的关系图,使用迭代算法计算每个节点(词语或句子)的重要性,从而提取文本的关键信息。关键词提取:通过分析词语之间的相邻关系,找出最重要的词语。自动摘要:通过句子之间的相似度,生成文本的摘要。原创 2024-10-17 13:41:15 · 1667 阅读 · 0 评论 -
关键词提取技术:TF-IDF 详解
是一种统计方法,用于评估单词在文档集或语料库中的重要性。它是自然语言处理和信息检索中的核心技术之一。TF(Term Frequency, 词频):衡量某个词语在文档中的出现频率。IDF(Inverse Document Frequency, 逆文档频率):衡量词语在整个语料库中的普遍性。词频是指某个词在文档中出现的次数。常用的公式是:f(t,d) 表示词 t 在文档 d 中出现的次数。∑t′∈df(t′,d) 表示文档 d 中所有词的出现次数总和。解释。原创 2024-10-17 12:08:53 · 1428 阅读 · 0 评论 -
关键词提取技术:TF-IDF 和 TextRank 简介
TF-IDF 和 TextRank 都是广泛应用的关键词提取技术。TF-IDF通过统计词频和文档频率计算关键词的权重,适合处理结构化文档或大规模文档集。而TextRank利用图模型考虑词语之间的共现关系,适合无监督的关键词提取和文本摘要生成。在实际应用中,两者可以根据任务需求结合使用,例如使用TextRank来提取多词短语,使用TF-IDF来处理高频词。原创 2024-10-17 09:41:28 · 989 阅读 · 0 评论