
NLP专栏
文章平均质量分 86
NLP专栏
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
数据派THU | 深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构(建议收藏!)
在快速发展的自然语言处理(NLP)领域,分词(tokenization)作为将原始文本转换为机器可处理格式的首要环节,具有不可替代的重要性。分词过程将文本分割成离散单元——即token,这些token构成了后续分析的基础,包括词嵌入(embedding)、语法解析和模型训练等多个环节。原创 2025-03-28 17:12:38 · 956 阅读 · 0 评论 -
240418PingCAP | TiDB Vector 太香啦:以图搜图初体验!
TiDB Serverless 上的向量化功能终于开始邀约体验啦!本文是来自 TiDB 社区用户对 TiDB Vector 功能初体验的详细分享,hey-hoho 介绍了他从申请体验到实际操作的全过程,包括创建 TiDB Vector 实例、进行向量检索的初体验,以及实现以图搜图和自然语言搜图的基础应用。如果你对 TiDB Serverless 感兴趣,欢迎了解 TiDB Vector,一起开启 TiDB Serverless 数据库之旅吧!原创 2025-01-08 21:11:45 · 994 阅读 · 0 评论 -
算法进阶 | 15种经典RAG框架综述-卡内基梅隆大学最新RAG综述
本文深入探讨了 Retrieval-Augmented Generation (RAG) 的发展历程,从基础概念到最新技术。RAG 通过结合检索与生成模型,有效提升了输出准确性,克服了 LLM 的局限。研究详细分析了 RAG 的架构,展示了检索与生成如何协同处理知识密集型任务。此外,本文还回顾了 RAG 在问答、摘要等领域的关键技术进展,并探讨了提升检索效率的新方法。同时,文章也指出了 RAG 在可扩展性、偏见和伦理方面的挑战,并提出了未来研究方向,以增强模型鲁棒性、拓展应用范围并关注社会影响。本调查旨在为原创 2024-12-02 17:05:35 · 981 阅读 · 0 评论 -
江大白 | TaskCLIP:扩展大型视觉-语言模型以用于面向任务的目标检测(建议收藏!)
在本研究中,我们介绍了TaskCLIP,一个用于面向任务的目标检测的新颖框架。TaskCLIP以高效的方式利用了来自冻结CLIP模型的预训练知识和视觉语言关联,使其区别于之前的研究工作。与先前基于DETR的方法的比较分析表明,TaskCLIP在任务生成能力、准确性和训练效率方面均具有优势。原创 2024-11-24 02:30:00 · 723 阅读 · 0 评论 -
机器学习AI算法工程 | NLP 实战项目:使用 BERT 进行模型微调,进行文本情感分析
本篇我们使用公开的微博数据集(weibo_senti_100k)进行训练,此数据集已经进行标注,0: 负面情绪,1:正面情绪。数据集共计82718条(包含标题)。原创 2024-11-16 20:56:49 · 468 阅读 · 0 评论 -
python | Python文本处理中的相似性识别应用
在自然语言处理和文本分析的领域,字符串匹配和识别文本相似性是常见的问题。无论是文本数据清洗、文本分类,还是文本检索,如何高效地匹配字符串或识别文本之间的相似性,都至关重要。Python提供了多种库和工具来实现这些功能,能够帮助开发者快速处理字符串匹配和相似性识别问题。原创 2024-10-23 17:21:17 · 1288 阅读 · 0 评论 -
python | sumy,一个超酷的 用于文本摘要的 Python 库!
在信息爆炸的时代,如何快速提取有价值的信息是一个重要的课题。文本摘要技术能够自动从文本中提取关键内容,为用户节省时间和精力。sumy 是一个用于文本摘要的 Python 库,它提供了多种算法来生成摘要,支持多种语言,是一个简单而强大的工具。本文将详细介绍 sumy 库,包括其安装方法、主要特性、基本和高级功能,以及实际应用场景,帮助全面了解并掌握该库的使用。原创 2024-08-28 18:00:44 · 1589 阅读 · 2 评论 -
python | NLTK,一个强大的 自然语言处理 Python 库!
NLTK库是一个功能强大且易于使用的自然语言处理工具,能够帮助开发者高效地进行各种NLP任务。通过支持分词、词性标注、命名实体识别、句法解析、文本分类、语言模型等功能,NLTK库能够满足各种自然语言处理需求。本文详细介绍了NLTK库的安装方法、主要特性、基本和高级功能,以及实际应用场景。希望本文能帮助大家全面掌握NLTK库的使用,并在实际项目中发挥其优势。无论是在文本预处理、情感分析还是机器翻译任务中,NLTK库都将是一个得力的工具。原创 2024-06-25 17:53:03 · 2601 阅读 · 0 评论