
自然语言处理
文章平均质量分 93
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
G皮T
计算机科学与技术本科,计算机技术硕士,现任职于某互联网公司,担任测试开发工程师。优快云云原生领域优质创作者、博客专家。书籍《大数据测试开发工程师的第一本书》正在积极撰写中,敬请期待。微信公众号:大数据与AI实验室。《Java 百“练”成钢》连载中,欢迎关注!
展开
-
【自然语言处理】ChatGPT 相关核心算法
ChatGPT 的卓越表现得益于其背后多项核心算法的支持和配合。本文将分别介绍作为其实现基础的 Transformer 模型、激发出其所蕴含知识的 Prompt / Instruction Tuning 算法、其涌现出的思维链能力、以及确保其与人类意图对齐的基于人类反馈的强化学习算法。原创 2023-03-14 12:41:16 · 2940 阅读 · 1 评论 -
【自然语言处理】从词袋模型到Transformer家族的变迁之路
本文简要介绍了 BOW、TF-IDF、Word2Vec、Transformer、BERT、GPT、RoBERTa、 XLM、Reformer、ELECTRA、T5 等模型。原创 2023-03-07 22:14:32 · 1131 阅读 · 2 评论 -
【自然语言处理】BERT & GPT
近年来,随着大规模预训练语言模型的发展,自然语言处理领域发生了巨大变革。BERT 和 GPT 是其中最流行且最有影响力的两种模型。在本篇博客中,我们将讨论 BERT 和 GPT 之间的区别以及它们的演变过程。原创 2023-02-27 14:57:45 · 2380 阅读 · 2 评论 -
【自然语言处理】基于句子嵌入的文本摘要算法实现
人们在理解了文本的含义后,很容易用自己的话对文本进行总结。但在数据过多、缺乏人力和时间的情况下,自动文本摘要则显得至关重要。原创 2023-02-26 21:28:44 · 1554 阅读 · 2 评论 -
【自然语言处理】Transformer 模型:概述及分类(综述)
在过去的数年里,基于 Transformer 的相关模型层出不穷。本文将对当下最流行的 Transformer 模型做一个简单全面的介绍。原创 2023-02-20 19:38:41 · 8923 阅读 · 2 评论 -
【自然语言处理】图解 Transformer
在本篇博客中,我们将介绍一种新的模型 Transformer,一种使用注意力机制来提高模型训练速度的模型。Transformer 是在论文 Attention is All You Need 中首次提出的。Tensor2Tensor 包提供了其基于 TensorFlow 的实现版本。哈佛大学的 NLP 小组也创建了一个指南,使用 PyTorch 实现了对论文的注释。原创 2023-02-19 20:48:56 · 1182 阅读 · 0 评论 -
【阶段总结】《非结构化信息分析应用与实践》
如果有机会,我想写本书,书名如题所示,哈哈!原创 2023-02-12 15:21:58 · 742 阅读 · 1 评论 -
【自然语言处理】图解Word2Vec
嵌入(Embedding)是机器学习中最令人着迷的 idea 之一。如果你使用过 Siri、Google Assistant、Alexa、Google Translate,或者是带有预测下一个词的功能的智能手机键盘,那么你已经从这个成为 NLP 模型核心的 idea 中受益。在过去的几十年中,将嵌入用于神经网络模型方面取得了相当大的发展,如最新的 BERT、GPT2 等。原创 2023-01-22 02:19:48 · 1061 阅读 · 0 评论 -
【自然语言处理】词袋模型在文本分类中的用法
当文本被向量化后,就可以将其看作是数字,按照常见的机器学习方法进行回归、分类、聚类、降维等任务。原创 2023-01-21 00:43:10 · 1109 阅读 · 0 评论 -
【自然语言处理】BOW和TF-IDF详解
机器无法处理原始形式的文本数据。我们需要将文本分解成一种易于机器阅读的数字格式(自然语言处理背后的理念!)。BOW 和 TF-IDF 都是帮助我们将文本句子转换为向量的技术。原创 2023-01-20 19:36:15 · 1000 阅读 · 0 评论 -
【自然语言处理】文本表示:One-Hot、BOW、TF-IDF、N-Gram
Bag-of-Words(BOW)模型是信息检索领域常用的文档表示方法。在信息检索中,BOW 模型假定对于一个文档,忽略它的单词顺序、语法、句法等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的,不依赖于其它单词是否出现。也就是说,文档中任意一个位置出现的任何单词,都不受该文档语意影响而独立选择的。原创 2023-01-20 17:35:32 · 3118 阅读 · 0 评论 -
【自然语言处理】文本相似度算法:TF-IDF与BM25
SnowNLP 是一个 Python 写的类库,可以方便的处理中文文本内容,是受到了 TextBlob 的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和 TextBlob 不同的是,这里没有用 NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。原创 2023-01-11 17:07:24 · 2030 阅读 · 1 评论 -
【自然语言处理】基于TextRank算法的文本摘要
利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。但人工摘要耗时又耗力,已不能满足日益增长的信息需求,因此借助计算机进行文本处理的自动文摘应运而生。原创 2022-12-16 00:48:23 · 1674 阅读 · 1 评论 -
【自然语言处理】利用 TextRank 算法提取关键词
TextRank 是一种基于 PageRank 的算法,常用于关键词提取和文本摘要。在本文中,我将通过一个关键字提取示例帮助您了解 TextRank 如何工作,并展示 Python 的实现。原创 2022-11-27 23:35:03 · 6767 阅读 · 1 评论 -
【数据挖掘】从“文本”到“知识”:信息抽取(Information Extraction)
这是一个大数据的时代。随着太阳东升西落,每一天都在产生大量的数据信息。人们通常更擅长处理诸如数字之类的结构化数据。但实际情况是,非结构化数据往往比结构化的数据多。当我们从互联网上获取了大量的如文本之类的非结构化数据,如何去有效地分析它们来帮助我们更好地做出决策呢?这将是本文要回答的问题。原创 2021-02-23 13:12:14 · 4087 阅读 · 3 评论 -
【数据可视化】基于 Scattertext 的《十二五和十三五规划》文本分析
二〇二一年是十四五规划的开篇之年。十二五和十三五规划的对比研究对开展和实施十四五规划有着非常重要的指导意义。原创 2021-02-17 14:53:47 · 3540 阅读 · 4 评论