NLP
文章平均质量分 81
komjay
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
自然语言处理(第17课 文本分类和聚类)
将文本分类,主要工作是让机器分析文章内容,辨别其类别。原创 2023-12-31 16:53:03 · 1621 阅读 · 1 评论 -
自然语言处理(第16课 机器翻译4、5/5)
语音翻译的基本原理相比大家都能猜到:将源语言识别出源文本、源文本转目标文本、目标文本转目标语音:(但是,要注意的是,源语言和目标语言的转换应该是双向的)原创 2023-12-28 15:22:48 · 914 阅读 · 0 评论 -
自然语言处理(第15课 机器翻译3/5)
学习神经网络的进步性。学习RNN和注意力机制实现的机器翻译。原创 2023-12-18 14:52:31 · 161 阅读 · 0 评论 -
自然语言处理(第14课 机器翻译1、2/5)
规则越少,说明模型所需的先验知识越少,模型更强,但也可能导致模型最终的效果不好。原创 2023-12-18 14:14:28 · 260 阅读 · 0 评论 -
自然语言处理(第13.5课 从NLP到NLU)
1.了解NLP与NLU的关系,认识NLP的问题2.学习语言的表征3.学习如何将神经信息解码成语言4.了解语义图谱的内容 只关注NLP与NLU,可以发现:NLU是NLP的深层技术,NLP只是处理语言信息,而NLU是要理解语言信息。而想要让机器理解语言信息,显然,我们只能从人脑的运行机能出发。(这里表明了,无论chatgpt多牛,它终究是NLP的产物,并不能真正理解语言信息。而我们目前依旧没搞懂人脑的运行机制,所以NLU还是一个基础的阶段) 主要是使用脑电图作为脑信息,然后将语言信息原创 2023-12-02 21:27:58 · 299 阅读 · 0 评论 -
自然语言处理(第13课 语义分析)
语义分析的任务,就是解释自然语言的句子或者篇章各部分(词、词组、句子、段落、篇章)的含义。就相当于给一篇文章给gpt,然后再问他问题,得到相关回答。语义分析的困难,在于三个点:相关的例子如下:(明明表面上是不一样的表达,语义表达确实相同的)原创 2023-11-30 18:22:56 · 767 阅读 · 0 评论 -
自然语言处理(第12.5课 篇章分析)
RST是语言学篇章表示理论中的一个经典表示方法,其思想是将原篇章尽可能进行切分成EDU,然后再两两结合,形成更大的EDU,最后合成整个语篇。于是,我们需要解决的任务有两个:(1)如何切分EDU,(2)如何确定EDU的关系。我们要得到的句子间的关系z,而我们能用到的输入特征有:两个句子的所有词的词向量。其中锚词识别,是用来分割句子的符号,其中以标点符号为主,还有句子中的“并”,“和”这种词。(2)过于依赖训练语料库(如第二句,训练语料库有许多美国和伊拉克的句子,而忽视句子讲的是伊朗)原创 2023-11-29 16:25:42 · 515 阅读 · 0 评论 -
自然语言处理(第12课 句法分析2/2)
在一节课中,我们学习了句法分析的短语结构分析方法,依存分析方法是另外一种句法分析方法。依存关系方法认为:(1)谓词中的动词是一个句子的中心,(2)其他成分与动词是直接或间接地产生联系。(3)依存不仅指动词对其他词的支配,而是普遍地指词与词之间的关系,这种关系是有方向的。(4)对于动词,根据其能支配几个行动元,定义其是几价动词。关于第(4)点,有以下例子:关于第(3)点,有以下例子:同样,我们可以用树结构来表示:(但一般还是上面的更常用)原创 2023-11-29 14:34:27 · 1158 阅读 · 0 评论 -
自然语言处理(第9课 词语切分与词性标注)
在本章中,我们主要关注中文的分词任务。(1)过于依赖训练样本,鲁棒性太差。(生词识别)(2)训练样本太少,主要集中于新闻领域。(领域差异)原创 2023-11-16 19:39:05 · 748 阅读 · 0 评论 -
自然语言处理(第10、11课 句法分析1/2)
在讲CYK分析法前,需要大家回想起第2、3节课讲过的文法相关的知识。类似于我们之前在隐马尔科夫模型中用前向算法和反向算法求解问题一样。这个识别举证是CYK的关键点,长下面的样子:(w是词,pos表示其对应的非终结符)主要任务:识别句子中某些结构相对简单的独立成分。其中A、B、C的关系如下所示:(A、B、C都是句法树中的一个非叶子节点)其中句子的标签也一同输入到模型中,这样才能使模型能讲句子翻译成标签。一些例子:可以看出局部句法分析主要是找那些名词短语就行。该方法算是CYK的改进版。原创 2023-11-16 21:24:08 · 607 阅读 · 0 评论 -
自然语言处理 (第8课 文本表示)
思路:一个短语由多个单词组成,将任意两个单词的词向量(A和B)线性组合成一个新的词向量C,最后就可以得到短语的向量表示,而且还可以通过线性分解将C分解成A'和B',目标就是追求A和A'、B和B'的差距最小,即重构误差最小。比如说有一个短文本A和长文本B,显然地,长文本包含了更多的词,也就使得其文本表示更大,但实际上,二者的表示信息是相同的,(比如B就是重复的多个A)所以引入归一化,使向量能规范化。其实,文本表示在字词级别上就是词向量,而在句子、文档级别中,也是用一个向量来表示一个句子、一个文档的意思。原创 2023-11-07 12:52:13 · 441 阅读 · 0 评论 -
自然语言处理 (第6 7课 神经网络与语言模型)
(3)例子说明:假设我们的look-up表是一个2x5000的矩阵,即有5000个单词,每个词用二维词向量来表示,然后我们要求“这本书很”之后是“乏味”的概率:然后通过查词表、拼接,进行线性计算,得到一个二维结果:再进行非线性变换:最后得到(0.36,0.41)其实该包有一定含义:由于我们的单词用两位数据来表示,得到的二维数据说明词向量两个维度的权重。于是我们乘上look-up表得到各个词的分数:原创 2023-10-28 15:20:09 · 505 阅读 · 1 评论 -
自然语言处理 (第5课 N元文法模型)
1.N元文法模型的定义:历史基元是当前词语前面的词语。原创 2023-10-16 21:12:17 · 625 阅读 · 1 评论 -
自然语言处理 (第4课 隐马尔科夫模型)
1.了解马尔科夫模型的基本内容2.学习隐马尔科夫模型的详细内容与三个主要问题3.了解隐马尔科夫模型的一个应用。原创 2023-10-14 15:02:11 · 409 阅读 · 1 评论 -
自然语言处理(第3课 形式语言与自动机)
1.形式语言是用来精确描述语言及其结构的手段。形式语言就是机械地统计出语言句子的结构和单词。有了这样一套规则就能去区分一个句子是否有句法错误。2.形式语法的定义:N是变量集合,相当于是数学算式中的未知数x,在实际应用一般表示为词语的词性(动、名、介),或者句子的结构(主、谓、宾)。∑是终结符集合,实际上就是具体的字符。不是逗号、句号这些符号的集合。P是重写规则集合,即是初始符和变量可以改写成另外一种形式。当将变量改写成具体字符后,该字符就不能在改写,故称具体的字符为终结符。S是。原创 2023-10-02 18:15:11 · 1012 阅读 · 1 评论 -
自然语言处理(第2课 统计学基础)
1.随机过程的平稳性(stationary):在数学中平稳过程又称严格平稳过程 或者 强平稳过程,是一种特殊的随机过程,在任一时间段或空间里的联合概率分布,与将这段时间任意平移后的新时间段里的联合概率分布相等。换用到语言系统中,,单词是其随机变量。,因为在一小段时间内(甚至几年内),其总体的语法和单词变化是不大的,具体表现有:中文中“的”这个词在句子中出现的频率在所有词中占7.79%,而在很长一段时间里,这个数据变化不大。原创 2023-09-15 11:14:32 · 210 阅读 · 1 评论 -
自然语言处理(第1课 介绍)
1.W. Weaver(上)和A.D. Booth(下)于1947-1949年间交流信件,其中提出机器翻译(machine translation, MT).2.上个世纪70/80年代,出现了主要以中文汉语为处理对象的中文信息处理(Chinese information processing, CIP)原创 2023-09-14 20:31:34 · 215 阅读 · 1 评论 -
自然语言处理(第0课 大纲)
学习目标:了解课程大纲原创 2023-09-14 19:52:57 · 140 阅读 · 1 评论
分享