
深度学习
文章平均质量分 65
智享AI
爱生活,爱运动,爱学习,爱编程
展开
-
二十七、基于TextCNN中文文本分类(三)
基于TextCNN的中文文本分类(三)原创 2022-05-10 10:52:29 · 678 阅读 · 0 评论 -
二十六、基于TextCNN中文文本分类
基于TextCNN的中文文本分类原创 2022-05-07 09:38:10 · 677 阅读 · 0 评论 -
二十五、长短时记忆神经网络
长短时记忆神经网路简介原创 2022-04-11 17:02:35 · 947 阅读 · 0 评论 -
二十四、TextCNN的原理和实现
Yoon Kim在2014年将卷积神经网络CNN应用到文本分类任务,利用多个不同大小的卷积核来提取句子中的关键信息,从而能够更好地捕捉局部相关性原创 2022-03-25 10:33:28 · 2075 阅读 · 0 评论 -
二十三、卷积神经网络概述
卷积神经网络(Convolutional Neural Network,CNN)针对全连接网络的局限做出了修正,加入了卷积层(Convolution层)和池化层(Pooling层)原创 2022-03-25 10:31:52 · 793 阅读 · 0 评论 -
二十二、卷积运算
卷积运算原创 2022-03-04 08:58:55 · 1257 阅读 · 0 评论 -
二十一、文本情感分类二
文本情感分类实战原创 2022-03-03 13:28:37 · 1239 阅读 · 0 评论 -
二十、文本情感分类
情感分析的基本概念和处理过程原创 2022-02-14 11:26:27 · 2824 阅读 · 0 评论 -
十九、Pytorch中的数据加载
1. Pytorch中DataSet的使用方法1.1 DataSet加载数据的方法DataSet是Pytorch中用来表示数据集的一个抽象类,在torch中提供了数据集的基类torch.utils.data.Dataset,继承这个基类,我们能够快速地实现对数据的加载**.**__len__:返回数据集大小; __getitem__:可以通过下标方式获取数据1.2 DataSet类的源码1.3 DataLoader使用方法定义dataset实例设置读取数据batch的大小,常用12原创 2022-01-17 16:46:24 · 565 阅读 · 0 评论 -
十八、梯度下降与反向传播
梯度下降与反向传播原创 2021-12-28 14:01:39 · 860 阅读 · 0 评论 -
十七、Pytorch的安装和使用
1. Pytorch的安装方法原创 2021-12-28 13:49:50 · 376 阅读 · 0 评论 -
十六、词向量总结
词向量总结原创 2021-12-17 15:01:43 · 786 阅读 · 0 评论 -
十五、中文词向量训练二
中文词向量训练二:Gensim工具训练中文词向量wiki.zh.text.seg为输入文件,wiki.zh.text.model和wiki.zh.text.vector为输出文件,model存储了训原创 2021-12-06 12:31:48 · 806 阅读 · 0 评论 -
十四、中文词向量训练一
Gensim工具训练中文词向量原创 2021-12-06 08:55:42 · 708 阅读 · 0 评论 -
十三、布式词向量模型
分布式词向量模型1.连续词袋模型1.1 连续词袋模型的概念CBOW模型全称为Continuous Bag-of-Words。CBOW是利用上下文信息来预测中心词。给定一个句子:“Pineapples are spiked and yellow”。中心词:“spiked”;上下文:“Pineapples, are, and, yellow”。中心词所限定的语义就被传递到上下文的词向量中,其他带刺植物的向量表示就会靠近Pineapples。1.2 连续词袋模模型的原理和计算过程输入层原创 2021-12-02 14:38:50 · 341 阅读 · 0 评论 -
十二、神经网络语言模型
神经网络语言模型1.NNLM的原理1.1 语言模型假设S表示某个有意义的句子,由一串特定顺序排列的词w1,w2,..,wnw_1,w_2,..,w_nw1,w2,..,wn组成,n是句子的长度。目的:计算S在文本中(语料库)出现的可能性P(S)。1.2 神经网络语言模型直接从语言模型出发,将模型最优化过程转化为求词向量表示的过程.2. NNLM的网络结构2.1 NNLM的结构图NNLM网络结构包括输入层、投影层,隐藏层和输出层2.2 NNLM的计算过程根据前面的原创 2021-11-29 17:03:23 · 2122 阅读 · 0 评论 -
十一、词向量模型
1.独热编码1.1 独热编码的概念在英文中称作One-Hot code,直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制。假如有三种颜色特征:红、黄、蓝。红=1,黄=2,蓝=3;红<黄<蓝;即红色:1 0 0 ,黄色: 0 1 0,蓝色:0 0 11.2 独热编码表示词向量John likes to watch movies. Mary likes too.John also likes to watch football games.1原创 2021-10-13 16:52:51 · 774 阅读 · 0 评论 -
十、词向量基础
1.计算机中如何表示一个词语和frog最接近的前7个单词有哪些1.1 向量空间分布的相似性计算机中表示的词语需要满足向量空间分布的相似性,向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用.1.3 向量空间分布子结构计算机中表示的词语同样需要满足向量空间子结构,学习的词向量模型最终目标是将词向量作为机器学习,特别是深度学习的输入和表示空间。2. 词向量的概念及问题2.1 词向量的概念在自然语言处理的任务中,词向量(原创 2021-09-13 09:42:28 · 393 阅读 · 0 评论 -
九、N-gram语言模型
1.语言模型语言模型的作用是根据文本输入 ,计算文本内容是句子的概率。2 N-gram模型介绍2.1 语言模型概念如果我们有一个由m 个词组成的序列(或者说一个句子),我们希望计算句子的概率。根据链式规则,可得根据马尔可夫假设可得:2.2 N-gram模型简介N-gram模型是一种语言模型(Language Model,LM),语言模型是一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即这些单词的联合概率(joint probability)。原创 2021-09-08 10:15:14 · 5010 阅读 · 0 评论 -
八、朴素贝叶斯中文分类实战
1.朴素贝叶斯中文分类实战文本分类的流程如下图所示:朴素贝叶斯中文分类的目录结构中文分类的目录机构包括停用词文件、训练集文件和和测试集文件,具体内容如下图所示:2 数据准备与处理2.1 数据集介绍案例中使用的数据是一些新闻数据,每条数据包含了新闻类型和新闻标题。类型有以下四种:财经类、娱乐类、健康类和体育类。2.3 加载数据load_data函数的功能是读取训练数据和测试数据:titles_list和labels_list中分别存放文本标题和对应的标签信息。# 加载数据原创 2021-09-07 15:30:47 · 663 阅读 · 1 评论 -
七、朴素贝叶斯中文文本分类
1.朴素贝叶斯中文文本分类中文分词停用词朴素贝叶斯中文分类举例:新闻文档分类朴素贝叶斯中文分类的具体过程:加载停用词、中文分词、文本向量化、模型训练和保存、模型的加载和预测。2 中文分词2.1 中文的分词的作用在中文自然语言处理中,词是最小的能够独立活动的有意义的语言成分。汉语是以字为基本书写单位,词语之间没有明显的区分标记,因此进行中文自然语言处理通常是先将汉语文本中的字符串切分成合理的词语序列,然后再在此基础上进行其它分析处理。2.2 对文档分词常用的分词工具包括:jieb原创 2021-09-06 11:22:39 · 564 阅读 · 0 评论 -
六、朴素贝叶斯案例分析
1.朴素贝叶斯案例分析朴素贝叶斯案例分析的内容有:项目概述:屏蔽社区留言板的侮辱性言论项目实战:朴素贝叶斯案例的实现数据集信息朴素贝叶斯案例的数据包含6条样本,具体有3个正样本和3个负样本,标签0表示样本为正样本,标签为1表示样本为带有侮辱性的词汇。2 项目概述2.1 屏蔽社区留言板的侮辱性言论以在线社区的留言板为例。为了不影响社区的发展,要屏蔽侮辱性的言论。对此问题建立两个类别:侮辱类和非侮辱类,使用1和0分别标识.3 项目实战3.1 屏蔽社区留言板的侮辱性言论的具体原创 2021-09-02 10:05:43 · 1202 阅读 · 0 评论 -
五、朴素贝叶斯分类算法
1.朴素贝叶斯分类算法的基本内容:概率基础朴素贝叶斯分类器朴素贝叶斯的核心思想是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。2 概率基础2.1 随机变量的先验、条件、联合概率先验概率:事件发生前的预判概率。P(X)条件概率:一个事件发生后另一个事件发生的概率。P(X1lX2), P(X2lX1)联合概率:是指两个事件同时发生的概率。X=(X1,X2), P(X)= P(X1,X2)相关:P(X1,X2)= P(X2lX原创 2021-09-01 09:41:10 · 316 阅读 · 0 评论 -
四、自然语言处理的主要挑战
1.自然语言处理的主要挑战1.1 自然语言处理的主要挑战包括基本问题主要困难NLP的研究内容有5大难点:没有规律、自由组合、开放集合、知识依赖和上下文信息。2 NLP的基本问题2.1 基本问题之一:形态学习问题研究词有意义的基本单位——词素的构成问题单词的识别/汉语的分词问题词素:词根、前缀、后缀、词尾例如:人,老虎=老+虎,图书馆=图+书+馆2.2基本问题之二:句法问题研究句子结构成分之间的相关关系和组成句子序列的规则为什么一句话可以这么说也可以那么说?如何建立快速原创 2021-08-23 11:25:19 · 4432 阅读 · 1 评论 -
三、自然语言处理研究内容
1 自然语言处理的研究内容机器翻译和问答系统自动文摘和文档分类文字编辑和自动校对语音识别和语音合成2 机器翻译和问答系统2.1 机器翻译机器翻译(Machine Translation,MT):实现一种语言到另一种语言到自动翻译。应用:文献翻译、网页辅助浏览器等.代表系统:Google、百度、有道翻译等.机器翻译的前景非常广阔,包括文化、商贸、旅游等。2.2 问答系统通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动搜索答案并作出相应的回答。原创 2021-08-19 16:49:45 · 1938 阅读 · 0 评论 -
二、自然语言处理发展历程
1.自然语言处理发展历程自然语言处理的发展历程经历了兴起阶段、符号主义、连接主义和深度学习阶段。兴起阶段:自然语言处理的萌芽期,代表人物包括图灵和香农。符号主义:自然语言处理的发展器,代表任务是乔姆斯基和他的生成文法。连接主义:自然语言处理的发展器,代表方法为统计机器学习。深度学习:自然语言处理的鼎盛期,代表人物为深度学习三巨头:Yoshua Bengio、Yann LeCun、Geoffrey Hinton。2 兴起阶段2.1 致命密码:一场关于语言的较量**苏格兰女王玛丽能使用了原创 2021-08-19 16:32:32 · 4167 阅读 · 0 评论 -
一、自然语言处理概述
1.自然语言处理概述1.1 文本大数据的机遇和挑战语言是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具.人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上.中国互联网上有87.8%的网页内容是文本表示的.1.2 全世界网页数量正以指数速率增长中文网页检索的最高准确率不足40%。1.3 跨语言通讯和信息获取技术具有重要的用途随着社会全球化时代的到来,机器翻译市场潜力巨大;涉及的领域包括文化、商贸、旅游、体育等1.4 总结自然语言处理要解决的问原创 2021-05-31 16:29:16 · 1295 阅读 · 0 评论 -
自然语言处理之长短时记忆网络(六)
1. 情感倾向性分析长短时记忆网络的基本概念长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。LSTM网络结构LSTM的门控机制LSTM的变种2 LSTM网络结构2.1 LSTM网络结构及其特点基于RNN结构设计,从左到有依次阅读整个句子,并不断更新记忆。LSTM在不同cell之间传递的是2个记忆信息,而不像循环神经原创 2020-12-05 13:42:34 · 712 阅读 · 0 评论 -
自然语言处理之循环神经网络(五)
1. 时序模型1.1 时序模型的特点针对对象:序列数据。例如文本,是字母和词汇的序列;语音,是音节的序列;视频,是图像的序列;气象观测数据,股票交易数据等等,也都是序列数据。核心思想:样本间存在顺序关系,每个样本和它之前的样本存在关联。通过神经网络在时序上的展开,我们能够找到样本之间的序列相关性。1.2 时序模型的网络结构**时序模型的结构如图所示2 RNN概述2.1 RNN的发展历程早期:在20世纪八九十年代,RNN的核心思想是重新使用参数和计算。中期:除了LSTM外,RNN原创 2020-12-04 10:01:22 · 616 阅读 · 0 评论 -
自然语言处理之神经网络基础(四)
1.1神经网络的基本概念神经网络(neural network,NN),是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。前馈神经网络基础卷积神经网络卷积神经网络的文本分类3 前馈神经网络基础3.1 神经元一个神经元通常具有多个树突,主要用来接受传入信息;而轴突只有一条,轴突尾端有许多轴突末梢可以给其他多个神经元传递信息。轴突末梢跟其他神经元的树突产生连接,从而传递信号。这个连接的位置在生物学上叫做“突触”。3.2 前馈神经网络结构原创 2020-12-03 11:13:19 · 645 阅读 · 0 评论 -
自然语言处理之词向量模型(三)
1. 词向量模型1.1 实现词向量的挑战挑战一:如何把词转换为向量?自然语言单词是离散信号,比如“香蕉”、“橘子”、“水果”在我们看来就是3个离散的词。我们应该如何把离散的单词转换为一个向量。挑战二:如何相向量具有语义信息?我们知道,“香蕉”和“橘子”更加相似,而“香蕉”和“句子”就没有那么相似,同时,“香蕉”和“食物”,“水果”的相似程度,可能介于“橘子”和“句子”之间。那么,我们该如何让词向量具备这样的语义信息?词向量常见模型神经网络语言模型(NNLM)连续词袋模型(CBOW)Ski原创 2020-12-02 10:16:09 · 529 阅读 · 0 评论 -
自然语言处理之词向量技术(二)
1. 词向量技术词向量(word2vec)是一种表示自然语言中单词的方法,即把每个词都表示为一个N维空间内的点,即一个高维空间内的向量,通过这种方法,把自然语言计算转换为向量计算。词向量的基本内容包括:问题引入基于统计方法的词向量基于语言模型的词向量2 问题引入2.1 向量空间分布的相似性在计算机中表示词语时,当词语转换为向量之后,应保持词语之间在空间中具有相似性。2.2 向量空间子结构和目标词语的向量不仅能表示空间分布,还应保证空间子结构一直。词向量的最终目标是:词向量的表原创 2020-12-01 09:59:40 · 1393 阅读 · 0 评论 -
自然语言处理综述(一)
1. 自然语言处理的基本内容语言是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具。人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上,中国互联网上有87.8%的网页内容是文本表示的。问题的提出自然语言处理的基本概念自然语言处理的发展史2 问题的提出2.1 自然语言处理的作用全世界网页数量正以指数速率增长,中文网页检索的最高准确率不足40%。随着社会全球化时代的到来,机器翻译市场潜力巨大,文化、商贸、旅游和体育等各个行业都需要使用自然语言处理的技术原创 2020-11-30 09:52:10 · 1170 阅读 · 0 评论 -
深度学习——你应该掌握的数学知识
深度学习——你应该掌握的数学知识2.1 线性变换和非线性变换2.1.1 线性变化的定义线性变换是指具有如下性质的函数TTT: 对于向量u⃗&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;u→\vec{u}和v⃗&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;v→\vec{v原创 2018-07-10 10:47:55 · 12578 阅读 · 2 评论