
自然语言处理
许野平
非常喜欢软件设计这份工作,有不错的数学基础,喜欢读书、摄影与音乐。
展开
-
SD(Stable Diffusion)模型的基本工作数据流
SD模型的基本工作数据流包括数据预处理、潜在空间编码、文本引导下的潜在空间生成、扩散模型生成图像、图像解码以及图像优化与后处理。这些步骤共同构成了SD模型从文本描述到图像生成的完整过程。通过这个过程,SD模型能够生成与输入文本高度匹配的高质量图像。原创 2024-09-25 12:39:55 · 1183 阅读 · 0 评论 -
与GPT聊天,我发现中文根本不需要什么语法
原创 2024-01-25 09:58:38 · 480 阅读 · 0 评论 -
Python 下中文分词算法的简单示例
Python 下中文分词算法的简单示例。原创 2023-06-02 14:13:18 · 422 阅读 · 0 评论 -
构建seq2seq模型的常见问题
构建seq2seq模型的常见问题。原创 2023-05-28 14:59:09 · 1428 阅读 · 0 评论 -
利用 Pytorch 加载词向量库文件
加载词向量两以及使用词向量的例子。原创 2023-05-27 13:18:22 · 1315 阅读 · 0 评论 -
词向量文件格式
表示“apple”这个单词被表示为一个300维的向量,向量中第1个元素为0.1,第2个元素为-0.2,以此类推。词向量文件是一种将文本中的词语或字符表示为向量的方式,它通常用于自然语言处理任务中。在词向量文件中,每个词或字符都被表示为一个向量,而这些向量则被组织成一个矩阵。第二行:文件中所包含的词汇量和向量维度数,通常是用空格分隔,例如“100000 300”表示该文件中包含10万个词,每个词用300维向量来表示。需要注意的是,不同的词向量模型可能有不同的格式要求,但一般遵循上述的基本格式。原创 2023-05-22 19:38:08 · 281 阅读 · 0 评论 -
word2vec、GloVe、LSA算法的共同特点和区别和优缺点
Word2vec是一种基于神经网络的模型,它通过训练一个前馈神经网络,学习到词汇在向量空间上的表示。GloVe是一种基于全局统计信息和矩阵分解的模型,它通过对整个语料库中的词汇共现矩阵进行矩阵分解,得到词汇的向量表示。LSA是一种基于奇异值分解的模型,它将所有词汇表示为文档-词矩阵的奇异值分解结果。Word2vec和GloVe具有更好的扩展性,而LSA的计算量较大。Word2vec、GloVe和LSA都是常见的词向量表示算法,它们的共同点是都是将词汇表示为低维空间向量,并用这些向量来描述词汇之间的关系。原创 2023-05-19 11:07:46 · 599 阅读 · 0 评论 -
公开的中文语料库有哪些?
中文情感分析数据集ChnSentiCorp:包含正面、负面和中性情感的中文文本数据,适用于情感分析任务。开放中文词库OpenCC:提供包括简体中文、繁体中文和粤语在内的多种语言版本的中文分词和转换词库。以上仅是一部分常用的公开中文语料库,还有其他一些数据集如人民日报、新华社、搜狗实验室等也值得关注。中文Gigaword数据集:包含新闻、杂志和网页等语料,适用于自然语言处理任务。THUCTC中文文本分类数据集:包含20个分类别的中文文本,适用于文本分类任务。中文维基百科:包含大量的中文文章,非常全面和丰富。原创 2023-05-17 14:27:46 · 2156 阅读 · 0 评论 -
LSA 算法中,如何根据奇异分解矩阵U和S计算文档的潜在语义向量的?
在LSA算法中,可以使用奇异值分解(Singular Value Decomposition,简称SVD)将文档-词项矩阵分解为三个矩阵的乘积,即。在LSA算法中,通过对SVD分解结果中的矩阵U进行截断,只保留其中的前k个主题向量,则可以得到一个新的文档-主题矩阵。,其中U是m×r的文档-主题矩阵,S是r×r的奇异矩阵,而V是n×r的词项-主题矩阵。文档的潜在语义向量在这个新的文档-主题矩阵中的表示,即为其在这个矩阵的第i行,因此,可以通过构建SVD分解矩阵U和文档-词项矩阵D,计算文档潜在语义向量。原创 2023-05-17 14:19:36 · 382 阅读 · 0 评论 -
词向量语义匹配:欧氏距离和余弦相似度,选择哪一个?
最近做自然语言处理算法,需要根据词向量判断两个词汇的相似度。面临两个选择:欧氏距离和余弦相似度。选择哪一个好呢?原创 2023-03-08 11:41:42 · 1668 阅读 · 0 评论 -
阅读笔记:TF - IDF 原理
今天查阅 TF-IDF 资料,发现百度百科里面提供了一个例子,解释的很清楚,记下来备用。原创 2023-03-04 17:32:36 · 742 阅读 · 0 评论 -
我发现 chatGPT 在智能客服方面一个逆天的应用呀
chatGPT 有助于快速构建知识库,想了一个有趣的例子,感觉 chatGPT真是强大呀!原创 2023-02-02 11:37:27 · 898 阅读 · 0 评论 -
ChatGPT 逆天测试,结局出乎预料
问几个逆天的问题,看看能否把 ChatGPT 逼疯。结果出乎预料,震惊呀!原创 2023-01-31 12:40:12 · 7911 阅读 · 0 评论 -
word2vec 的本质
午夜昏睡的时候,忽然想到 word2vec 的本质,其实很简单。理解了其本质,可以组合出各种具体的方案出来。原创 2021-01-23 09:00:11 · 186 阅读 · 0 评论 -
word2vec技术通俗易懂的解释
word2vec思路很简单,我觉得网上很多介绍都弄得太复杂、太细节化了,下面说说我的看法。1. 数学模型word2vec说白了就是一个映射:word→Fvec(1)\tag1 word \stackrel{F} \to vec word→Fvec(1)那么word、vec、F 如何定义呢?word 采用 one-hot 编码,如果一种语言有 m 个单词的词汇量,这个就是一个 m 维向量。感觉这个向量是不是块头很大?如何提升效率不是本文要解决的问题,我们还是把原理先弄明白吧。vec 是普通的原创 2021-01-22 15:48:02 · 555 阅读 · 0 评论 -
授课点评:“自然语言处理概述”试讲
随着故事情节起起伏伏的推进,课程最后要掀起一个高潮,要让大家眼前一亮,感到豁然开朗,感觉从这节课学到了以前从未考虑到的新的思想、新思路,感到脑洞大开。自然语言处理领域成果很多,为我们的课程提供的丰富的素材,如何从这个思想的宝库中挖掘素材,掀起本节课程的高潮?这是本节课的关键。您觉得接下来该如何组织内容呢?原创 2020-11-17 18:59:48 · 678 阅读 · 1 评论 -
人机对话系统为什么这么难?
人与人之间的交流,主要依靠自然语言。人工智能时代,人们自然希望与机器之间的交流,也能通过自然语言进行。然而实践表明,这个目标技术难点很多,问题比想象的复杂多了。这两年,市场上出现很多对话机器人、对话音箱、语音助理之类的产品,大部分表现不佳。经常听到老百姓用“人工智障”来形容这些表现较差的机器人产品。为什么人类司空见惯的自然语言交流看起来那么简单,用于人机交互就那么困难呢?下面我们具体讨论一下。原创 2020-03-31 19:05:01 · 2520 阅读 · 0 评论 -
Watson Explorer 入门(13):配置中断规则
可以配置中断规则词典,指示内容分析工作室如何标记文档中的文本。中断规则决定内容分析工作室如何在文档的词法分析中将文档拆分为段落、句子和标记。标记是文本的基本单位,如单词、标点符号、数字或一串符号。例如,中断规则可以指示是否将每一行文本视为新段落。大多数将文档拆分为组件的规则是标准的,通常不需要配置。但是,您可能需要根据文档结构和您的首选项来配置一些规则。例如,内容分析工作室将字母的顺序如“2.5cm原创 2017-05-13 18:28:53 · 668 阅读 · 0 评论 -
文本特征抽取的向量空间模型(VSM)和TF/IDF方法
文本特征抽取由两组小说,一组是爱情的,另一组是科幻的。我们能否用支持向量机训练一个模型,用来识别小说类型呢?这个并不容易。因为支持向量机这类机器学习算法只能接受数学里面的向量作为输入。如果用它来做文本分类,必须先把文本转化成向量才行。这就是涉及到一个很重要的话题,如何把文本转化成向量?把文本转化成数学模型,是用数学方法处理文本的先决条件,这个过程成为文本特征抽取。向量作为一种基本的数学模型,是文本特原创 2017-05-06 16:50:39 · 20731 阅读 · 1 评论 -
Watson Explorer 入门(12):词典
自定义词典自定义词典包含了一个项目清单,这些项目用于特殊的知识领域和相关信息。例如,自定义字典可能包含世界上的城市列表和其他信息,如每个城市的纬度和人口。附加信息称为特征。稍后可以在创建的分析规则中使用这些功能。词条还可以有选择性的表面形式,如词形变化和同义词。例如,在人名称词典中“医生”一词可能有另一种形式Dr。创建词典数据库时,可以使用一个词形查找字典,帮我们自动完成添加词条的词形变化。除了创建原创 2017-05-13 18:18:17 · 1160 阅读 · 0 评论 -
Watson Explorer 入门(11):配置词典和规则
您可以创建语言资源,如字典和规则,包括在你的UIMA的管道分析文本和感兴趣的项目中,如姓名的城市。大多数语言资源的源数据存储在数据库中。每个数据库是建立在编译文件中可以使用UIMA管道分析文本和感兴趣的项目注释。每当更新资源时,必须在数据库使用更新的资源分析文档之前,从数据库中重新编译其已编译的文件。您可以通过导出数据库备份数据库。如果需要,可以从导出的数据库内容创建数据库,例如将数据库复制到另一台原创 2017-05-13 17:06:51 · 728 阅读 · 0 评论 -
浅析K均值聚类和EM最大期望算法本质
有时候需要琢磨算法为什么奏效?背后到底有什么原因?什么时候算法会失效?这些问题都搞明白了,才算真正理解了算法。这里我想探讨一下K均值和EM算法背后深层的东西。 如果把来自不同样本类型的两组数据样本混在一起,比如男人身高和女人身高调查数据,能不能把混在一起的数据分开?K均值聚类算法迈出了非常精彩的第一步,基本思路是寻找两个类别的聚点中心。K均值聚类的特点 首先随机给出两个聚点中心的原创 2016-08-19 10:44:39 · 3638 阅读 · 0 评论 -
自然语言处理:盘点一下数据平滑算法
在自然语言处理中,经常要计算单词序列(句子)出现的概率估计。我们知道,算法在训练时,语料库不可能包含所有可能出现的序列。因此,为了防止对训练样本中未出现的新序列概率估计值为零,人们发明了好多改善估计新序列出现概率的算法,即数据平滑算法。Laplace 法则 最简单的算法是Laplace法则,思路很简单,统计测试数据集中的元素在训练数据集中出现的次数时,计数器的初始值不要设成零,而是设原创 2016-08-13 11:02:40 · 12875 阅读 · 0 评论 -
隐马尔可夫模型求解三大问题实例剖析
自然语言处理技术离不开隐马尔可夫理论。看了书中几个例子,我已经头晕眼花了。仔细研究后把思路整理一下,画成简单的示意图,希望能帮助大家理解。 模型实例 假设 S 是天气状况的集合,分别是“晴天”、"多云"、“下雨”, 其初始概率分布为, 晴天 多云 下雨 0.63 0.17 0.20 其状态转移概率矩阵为: - 晴 阴 雨 晴 0.500原创 2016-08-18 16:15:15 · 24241 阅读 · 3 评论 -
知识表示理论
知识表示是对原始问题简化表示的一种抽象方法。定义如下 定义1 知识表示是知识保持运算特性的映射。同态映射和同构映射 在知识表示中,常用到两种重要映射:同态和同构。同态是对问题表示的一种简化,同构可以改变问题的表示方法。 设有两个问题 P1=(Q1,F1)P_1=(Q_1,F_1) 和 P2=(Q2,F2)P_2=(Q_2,F_2),其中 Q1Q_1 和 Q2Q_2 分别是问题原创 2016-09-27 10:49:27 · 1817 阅读 · 0 评论 -
常用知识表示方法
知识表示方法是研究系统中知识的组织形式,强调表示和控制之间的关系,表示与推理及其他研究领域的知识。知识表示与问题的性质和推理控制策略有密切的关系。任何一个给定的问题都有许多等价的表示方法,但他们可产生完全不同的效果。目前只是表示方法有状态空间、与或图、为此逻辑、产生式规则、语义网络、框架、剧本等。参考文献[1] 刘培奇,新一代专家系统开发技术及应用,西安电子科技大学出版社,2014年1原创 2016-09-27 17:09:02 · 20008 阅读 · 0 评论 -
为什么使用计算机处理自然语言如此困难?
知识储备不足,造成计算机难以处理自然语言 对于人类来说,不需要经过什么专门的训练,就可以下意识地学会使用语言。因此,很多人认为,让计算机学会自然语言也很容易。但实际上并非如此,究其原因,计算机能够使用自然与语言需要解决三个问题: 一、理解人类的语言; 二、针对所理解的内容,生成反馈内容; 三、用人类的自然语言表达反馈内容。 人类的语言存在歧义性,而歧义性带来的影响始终贯穿在这三个阶原创 2017-02-04 14:23:51 · 5158 阅读 · 0 评论 -
Watson Explorer 入门(4):内容分析工作室(Studio)使用方法
内容分析工作室是一个开发环境,用来构建和测试应用领域的的文本分析引擎。这个环境,消除了对自然语言处理或UIMA的底层技术需要专业知识。通过使用内容分析工作室,您可以开发文本分析引擎,而无需编写任何代码。您可以使用内容分析工作室进行以下任务:在字典中建立语言和特定领域术语。 开发字符规则来识别表示特定类型信息的字符的模式,如电话号码或电子邮件地址。开发分析规则来识别表示特定概念的文本模式,例如人原创 2017-04-28 15:32:44 · 1608 阅读 · 0 评论 -
Watson Explorer 入门(5):配置内容分析工作室(Studio)
在你开发内容分析工作室UIMA的管道,你必须创建一个项目来存储相关的语言资源。您还可以配置连接到沃森资源管理器内容分析服务器,并配置源代码管理系统来管理您的内容分析工作室资源。在利用内容分析工作室开发UIMA管道之前,必须创建一个项目保存语言资源。还可以配置与Watson Explorer 内容分析服务器的连接,配置一个源控制系统管理内容分析服务器资源。进行配置之前,必须首先配置与Watson Ex原创 2017-04-28 16:05:08 · 971 阅读 · 0 评论 -
Watson Explorer 入门(6):开发和部署UIMA管道
内容分析工作室使用UIMA的分析文件和记录结果为一组注释。UIMA的管道是一个序列的一个或多个注释阶段,逐次运行。每个注释可以添加或修改从以前的注释阶段构建文档的更详细的分析结果。一个内容分析工作室UIMA的管道主要包括四个阶段这些代码在数据驱动的方式设计,以便用户可以提供语言和特定领域的资源为目标域自定义管道。。文档语言(Document language) 首先管道会识别要处理的文档使用那种原创 2017-04-28 18:44:59 · 830 阅读 · 0 评论 -
华为李航:NLP 有 5 个基本问题,深度学习有4个做得很好
对于自然语言理解,有两种定义。第一种是计算机能够将所说的语言映射到计算机内部表示;另一种是基于行为的,你说了一句话,计算机做出了相应行为,就认为计算机理解了自然语言。后者的定义,更广为采用。为什么自然语言理解很难?其本质原因是语言是一种复杂的现象。自然语言有5个重要特点,使得计算机实现自然语言处理很困难:语言是不完全有规律的,规律是错综复杂的。有一定的规律,也有很多例外。因为语言是经过上万年的时间转载 2017-04-19 14:23:15 · 1933 阅读 · 0 评论 -
Watson Explorer 入门(2):创建集合(Collection)
ETL 与集合(Collection)非结构化数据分析,和传统的结构化数据分析有不少相似的地方。第一步,我们需要把原始数据导入到 Watson Explorer 中。这个步骤在传统的数据分析中称为ETL。 ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较原创 2017-04-21 15:18:26 · 1375 阅读 · 0 评论 -
Watson Explorer 入门(9):导出 UIMA 管道
在Watson Explorer Studio 中创建、配置和测试 UIMA 管道后,你可以把管道导出为PEAR文件,直接安装到Watson Explorer内容分析服务器,作为一种系统的文本分析引擎关联到一个或多个集合。您还可以导出管道到解决方案在沃森资源管理器的内容分析集合,是基于一个解决方案包,或出口管道域自适应搜索。导出 PEAR 文件时,需要指定如何把 UIMA 的类型和特性映射到原创 2017-05-03 22:55:33 · 645 阅读 · 0 评论 -
Watson Explorer 入门(10):导出 UIMA 管道至域适配搜索
可以为领域适配搜索的目的导出 UIMA 管道,以便依据查询上下文和领域知识生成相应的查询。基于在UIMA管道中配置的规则,Watson Explorer 内容分析搜索器会修改原始的查询,声称推荐的查询,并组织搜索结果。在开始之前在把领域适配搜索UIMA管道导出到Watson Explorer内容分析服务器之前,必须先配置 Watson Explorer 内容分析服务器连接文件。原创 2017-05-13 16:00:15 · 868 阅读 · 0 评论