bullnfresh-优快云博客

原创神经网络语言模型(NNLM)的原理与实现

在NLP中，用来判断一句话是否符合正确的语法，广泛应用于信息检索、等重要任务中。），虽然可解释性强、易于理解，但存在泛化能力差等问题。随着深度学习技术的发展，相关技术也应用到语言模型中，如神经网络语言模型(Neural Network Language Model模型)。

2025-05-07 07:03:46 1308

原创基于Transformer模型的音-字转换及代码实现

Transformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型，现在比较火热的 Bert 也是基于 Transformer。Transformer 模型使用了 Self-Attention 机制，不采用 RNN 的顺序结构，使得模型可以并行化训练，而且能够拥有全局信息。

2024-08-04 10:15:57 395 1

Transformer 与 RNN 不同，可以比较好地并行训练。Transformer 中 Multi-Head Attention 中有多个 Self-Attention，可以捕获单词之间多种维度上的相关系数 attention score。由于 self-attention 没有循环结构，Transformer 需要一种方式来表示序列中元素的相对或绝对位置关系。Position Embedding (PE) 就是该文提出的方案。

2024-08-04 07:07:52 1120

原创基于朴素贝叶斯/逻辑回归的垃圾邮件文本分类

本文进行文本分类任务的中文邮件数据来源于由国际文本检索会议提供一个公开的垃圾邮件语料库，点我下载。分为英文数据集（trec06p）和中文数据集（trec06c），其中所含的邮件均来源于真实邮件，并且还保留了邮件的原有格式（包括发送方、接收方、时间日期等等）和邮件中文内容。第二个链接即是中文文本的邮件数据集，点击链接即可下载。下载的压缩文件夹中，一个文件代表一封邮件，通过标签“spam”、“ham”进行区别是否垃圾邮件。“spam”表示是垃圾邮件，有4万多条。“ham”表示是正常邮件，有2万多条。

2024-08-02 12:41:05 2344 1

原创使用爬虫爬取微博评论

Step2：打开一条微博_https://m.weibo.cn/detail/4907031376694279_Step3：URL地址中的_49070__31376694279_就是需要爬取的微博ID。Step1：电脑访问手机端微博_https://m.weibo.cn/_Step4：将ID填写到_main_下即可，也支持同时填写多个。

2024-08-02 07:59:58 986

原创 Pytorch实现聊天机器人

它的缺点是流程不受人(开发者)控制，在严肃的场景(比如客服)下使用会有比较大的风险，而且需要大量的对话数据，这在很多实际应用中是很难得到的。因此目前seq2seq模型的对话系统更多的是用于类似小冰的闲聊机器人上，最近也有不少论文研究把这种方法用于task-oriented的任务，但还不是太成熟，在业界还很少被使用。这种方法的缺点是比较死板，如果用户的意图在设计的流程之外，那么就无法处理，而且对话的流程也一般比较固定，要支持用户随意的话题内跳转和话题间切换比较困难。

2024-07-27 10:09:45 391

原创基于LSTM的IMDB影评情感分析

通过加载已经经过预处理的文本来生成每个样本的文本与标签。# 定义Datasetself.text_with_tag = file.readlines() # 文本标签与内容def __getitem__(self, index): # 重写getitemline = self.text_with_tag[index] # 获取一个样本的标签和文本信息label = int(line[0]) # 标签信息text = line[2:-1] # 文本信息。

2024-07-18 06:08:31 739

原创 BiLSTM+CRF实现命名实体识别

本文使用CLUE Fine-Grain NER中文数据集，数据分为10个标签类别，分别为: 地址（address），书名（book），公司（company），游戏（game），政府（goverment），电影（movie），姓名（name），组织机构（organization），职位（position），景点（scene）。命名实体识别（Named Entitie Recognition，NER）是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术中必不可少的组成部分。

2024-07-08 09:34:41 1475 1

原创基于BP神经网络实现鸢尾花的分类

首先了解下Iris鸢尾花数据集：Iris数据集（https://en.wikipedia.org/wiki/Iris_flower_data_set）是常用的分类实验数据集，由Fisher,1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据集，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。

2024-07-08 06:19:51 2156 2

原创基于 N-gram语法的文本生成

N-gram是自然语言处理中的一种文本建模技术，用于对文本数据进行分析和生成。它是一种基于n个连续词语或字符的序列模型，其中n表示n-gram的大小。通常，n的取值为1、2、3等。Unigram（1-gram）：一个单词或一个字符为一个单位。例如，“I”, “love”, “Python”。Bigram（2-gram）：两个相邻的单词或字符为一个单位。例如，“I love”, “love Python”。Trigram（3-gram）：三个相邻的单词或字符为一个单位。

2024-07-07 19:55:10 1172

原创用Word2Vec建立你的私人购物助手

老实说，你在亚马逊上有注意到网站为你推荐的内容吗（Recommended for you部分)? 自从几年前我发现机器学习可以增强这部分内容以来，我就迷上了它。每次登录Amazon时，我都会密切关注该部分。Netflix、谷歌、亚马逊、Flipkart等公司花费数百万美元完善他们的推荐引擎是有原因的，因为这是一个强大的信息获取渠道并且提高了消费者的体验。让我用一个最近的例子来说明这种作用。我去了一个很受欢迎的网上市场购买一把躺椅，那里有各种各样的躺椅，我喜欢其中的大多数并点击了查看了一把人造革手动躺

2022-05-20 19:44:23 681

原创利用Bert进行关系抽取

Bert模型是谷歌2018年10月底公布的，反响巨大，效果不错，在各大比赛上面出类拔萃，它的提出主要是针对word2vec等模型的不足，在之前的预训练模型（包括word2vec，ELMo等）都会生成词向量，这种类别的预训练模型属于domain transfer。而近一两年提出的ULMFiT，GPT，BERT等都属于模型迁移，说白了BERT 模型是将预训练模型和下游任务模型结合在一起的，核心目的就是：是把下游具体NLP任务的工作逐渐移到预训练产生词向量上。...

2022-05-12 08:02:43 5700 2

原创基于BERT模型的知识库问答(KBQA)系统

一、介绍本项目的主要目标是构建一个公共的知识库问答系统，从用户所提出的问题，对知识库进行检索，返回一个确定的答案，或者没有答案。项目代码、数据在这个地址中：链接: https://pan.baidu.com/s/1HvdVIvYIrvDaRBDl5p1oUw 提取码: a917本项目所使用的数据集是已经被预处理好的三元组，有两个文件 nlpcc-iccpol-2016.kbqa.training-data，nlpcc-iccpol-2016.kbqa.testing-data，文件内容样式：二

2022-05-09 22:20:24 4716 5

原创搭建基于GMM-HMM的嵌入式命令词识别系统

一、准备首先明确这是一个基于GMM-HMM的嵌入式命令词识别系统，它和基于GMM-HMM的孤立词识别系统有很大不同，孤立词识别系统的很好的一个参考文章是这篇，下面将简要介绍两个模型的区别，图和说明都是为了表述而简化的概念性版本，和我们实际操作的细节会有一些区别。简要地说，孤立词的GMM-HMM模型是每个需要识别的词对应一个GMM-HMM，如图所示：假设我们需要识别的词包括“前进”、“后退”、“左转”、“右转”，那么我们就会建立四个模型，每个模型对应其中的一个词，模型训练的时候，每个词的音频就用来

2022-05-09 20:23:31 1277

原创 python+keras实现语音识别

市面上语音识别技术原理已经有很多很多了，然而很多程序员兄弟们想研究的时候却看的头大，一堆的什么转mfcc，然后获取音素啥的，对于非专业音频研究者或非科班出生的程序员来说，完全跟天书一样。最近在研究相关的实现，并且学习了keras和tensorflow等。用keras做了几个项目之后，开始着手研究语音识别的功能，在网上下载了一下语音的训练文件，语料和代码已上传到了：链接: https://pan.baidu.com/s/1dDL4kRydXXuwUFjRD53cYw 提取码: elkr目录如下，文件夹名

2022-05-09 14:36:38 2439 3

原创利用LDA主题模型提取京东评论并做情感分析

网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品和购物，产生了海量的用户行为数据，其中用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化的数据，将有利于企业在电商平台上的持续发展，对这部分数据进行分析，依据评论数据来优化现有产品也是大数据在企业经营中的实际应用。本章主要针对用户在电商平台上留下的评论数据，对其进行分词、词性标注和去除停用词等文本预处理。基于预处理后的数据进行情感分析，并使用LDA主题模型提取评论关键信息，了解用户的需求、意见、购买原因，以及产品的优缺点，

2022-05-09 11:03:53 25868 23

原创 TF-IDF算法提取文本关键词

TF-IDF是用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF（Term Frequency）词频，某个词在文章中出现的次数或频率，如果某篇文章中的某个词出现多次，那这个词可能是比较重要的词，当然，停用词不包括在这里。IDF（inverse document frequency）逆文档频率，这是一个词语“权重”的度量，在词频的基础上，如果一个词在多篇文档中词频较低，也就表示这是一个比较少见的词，但在某一篇文章中却出现了很多次，则这个词IDF值越大，在这篇文章中的“权重”越大。所以

2022-05-09 09:41:28 5049 1

原创朴素贝叶斯算法新闻文本分类

新闻数据有20个主题，有10万多篇文章，每篇文章对应不同的主题，要求是任意输入一篇新的文章，模型输出这篇文章属于哪个主题。一、算法原理1. 朴素贝叶斯方法朴素贝叶斯方法涉及一些概率论知识，我们先来复习一下。联合概率：包含多个条件，并且所有的条件同时成立的概率，公式为：P(AB)=P(A)*P(B)条件概率：事件A在另一个事件B已经发生的前提下发生的概率，记作P(A|B)，如果有多个条件，那记作：P(A1,A2|B)=P(A1|B)*P(A2|B)朴素贝叶斯一般公式：P(A|B)

2022-05-08 21:21:43 2881

原创安装anaconda、NLTK和jieba

一、安装Anaconda1. Anaconda的官网下载地址下载：官网地址或者清华大学镜像站（更快）。2.Anaconda安装步骤2.1 进入官网，点击Download.2.2选择自己电脑合适的版本进行下载。2.3 按照自己的下载路径找到安装程序，并点击该安装程序进行安装2.4 这是欢迎界面，点击下一步，即Next2.5点击I Agree，即同意Anaconda的协议，才能使用Anaconda2.6这里！由于我之前安装了Python3.8,所以出现了.

2022-05-07 09:14:40 3699

原创正向/逆向最大匹配法分词实现

最大匹配法：最大匹配是指以词典为依据，取词典中最长单词为第一个次取字数量的扫描串，在词典中进行扫描（为提升扫描效率，还可以跟据字数多少设计多个字典，然后根据字数分别从不同字典中进行扫描）。例如：词典中最长词为“中华人民共和国”共7个汉字，则最大匹配起始字数为7个汉字。然后逐字递减，在对应的词典中进行查找。下面以“我们在野生动物园玩”为例详细说明一下正向与逆向最大匹配方法：1、正向最大匹配法：正向即从前往后取词，从7->1，每次减一个字，直到词典命中或剩下1个单字。第1次：“我们在野生动物

2022-04-23 20:19:03 4434 3

原创用Pandas进行数据清洗

Pandas 是 Python 中很流行的类库，使用它可以进行数据科学计算和数据分析，并且可以联合其他数据科学计算工具一块儿使用，比如，SciPy，NumPy 和Matplotlib，建模工程师可以通过创建端到端的分析工作流来解决业务问题。虽然我们可以 Python 和数据分析做很多强大的事情，但是我们的分析结果的好坏依赖于数据的好坏。很多数据集存在数据缺失，或数据格式不统一（畸形数据），或错误数据的情况。不管是不完善的报表，还是技术处理数据的失当都会不可避免的引起“脏”数据。庆幸的是，Pandas 提供功

2022-04-16 07:29:09 8338

原创使用爬虫爬取结构化数据百度学术

一、非结构化文本的爬取微博上有一篇关于“#学校里的男生有多温柔#”的话题，点进去一看感觉评论很真实，于是想把评论给爬下来看一看，并生成词云。刚开始思路是通过网页端微博爬取，通过开发者工具查看分析后，发现并没有看到相关评论。百度搜索之后得知web做了一些反爬虫策略，不太容易爬取（踩了相当时间的坑）。但是微博手机端相对容易些，于是转战手机端获取该评论链接，然后使用谷歌浏览器登录该链接，一阵分析后，发现评论是隐藏在这里的，于是获得了相应的url为“https://m.weibo.cn/comments/h

2022-04-10 08:56:10 7108 1

bullnfresh的专栏