
NLP实战
文章平均质量分 66
NLP实战系列
ToTensor
AI算法工程师
Qwen-WisdomVast (千问-智瀚)、Llama3-Chinese作者
公众号:AI算法之门
Github:https://github.com/seanzhang-zhichen
展开
-
使用自己的领域数据扩充baichuan模型词表(其他模型也一样)
总的来说,扩充词表可以加快解码速度,对于对中文支持不太友好的模型(如llama),扩充词表还能提升模型在中文的表现。原创 2023-08-19 14:54:06 · 1053 阅读 · 0 评论 -
句向量模型之SimCSE——Pytorch
SimCSE模型主要分为两大块,一个是无监督的部分,一个是有监督的部分。整体结构如下图所示:论文地址:大道至简全部代码已上传至Github, 链接:数据集:提取码: hlva。原创 2022-10-01 16:28:03 · 4337 阅读 · 1 评论 -
TextCNN文本分类Pytorch
文章目录前言一、环境:二、数据:三、模型结构四、主要代码1.word2id与id2word2.word2vec3.加载word2vec总结前言之前写了一篇Fasttext文本分类的文章,三个类别的准确率达到90+%,这篇文章主要是想测试一下TextCNN在文本分类任务上的效果,与fasttext对比,孰优孰劣。代码已上传至GitHub:TextCNN文本分类一、环境:torch==1.9.0gensim==3.8.3其他的缺啥装啥吧gensim4.x版本与3.x版本有些参数名变了,报错.原创 2021-09-07 23:10:18 · 4142 阅读 · 2 评论 -
fasttext文本分类
文章目录前言一、环境二、数据处理三、训练总结前言fastText是Facebook Research在2016年开源的一个词向量及文本分类工具,今天这篇文章主要使用fasttext在来做文本分类,测试fasttext用于分类的实际效果。本文所使用的数据及代码均已上传至GitHub传送门: fasttext_classify一、环境python3.8fasttext-0.9.2tqdm在windows上安装fasttext得去https://www.lfd.uci.edu/~gohlk.原创 2021-08-28 16:32:36 · 1937 阅读 · 2 评论 -
Pytorch Bert+BiLstm文本分类
文章目录前言一、运行环境二、数据三、模型结构四、训练五、测试及预测前言昨天按照该文章(自然语言处理(NLP)Bert与Lstm结合)跑bert+bilstm分类的时候,没成功跑起来,于是自己修改了一下,成功运行后,记录在这篇博客中。一、运行环境python==3.7pandas==1.3.0numpy==1.20.3scikit-learn==0.24.2torch==1.9.0transformers==4.8.2二、数据1、Bert下载地址bert-base-chinese.原创 2021-07-18 16:32:38 · 12715 阅读 · 38 评论 -
wordcloud词云基本使用
完整代码import jiebaimport imageioimport wordcloudimport matplotlib.pyplot as plt# pip install wordcloud# pip install imageio# pip install jieba# pip install matplotlibdata = '简单地说,自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等原创 2021-07-10 10:39:27 · 278 阅读 · 0 评论 -
对于PyTorch中的torch.gather()的理解
label: tensor([[100, 101, 102, 103, 104, 105, 106, 107, 108, 109], [100, 101, 102, 103, 104, 105, 106, 107, 108, 109], [100, 101, 102, 103, 104, 105, 106, 107, 108, 109], [100, 101, 102, 103, 104, 105, 106, 107, 108, 109]])原创 2021-06-13 23:39:01 · 292 阅读 · 3 评论 -
paddleocr简单使用
最近paddleocr开源了,简单上手试了下,效果很不错,话不多说,直接上代码,欢迎大家食用code# -*- coding: utf-8 -*-import cv2import paddlehub as hubclass OCRModel: def __init__(self, file_name ): ''' file is an image ''' self.file_name = file_name原创 2021-05-29 11:54:26 · 887 阅读 · 0 评论 -
FAQ式问答系统
FAQ式问答系统最终效果:系统架构项目描述对话系统(Dialogue Systems)又可以称之为聊天机器人(ChatBot),主要是实现自动与用户进行对话的功能。帮助用户完成某些具体的任务(下单、打车、订座等)的对话系统可以称之为任务导向型(Task-oriented)的对话系统;解答用户的某些问题(询问天气、股价、交通等)的对话系统可以称之为问答型(QA-based)的对话系统;除此之外,还有和用户聊天的闲聊型(Chatting) 对话系统。大多数的对话系统都是混合了几种类型的功能。对话系原创 2021-04-26 17:43:37 · 4444 阅读 · 8 评论 -
基于BiLSTM+CRF的信息抽取模型
用BiLSTM+CRF模型抽取信息模型架构借用一张别人的图,bilstm+crf的具体原理可以参考链接bilstm+crf数据格式一、label2idB表示begin,M表示middle,E表示End分别表示实体的开始位置,实体的中间部分,实体的结束位置训练集、验证集、测试集格式:话不多说,直接上代码数据处理部分from codecs import openimport osdef build_corpus(split, make_vocab=True, data_dir='原创 2021-04-22 12:22:48 · 9688 阅读 · 78 评论