
自然语言处理
文章平均质量分 70
Icy Hunter
如果我真的存在,也是因为你需要我
展开
-
LoRA:大模型的低阶自适用(使用BERT在IMDB数据集上运用LoRA微调)
论文链接本文将先介绍论文中的LoRA技术,然后以BERT为例在IMDB数据集上代码实现运用这项微调技术。代码+数据。原创 2024-04-16 08:53:30 · 2338 阅读 · 0 评论 -
BERT论文解读及情感分类实战
本文将先介绍架构和技术细节,然后介绍一个使用IMDB数据集情感分类的实战。IMDB数据集分为25000条训练集和25000条测试集,是情感分类中的经典公开数据集使用BERT模型进行情感分类,测试集准确率达到93%原创 2024-04-09 23:23:22 · 1621 阅读 · 0 评论 -
适合多种语言的BPE(Byte-Pair Encoding)编码
因为最近在看T5,里面讲到一些分词的方法如BEP,因为现在都是在玩大模型,那么语料也就都很大,而且还需要适配不同的语言,而不同的语言又不一定像英文那样按空格切分就行,例如咱们的中文,所以就需要一些适用性更广的方法了。原创 2024-01-21 12:34:55 · 617 阅读 · 0 评论 -
使用jieba对新闻标题进行切词,然后使用word2vec训练词向量及相似词计算的一个小例子
这个主要是我想记下来方便以后用的时候好直接copy这个例子就是跑流程的,里面的参数都是随便设的,效果不怎么好,但是流程总得跑通吧。首先是停用词表见https://blog.youkuaiyun.com/qq_52785473/article/details/122639365?spm=1001.2014.3001.5502然后是数据2022-1-21-21.csv文件如下(例子里就使用了新闻标题):时间,新闻标题,URL,新闻内容(01月21日 00:03),30万股民沸腾!5家中企获准免费仿制新冠口服药,原创 2022-01-22 17:38:20 · 784 阅读 · 0 评论 -
利用递归层次遍历句法结构树(Stanfordcorenlp及nltk)
在自然语言处理中,处理句法结构树是比较常见的处理问题,如何对句法结构树进行遍历,以及如何抽取出其中的层次关系,是值得去深究的。本文将从Stanfordcorenlp的句法结构树和nltk中的Tree的数据结构入手,进行对句法结构树的层次遍历,抽取出句子中所包含的句法的层次结构。首先需要安装Stanfordcorenlp(请自行优快云),然后安装nltk(pip一下就可以用其中的Tree模块了)上代码from stanfordcorenlp import StanfordCoreNLPfrom n原创 2021-10-20 17:07:45 · 1053 阅读 · 1 评论