
深度学习
Shy960418
这个作者很懒,什么都没留下…
展开
-
loRA微调LLMs实战代码
【代码】loRA微调LLMs实战代码。原创 2025-03-10 10:27:04 · 283 阅读 · 0 评论 -
Doc2Vec句子向量
转载自:|| 基于gensim使用Doc2Vec模型 |原创 2024-11-11 09:23:04 · 487 阅读 · 0 评论 -
Bert实体识别
转载自:|| Bert实体识别 |原创 2024-11-11 09:18:22 · 318 阅读 · 0 评论 -
Bert完形填空
基于transformers使用Bert模型做完形填空 |原创 2024-11-06 10:36:34 · 536 阅读 · 0 评论 -
Pytorch实现transformer语言模型
基于模型训练语言模型。语言模型任务是为句子后跟随单词输出一个似然概率,表征这个单词可能出现的概率。首先做 embedding,再做 positional encoding, 表征单词位置关系。由多层组成,对于语言模型任务,每个未来可能出现的单词都需要 mask 并预测其概率,为了得到实际的预测单词,模型的输出后需要接一个 log-Softmax 函数。原创 2024-11-06 10:27:22 · 1066 阅读 · 0 评论 -
从头训练RNN语言模型
继承nn.Module初始化函数forward函数其余可以根据模型需要定义相关的函数""" 一个简单的循环神经网络"""''' 该模型包含以下几层:- 词嵌入层- 一个循环神经网络层(RNN, LSTM, GRU)- 一个线性层,从hidden state到输出单词表- 一个dropout层,用来做regularization'''else:try:- 输入循环神经网络- 一个线性层从hidden state转化为输出单词表'''else:初始化一个模型。原创 2024-11-02 09:15:47 · 416 阅读 · 0 评论 -
python中的文本表示
文本向量表示 |原创 2024-11-02 09:09:46 · 623 阅读 · 0 评论 -
从头实现CRF实体识别模型
从头实现CRF实体识别模型 |原创 2024-11-02 08:58:47 · 323 阅读 · 0 评论 -
使用python从头开始预训练RoBERTa模型
本文将介绍如何使用Hugging Face库从头开始构建一个预训练Transformer模型。该模型称为 KantaiBERT。原创 2024-10-14 21:29:23 · 312 阅读 · 0 评论 -
使用Transformers、torch微调 BERT模型
【代码】使用Transformers、torch微调 BERT模型。原创 2024-10-14 19:50:00 · 590 阅读 · 0 评论 -
使用Python实现文本向量化(一)——腾讯词向量
Embedding 也是文本语义含义的信息密集表示,每个嵌入都是一个浮点数向量,使得向量空间中两个嵌入之间的距离与原始格式中两个输入之间的语义相似性相关联。例如,如果两个文本相似,则它们的向量表示也应该相似,这一组向量空间内的数组表示描述了文本之间的细微特征差异。简单来说,Embedding 帮助计算机来理解如人类信息所代表的“含义”,Embedding 可以用来获取文本、图像、视频、或其他信息的特征“相关性”,这种相关性在应用层面常用于搜索、推荐、分类、聚类。原创 2024-08-15 20:22:50 · 916 阅读 · 0 评论 -
使用Python对知识文本进行分块
在上述示例中,我们注意到代码分割时的重叠部分设置为0。因此,为了保持代码的原始意图和准确性,避免产生误解或错误,设置重叠部分为0是必要的。当你决定使用哪种分块器处理数据时,重要的一步是提取数据嵌入并将其存储在向量数据库(Vector DB)中。LanceDB 是一个无需配置、开源且无服务器的向量数据库,其数据持久化在硬盘驱动器上,允许用户在不超出预算的情况下实现扩展。此外,LanceDB 与Python 数据生态系统兼容,因此你可以将其与现有的数据工具(如:pandas、pyarrow等)结合使用。原创 2024-08-15 15:10:19 · 909 阅读 · 0 评论 -
使用本地大模型从论文PDF中提取结构化信息
打开电脑命令行cmd(mac是terminal), 网络是连网状态,执行模型下载(安装)命令。ollama软件目前支持多种大模型, 如阿里的(qwen、qwen2)、meta的(llama3、llama3.1), 读者根据自己电脑配置下载相应的模型。在Python中调用本地ollama服务,需要先启动本地ollama服务, 打开电脑命令行cmd(mac是terminal), 执行。点击前往网站 https://ollama.com/ ,下载ollama软件,支持win、Mac、linux。原创 2024-08-07 16:46:07 · 3053 阅读 · 0 评论 -
Python实现Flesch阅读易读性公式计算
来源:https://blog.youkuaiyun.com/granery/article/details/88912059。原创 2024-04-22 22:01:49 · 304 阅读 · 1 评论 -
利用Python进行文本预处理的过程(英文)
这些先进的文本清理技术解决了不同文本数据场景中的特定挑战。技术的选择应由文本数据的特征和项目的目标决定。请记住,有效的文本清理是一个迭代过程,持续评估和调整清理管道对于保持数据质量并在文本分析和 NLP 工作中取得有意义的结果至关重要。NLTK:NLTK是Python中用于自然语言处理的综合库。它提供了用于文本清理、标记化、词干提取、词形还原等的各种模块。spacy:是一个强大的NLP库,提供高效的表计划、词形还原、词性标注和命名实体识别,以其速度和准确性而闻名。原创 2024-04-18 10:26:54 · 1336 阅读 · 0 评论 -
如何在深度学习中调用CAME
CAME:一种以置信度为导向的策略,以减少现有内存高效优化器的不稳定性。基于此策略,我们提出CAME同时实现两个目标:传统自适应方法的快速收敛和内存高效方法的低内存使用。大量的实验证明了CAME在各种NLP任务(如BERT和GPT-2训练)中的训练稳定性和优异的性能。原创 2024-04-16 17:29:40 · 381 阅读 · 0 评论 -
使用Gensim训练Word2vec模型
【代码】使用Gensim训练Word2vec模型。原创 2023-12-18 09:34:30 · 973 阅读 · 0 评论 -
Python使用大连理工情感本体提取文本的情感倾向
【代码】Python使用大连理工情感本体提取文本的情感倾向。原创 2023-11-18 14:16:06 · 337 阅读 · 0 评论 -
Pandas处理异常值的两种方法
使用方法:只需使用pandas读取csv、txt、excel等文件,并调用下列函数即可。原创 2023-10-26 10:04:01 · 1508 阅读 · 0 评论 -
哈工大开源工具PyLTP的使用方法
(1) pip install pyltp 首先 pip 安装 pyltp 库。(2) 在 LTP 的模型页面下载模型,我直接就放在pyltp库下面了。原创 2023-09-07 09:21:05 · 1512 阅读 · 0 评论 -
Gensim中word2vec的三种保存模型的方式
【代码】Gensim中word2vec的三种保存模型的方式。原创 2023-08-18 09:57:23 · 595 阅读 · 0 评论 -
使用Python实现施密特正交
【代码】使用Python实现施密特正交。原创 2023-08-15 18:59:27 · 871 阅读 · 0 评论 -
Python实现Flesch阅读易读性公式计算
来源:https://blog.youkuaiyun.com/granery/article/details/88912059。原创 2023-05-09 16:03:31 · 1162 阅读 · 0 评论 -
simtext:计算两文档间相似性指标
来源:https://github.com/hiDaDeng/simtext。原创 2023-05-09 10:22:31 · 361 阅读 · 0 评论 -
Keybert使用方法
为了使结果多样化,我们将 2 x top_n最相似的单词/短语用于文档。然后,我们从 2 x top_n 单词中提取所有top_n组合并提取组合 通过余弦相似性彼此最不相似。要提取关键短语,只需根据数字设置为 (1, 2) 或更高 您希望在结果的关键短语中的单词:keyphrase_ngram_range。为了使结果多样化,可以使用最大边距相关性(MMR)来创建 关键字/关键短语,也基于余弦相似性。设置设置生成的关键字/关键字短语的长度:keyphrase_ngram_range。原创 2023-05-09 10:13:30 · 1026 阅读 · 0 评论 -
Synonyms使用方法
import synonyms print("人脸: " , synonyms . nearby("人脸")) print("识别: " , synonyms . nearby("识别")) print("NOT_EXIST: " , synonyms . nearby("NOT_EXIST"))原创 2023-05-09 10:03:07 · 820 阅读 · 5 评论 -
THULAC使用方法
【代码】THULAC使用方法。原创 2023-05-09 09:55:19 · 767 阅读 · 0 评论 -
NLTK实用操作合集
【代码】NLTK实用操作合集。原创 2023-05-06 17:06:30 · 218 阅读 · 0 评论 -
Networkx实现pagerank算法并可视化
【代码】Networkx实现pagerank算法并可视化。原创 2023-05-06 16:49:47 · 466 阅读 · 0 评论 -
Python实现pagerank算法
import numpy as npM = np.array([[0,1,1,0], [1,0,0,0], [0,1,0,1], [1,0,0,0]],dtype = float)# 1.定义转移矩阵def move_matrix(m): num = m.sum(axis = 0) # 统计每一列的总数,也就是网页的链接数 return m/num # 返回建立的转移矩阵# 2.定义V矩阵,初始的P原创 2023-05-06 16:48:09 · 336 阅读 · 0 评论 -
新词发现的代码实现
新词发现代码实现原创 2023-01-20 23:22:40 · 227 阅读 · 0 评论 -
Transformers微调模型(PyTorch)
Pytorch实现Transofmers微调原创 2022-12-07 14:51:29 · 822 阅读 · 0 评论 -
Hugginigface微调模型(使用transformers)
仅供学习交流原创 2022-12-07 14:50:02 · 196 阅读 · 0 评论