自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(77)
  • 收藏
  • 关注

原创 解决Enable-WindowsOptionalFeature : 功能名称 Microsoft-Hyper-V 未知。

将下面内容复制到文本文件中,然后将文件命名为Hyper-V.cmd,然后以管理员身份运行即可,运行完成后重启电脑。重启完成后,打开控制面板 > 程序和功能 > 启用或关闭windows功能。发现已经可以选中Hyper-V。

2025-03-23 21:36:36 392

原创 使用matplotlib绘制坐标轴

【代码】使用matplotlib绘制坐标轴。

2025-03-19 20:00:24 139

原创 loRA微调LLMs实战代码

【代码】loRA微调LLMs实战代码。

2025-03-10 10:27:04 173

原创 德温特专利数据库字段说明

PT 出版物类型(书籍、期刊、丛书)GA Derwent 主入藏号。CI Derwent 化合物号。RG Derwent 注册号。PI 优先权申请信息和日期。AD 申请详细信息和日期。MN Markush 号。FD 更多申请详细信息。DC 德温特分类代码。MC 德温特手工代码。DS 指定国家/地区。CR 引用的参考文献。

2025-02-09 18:31:53 309

原创 Doc2Vec句子向量

转载自:|| 基于gensim使用Doc2Vec模型 |

2024-11-11 09:23:04 465

原创 Bert实体识别

转载自:|| Bert实体识别 |

2024-11-11 09:18:22 311

原创 Bert完形填空

基于transformers使用Bert模型做完形填空 |

2024-11-06 10:36:34 517

原创 Pytorch实现transformer语言模型

基于模型训练语言模型。语言模型任务是为句子后跟随单词输出一个似然概率,表征这个单词可能出现的概率。首先做 embedding,再做 positional encoding, 表征单词位置关系。由多层组成,对于语言模型任务,每个未来可能出现的单词都需要 mask 并预测其概率,为了得到实际的预测单词,模型的输出后需要接一个 log-Softmax 函数。

2024-11-06 10:27:22 1054

原创 从头训练RNN语言模型

继承nn.Module初始化函数forward函数其余可以根据模型需要定义相关的函数""" 一个简单的循环神经网络"""''' 该模型包含以下几层:- 词嵌入层- 一个循环神经网络层(RNN, LSTM, GRU)- 一个线性层,从hidden state到输出单词表- 一个dropout层,用来做regularization'''else:try:- 输入循环神经网络- 一个线性层从hidden state转化为输出单词表'''else:初始化一个模型。

2024-11-02 09:15:47 411

原创 python中的文本表示

文本向量表示 |

2024-11-02 09:09:46 613

原创 从头实现CRF实体识别模型

从头实现CRF实体识别模型 |

2024-11-02 08:58:47 311

原创 scrapy爬取名人名言

到此,一个简单的爬虫就完成了。

2024-11-01 21:34:49 523

原创 使用python从头开始预训练RoBERTa模型

本文将介绍如何使用Hugging Face库从头开始构建一个预训练Transformer模型。该模型称为 KantaiBERT。

2024-10-14 21:29:23 299

原创 使用Transformers、torch微调 BERT模型

【代码】使用Transformers、torch微调 BERT模型。

2024-10-14 19:50:00 575

原创 Python脚本参数总结:argparse库基础用法

add_argument 方法是 argparse.ArgumentParser 类的一个方法,用于向解析器添加一个新的参数。这表示 --output 参数可以接受零个或一个命令行参数。如果用户没有提供命令行参数,则参数的值将为 ‘default.txt’。如果用户在命令行中使用了 --verbose,则参数的值为 True,否则为 False。这表示 --inputs 参数可以接受一个或多个命令行参数,这些参数会被收集到一个列表中。这会将 --verbose 参数的值设置为 True。

2024-09-02 10:54:57 1378

原创 使用Python解析XML文件

我们从文件解析的时候,我们用了一个ElementTree的对象tree,在完成修改之后,还用tree来保存XML文件。Element:被Tag包围的部分,值,如 68,2011 等。Attribute:标签的属性,如country标签的name。修改Element可以直接访问Element.text。Tag: 标签,如country标签。

2024-08-31 13:28:16 398

原创 使用Python实现文本向量化(一)——腾讯词向量

Embedding 也是文本语义含义的信息密集表示,每个嵌入都是一个浮点数向量,使得向量空间中两个嵌入之间的距离与原始格式中两个输入之间的语义相似性相关联。例如,如果两个文本相似,则它们的向量表示也应该相似,这一组向量空间内的数组表示描述了文本之间的细微特征差异。简单来说,Embedding 帮助计算机来理解如人类信息所代表的“含义”,Embedding 可以用来获取文本、图像、视频、或其他信息的特征“相关性”,这种相关性在应用层面常用于搜索、推荐、分类、聚类。

2024-08-15 20:22:50 864

原创 使用Python对知识文本进行分块

在上述示例中,我们注意到代码分割时的重叠部分设置为0。因此,为了保持代码的原始意图和准确性,避免产生误解或错误,设置重叠部分为0是必要的。当你决定使用哪种分块器处理数据时,重要的一步是提取数据嵌入并将其存储在向量数据库(Vector DB)中。LanceDB 是一个无需配置、开源且无服务器的向量数据库,其数据持久化在硬盘驱动器上,允许用户在不超出预算的情况下实现扩展。此外,LanceDB 与Python 数据生态系统兼容,因此你可以将其与现有的数据工具(如:pandas、pyarrow等)结合使用。

2024-08-15 15:10:19 819

原创 使用Python解析pdf、docx等格式文件。

针对不同类型的文件,需要采取特定的访问与解析策略来有效获取其中蕴含的知识。下面我们将介绍对于不同数据源数据的获取方式。

2024-08-08 13:12:14 721

原创 使用本地大模型从论文PDF中提取结构化信息

打开电脑命令行cmd(mac是terminal), 网络是连网状态,执行模型下载(安装)命令。ollama软件目前支持多种大模型, 如阿里的(qwen、qwen2)、meta的(llama3、llama3.1), 读者根据自己电脑配置下载相应的模型。在Python中调用本地ollama服务,需要先启动本地ollama服务, 打开电脑命令行cmd(mac是terminal), 执行。点击前往网站 https://ollama.com/ ,下载ollama软件,支持win、Mac、linux。

2024-08-07 16:46:07 2822

原创 Python实现Flesch阅读易读性公式计算

来源:https://blog.youkuaiyun.com/granery/article/details/88912059。

2024-04-22 22:01:49 280 1

原创 使用Python操作SQLite

其中 example.db 是数据库文件名,如果不存在则会自动创建。connect() 方法还可以接收多个参数,用于设置连接属性,如。

2024-04-18 14:35:10 587

原创 利用Python进行文本预处理的过程(英文)

这些先进的文本清理技术解决了不同文本数据场景中的特定挑战。技术的选择应由文本数据的特征和项目的目标决定。请记住,有效的文本清理是一个迭代过程,持续评估和调整清理管道对于保持数据质量并在文本分析和 NLP 工作中取得有意义的结果至关重要。NLTK:NLTK是Python中用于自然语言处理的综合库。它提供了用于文本清理、标记化、词干提取、词形还原等的各种模块。spacy:是一个强大的NLP库,提供高效的表计划、词形还原、词性标注和命名实体识别,以其速度和准确性而闻名。

2024-04-18 10:26:54 1311

原创 如何在深度学习中调用CAME

CAME:一种以置信度为导向的策略,以减少现有内存高效优化器的不稳定性。基于此策略,我们提出CAME同时实现两个目标:传统自适应方法的快速收敛和内存高效方法的低内存使用。大量的实验证明了CAME在各种NLP任务(如BERT和GPT-2训练)中的训练稳定性和优异的性能。

2024-04-16 17:29:40 357

原创 Python项目中生成requirements.txt文件

首先将requirements.txt复制到项目所在文件夹里面,然后在新建的项目的终端里,输入。这时需要将输入代码改为以下,即可更新已经存在的requirement.txt文件了。(问题1)当项目所在文件夹中已有requirement.txt时,会提示。所需要的库就会自动安装成功。首先,安装pipreqs。然后,在终端输入以下命令。

2024-04-02 17:41:15 1111

原创 利用知识图谱构建医疗问答

【代码】利用知识图谱构建医疗问答。

2024-02-09 08:14:51 889

原创 使用Transformers微调基于BERT模型做中文命名实体识别任务

【代码】使用Transformers微调基于BERT模型做中文命名实体识别任务。

2024-01-24 19:50:07 658 1

原创 使用Transformers做基于BERT的情感六分类

【代码】使用Transformers做基于BERT的情感六分类。

2024-01-24 19:47:54 515

原创 Word中插入公式并引用

记住,要把表格的框线设置为无框线,这样做的目的是输出的时候画面是纯净的。新建一个 1 行 3 列的表格,总宽度为页面宽度,第一个单元格和最后一个单元格都保持在 2.25cm,中间尽可能长。值得一提的是,这种手动加标签的操作复杂度和 Word 自己的交叉引用是完全一样的,不存在变繁琐的问题。这里的 \c 指的是取该域代码最近的值,也就是本章中设置的那个值,即本章的章序号。因为域代码是我们自己植入的,所以 Word 并没有办法进行交叉引用,所以需要我们自己对每一个公式进行添加书签。全选本文,然后右键更新域。

2024-01-24 12:29:10 2490 2

原创 使用Python将pdf转化为图片

【代码】使用Python将pdf转化为图片。

2024-01-02 17:27:34 583

原创 使用Gensim训练Word2vec模型

【代码】使用Gensim训练Word2vec模型。

2023-12-18 09:34:30 953

原创 使用seaborn绘制热力图

【代码】使用seaborn绘制热力图。

2023-12-07 09:21:16 667

原创 使用Pycherts提取文本主题并绘制主题河流图

【代码】使用Pycherts提取文本主题并绘制主题河流图。

2023-11-29 22:40:30 945

原创 使用Python合并pdf文件

【代码】使用Python合并pdf文件。

2023-11-21 18:15:16 290

原创 Python使用大连理工情感本体提取文本的情感倾向

【代码】Python使用大连理工情感本体提取文本的情感倾向。

2023-11-18 14:16:06 321

原创 使用Python统计txt文件中的词频

【代码】使用Python统计txt文件中的词频。

2023-11-14 16:04:15 1003 6

原创 使用matplotlib绘制带置信区间的折线图

【代码】使用matplotlib绘制带置信区间的折线图。

2023-10-28 09:18:08 338

原创 Pandas处理异常值的两种方法

使用方法:只需使用pandas读取csv、txt、excel等文件,并调用下列函数即可。

2023-10-26 10:04:01 1480

原创 如何更改注册表使系统暂停更新时间延长

【代码】如何更改注册表使系统暂停更新时间延长。

2023-09-27 09:38:39 2560

原创 Python使用百度翻译

【代码】Python使用百度翻译。

2023-09-20 11:58:32 757

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除