- 博客(77)
- 收藏
- 关注
原创 解决Enable-WindowsOptionalFeature : 功能名称 Microsoft-Hyper-V 未知。
将下面内容复制到文本文件中,然后将文件命名为Hyper-V.cmd,然后以管理员身份运行即可,运行完成后重启电脑。重启完成后,打开控制面板 > 程序和功能 > 启用或关闭windows功能。发现已经可以选中Hyper-V。
2025-03-23 21:36:36
392
原创 德温特专利数据库字段说明
PT 出版物类型(书籍、期刊、丛书)GA Derwent 主入藏号。CI Derwent 化合物号。RG Derwent 注册号。PI 优先权申请信息和日期。AD 申请详细信息和日期。MN Markush 号。FD 更多申请详细信息。DC 德温特分类代码。MC 德温特手工代码。DS 指定国家/地区。CR 引用的参考文献。
2025-02-09 18:31:53
309
原创 Pytorch实现transformer语言模型
基于模型训练语言模型。语言模型任务是为句子后跟随单词输出一个似然概率,表征这个单词可能出现的概率。首先做 embedding,再做 positional encoding, 表征单词位置关系。由多层组成,对于语言模型任务,每个未来可能出现的单词都需要 mask 并预测其概率,为了得到实际的预测单词,模型的输出后需要接一个 log-Softmax 函数。
2024-11-06 10:27:22
1054
原创 从头训练RNN语言模型
继承nn.Module初始化函数forward函数其余可以根据模型需要定义相关的函数""" 一个简单的循环神经网络"""''' 该模型包含以下几层:- 词嵌入层- 一个循环神经网络层(RNN, LSTM, GRU)- 一个线性层,从hidden state到输出单词表- 一个dropout层,用来做regularization'''else:try:- 输入循环神经网络- 一个线性层从hidden state转化为输出单词表'''else:初始化一个模型。
2024-11-02 09:15:47
411
原创 使用python从头开始预训练RoBERTa模型
本文将介绍如何使用Hugging Face库从头开始构建一个预训练Transformer模型。该模型称为 KantaiBERT。
2024-10-14 21:29:23
299
原创 Python脚本参数总结:argparse库基础用法
add_argument 方法是 argparse.ArgumentParser 类的一个方法,用于向解析器添加一个新的参数。这表示 --output 参数可以接受零个或一个命令行参数。如果用户没有提供命令行参数,则参数的值将为 ‘default.txt’。如果用户在命令行中使用了 --verbose,则参数的值为 True,否则为 False。这表示 --inputs 参数可以接受一个或多个命令行参数,这些参数会被收集到一个列表中。这会将 --verbose 参数的值设置为 True。
2024-09-02 10:54:57
1378
原创 使用Python解析XML文件
我们从文件解析的时候,我们用了一个ElementTree的对象tree,在完成修改之后,还用tree来保存XML文件。Element:被Tag包围的部分,值,如 68,2011 等。Attribute:标签的属性,如country标签的name。修改Element可以直接访问Element.text。Tag: 标签,如country标签。
2024-08-31 13:28:16
398
原创 使用Python实现文本向量化(一)——腾讯词向量
Embedding 也是文本语义含义的信息密集表示,每个嵌入都是一个浮点数向量,使得向量空间中两个嵌入之间的距离与原始格式中两个输入之间的语义相似性相关联。例如,如果两个文本相似,则它们的向量表示也应该相似,这一组向量空间内的数组表示描述了文本之间的细微特征差异。简单来说,Embedding 帮助计算机来理解如人类信息所代表的“含义”,Embedding 可以用来获取文本、图像、视频、或其他信息的特征“相关性”,这种相关性在应用层面常用于搜索、推荐、分类、聚类。
2024-08-15 20:22:50
864
原创 使用Python对知识文本进行分块
在上述示例中,我们注意到代码分割时的重叠部分设置为0。因此,为了保持代码的原始意图和准确性,避免产生误解或错误,设置重叠部分为0是必要的。当你决定使用哪种分块器处理数据时,重要的一步是提取数据嵌入并将其存储在向量数据库(Vector DB)中。LanceDB 是一个无需配置、开源且无服务器的向量数据库,其数据持久化在硬盘驱动器上,允许用户在不超出预算的情况下实现扩展。此外,LanceDB 与Python 数据生态系统兼容,因此你可以将其与现有的数据工具(如:pandas、pyarrow等)结合使用。
2024-08-15 15:10:19
819
原创 使用Python解析pdf、docx等格式文件。
针对不同类型的文件,需要采取特定的访问与解析策略来有效获取其中蕴含的知识。下面我们将介绍对于不同数据源数据的获取方式。
2024-08-08 13:12:14
721
原创 使用本地大模型从论文PDF中提取结构化信息
打开电脑命令行cmd(mac是terminal), 网络是连网状态,执行模型下载(安装)命令。ollama软件目前支持多种大模型, 如阿里的(qwen、qwen2)、meta的(llama3、llama3.1), 读者根据自己电脑配置下载相应的模型。在Python中调用本地ollama服务,需要先启动本地ollama服务, 打开电脑命令行cmd(mac是terminal), 执行。点击前往网站 https://ollama.com/ ,下载ollama软件,支持win、Mac、linux。
2024-08-07 16:46:07
2822
原创 Python实现Flesch阅读易读性公式计算
来源:https://blog.youkuaiyun.com/granery/article/details/88912059。
2024-04-22 22:01:49
280
1
原创 使用Python操作SQLite
其中 example.db 是数据库文件名,如果不存在则会自动创建。connect() 方法还可以接收多个参数,用于设置连接属性,如。
2024-04-18 14:35:10
587
原创 利用Python进行文本预处理的过程(英文)
这些先进的文本清理技术解决了不同文本数据场景中的特定挑战。技术的选择应由文本数据的特征和项目的目标决定。请记住,有效的文本清理是一个迭代过程,持续评估和调整清理管道对于保持数据质量并在文本分析和 NLP 工作中取得有意义的结果至关重要。NLTK:NLTK是Python中用于自然语言处理的综合库。它提供了用于文本清理、标记化、词干提取、词形还原等的各种模块。spacy:是一个强大的NLP库,提供高效的表计划、词形还原、词性标注和命名实体识别,以其速度和准确性而闻名。
2024-04-18 10:26:54
1311
原创 如何在深度学习中调用CAME
CAME:一种以置信度为导向的策略,以减少现有内存高效优化器的不稳定性。基于此策略,我们提出CAME同时实现两个目标:传统自适应方法的快速收敛和内存高效方法的低内存使用。大量的实验证明了CAME在各种NLP任务(如BERT和GPT-2训练)中的训练稳定性和优异的性能。
2024-04-16 17:29:40
357
原创 Python项目中生成requirements.txt文件
首先将requirements.txt复制到项目所在文件夹里面,然后在新建的项目的终端里,输入。这时需要将输入代码改为以下,即可更新已经存在的requirement.txt文件了。(问题1)当项目所在文件夹中已有requirement.txt时,会提示。所需要的库就会自动安装成功。首先,安装pipreqs。然后,在终端输入以下命令。
2024-04-02 17:41:15
1111
原创 使用Transformers微调基于BERT模型做中文命名实体识别任务
【代码】使用Transformers微调基于BERT模型做中文命名实体识别任务。
2024-01-24 19:50:07
658
1
原创 Word中插入公式并引用
记住,要把表格的框线设置为无框线,这样做的目的是输出的时候画面是纯净的。新建一个 1 行 3 列的表格,总宽度为页面宽度,第一个单元格和最后一个单元格都保持在 2.25cm,中间尽可能长。值得一提的是,这种手动加标签的操作复杂度和 Word 自己的交叉引用是完全一样的,不存在变繁琐的问题。这里的 \c 指的是取该域代码最近的值,也就是本章中设置的那个值,即本章的章序号。因为域代码是我们自己植入的,所以 Word 并没有办法进行交叉引用,所以需要我们自己对每一个公式进行添加书签。全选本文,然后右键更新域。
2024-01-24 12:29:10
2490
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人