- 博客(48)
- 收藏
- 关注
原创 BGE M3-Embedding 模型介绍
BGE M3-Embedding来自BAAI和中国科学技术大学,是BAAI开源的模型。相关论文在https://arxiv.org/abs/2402.03216,论文提出了一种新的embedding模型,称为M3-Embedding,它在多语言性(Multi-Linguality)、多功能性(Multi-Functionality)和多粒度性(Multi-Granularity)方面表现出色。
2024-07-15 19:33:53
3893
翻译 用检索增强生成让大模型更强大,这里有个手把手的Python实现
本文首先将关注 RAG 的概念和理论。然后将展示可以如何使用用于编排(orchestration)的 LangChain、OpenAI 语言模型和 Weaviate 向量数据库来实现一个简单的 RAG。本文介绍了 RAG 的概念,其最早来自 2020 年的论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》。在介绍了 RAG 背后的理论(包括动机和解决方案)之后,本文又介绍了如何用 Python 实现它。
2024-04-20 11:24:10
367
原创 什么是大模型微调?微调的分类、方法、和步骤
大模型微调(Fine-tuning)是指在已经预训练好的大型语言模型基础上,使用特定的数据集进行进一步的训练,以使模型适应特定任务或领域。其根本原理在于,机器学习模型只能够代表它所接收到的数据集的逻辑和理解,而对于其没有获得的数据样本,其并不能很好地识别/理解,且对于大模型而言,也无法很好地回答特定场景下的问题。例如,一个通用大模型涵盖了许多语言信息,并能够进行流畅的对话。但是如果需要医药方面能够很好地回答患者问题的应用,就需要为这个通用大模型提供很多新的数据以供学习和理解。
2024-02-27 14:26:12
2035
原创 Linux 新建 python 文件
Linux是一款非常流行的操作系统,可以使用任何文本编辑器编辑Python文件。2、输入以下命令,其中filename是你新建的文件名,.py表示Python文件的后缀名;5、按下Esc键,输入 :wq 保存并退出文件编辑模式;1、打开终端,进入需要新建Python文件的目录;4、在编辑模式下,输入Python代码;6、输入以下命令,运行Python文件。3、输入以下命令,进入文件编辑模式;
2023-10-19 19:24:44
2270
4
原创 通过SVN拉取项目 步骤
当你执行了前三步之后,你的Pycharm页面下方会显示出“SVN Repositories”,此时你执行第四步,点击旁边的加号,会跳出一个页面“New Repository Location”,此时,你执行第五步,填入你需要拉取的项目地址,点击OK即可。当你执行了前五步,点击了OK之后,你的“SVN Repositories”页面中会显示,你刚才拉取的项目地址,这个地址下面对应的就是你需要拉取的项目。然后执行第六步,右键这个项目地址,出现一个小窗口,此时,执行第七步,点击“Checkout”。
2023-10-18 16:52:07
4664
原创 语音识别whisper的介绍、安装、错误记录
Whisper是OpenAI于2022年9月份开源的通用的语音识别模型。它是在各种音频的大型数据集上训练的模型,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。论文链接:https://arxiv.org/abs/2212.04356github链接:https://github.com/openai/whisper。
2023-10-16 14:17:33
6675
6
原创 RuntimeError: “slow_conv2d_cpu“ not implemented for ‘Half‘
测试语音识别模型whisper时,出现上述错误!!max。
2023-10-11 16:51:50
713
原创 ImportError: cannot import name ‘OrderedDict‘ from ‘typing‘
唉,先给大家讲个故事听!由于小张昨天被迫需要将Anaconda环境迁移至一个新的磁盘,在博客上查了超级多的资料,终于把环境迁移成功了,但这个时候我的python项目在选择解释器时,却一直出错,一直显示选择的解释器无效!总结:实际上是因为在python3.7.0中,它的typing模块中没有OrderedDict,但是在python3.7.4中,typing模块中包含OrderedDict,可以直接通过。今天早上一心就想赶紧解决问题,果然早上是头脑最清晰的时候,三下五除二,就把昨天冥思苦想的难题给解决了!
2023-09-22 17:56:22
4987
原创 AttributeError: partially initialized module ‘charset_normalizer‘ has no attribute ‘md__mypyc‘
提示需要更新【Updating the charset-normalizer to latest version works for me】至此,问题解决~~~
2023-08-09 14:05:44
10887
2
原创 小白记录 Linux常用命令
unzip mydata.zip -d mydata,将mydata.zip解压到mydata文件夹。zip -r mydata.zip mydata,将mydata文件夹压缩为mydata.zip。删除文件夹 rm -rf 文件夹名,例如 rm -rf ./demo/删除文件 rm -f 文件名,例如 rm -f demo.txt。unzip mydata.zip,直接解压到当前文件夹。cat file |grep ‘要搜索的词或表达式’grep ‘要搜索的词或表达式’ file。
2023-07-20 15:14:54
115
原创 ModuleNotFoundError: No module named ‘pkg_resources‘
【代码】ModuleNotFoundError: No module named ‘pkg_resources‘
2023-07-17 14:43:22
1771
原创 编辑距离算法(Levenshtein Distance Algorithm)的概念理解及其应用
将两个字符串 a, b 的Levenshtein Distance表示为LDa,b(|a|, |b|),如下公式所示。其中,|a|和 |b|分别对应字符串 a, b 的长度。LDa,b(|a|, |b|)表示 a 的前 i 个字符与 b 的前 j 个字符之间的编辑距离。其中,i 和 j 都是从1开始的下标。编辑距离是NLP领域中一个基本的评估文本相似度的算法,可以作为文本相似任务的重要特征之一。该算法的缺点在于,它是基于文本自身的结构去计算的,并没有利用到文本语义层面的信息。
2023-07-12 14:36:16
1637
原创 歪打正着解决 ModuleNotFoundError: No module named ‘setuptools.command.build‘ 问题
哈哈哈,不知道怎么想的,直接省略了前一个步骤,执行了第二个命令,我的天,发生了啥,竟然成功了,虽然我也不知道原因出在哪里,但这个问题真的困扰了我很久了!pip install pinyin**进行安装,我真的,我开始怀疑python版本的影响了,哈哈哈。后来,我想着我得完整的看一下这个错误,看看到底是哪个环节出了问题?然而我的python3.7环境中,setuptools包的版本是。但这大家来说很有效的方法,对我来说毫无用处!setuptools**,果然,我发现这里的版本是。最开始,我只关注了**
2023-07-11 14:49:58
16199
12
原创 ModuleNotFoundError: No module named ‘XXX‘解决方法
注意:如果安装时显示时间过长,未安装成功,可以尝试在命令后面加上“”,哈哈 反正我每次都会成功下载。
2023-07-10 14:47:46
547
3
原创 什么是面向对象和面向过程?
一般认为,较典型的面向对象语言有:C++(支持多继承、多态和部分动态绑定)、Java(支持单继承、多态和部分动态绑定)、C#(支持单继承,与Java和C++等有很多类似之处)作为基本程序结构单位的程序设计语言,指用于描述的设计是以对象为核心,而对象是程序运行时刻的基本成分。
2023-07-10 14:46:50
194
原创 【NLP】文本生成、文本纠错 代码学习记录
1.1 创建一个解析对象1.2 向该对象中添加所需得命令行参数和选项,每一个add_argument方法对应一个参数或选项;1.3 调用parse_args()方法进行解析使用。1.4 HfArgumentParser是Transformer框架中的命令行解析工,它是ArgumentParser的子类,用于从类对象中创建解析对象。这里利用HfArgumentParser加载用于构建模型、微调模型的参数。其中,ModelArguments中包含的是关于模型的属性;DataTrainingArgumen
2023-07-04 14:18:01
774
原创 今天来讲讲 百度网盘下载速度只有几十KB怎么办??
今天就来讲一讲,百度网盘的 “优化速率模式” 到底有多香???感觉省了好多 “前前”,哈哈哈哈哈哈哈哈哈哈
2023-06-12 15:20:22
7672
转载 python3下使Word2Vec每次运行结果保持一致
最近在学习使用gensim.models.word2vec.Word2Vec时发现一个奇怪的问题,那就是每次运行出来的结果不一致,这使得程序复现带来了很多麻烦。下面说一下我的解决方案。#### Word2Vec的官方文档,在seed参数哪里可以发现这样的解释:seed (int) – Seed for the random number generator. Initial vectors for each word are seeded with a hash of the concatenatio
2021-08-31 11:32:07
728
原创 tensorflow中tf.keras.models.Sequential()用法_小张学习之路分享
sequential 模型是那种最简单的结构的模型。按顺序一层一层训练,一层一层往前的那种。没有什么环的结构。比如像前馈网络那样。就像下图这样的,一层层的那种。由于自己还是个新手小白,尚没有总结这个用法的能力,这里分享几个自己看了,启发很大的学习网址:1. https://keras-cn.readthedocs.io/en/latest/getting_started/sequential_model/(这个网址是keras中文文档下的,还有很多其他的内容介绍)2. https://blog.cs
2021-08-22 09:59:23
2357
原创 在jupyter notebook中使用conda创建的虚拟环境——学习分享
jupyter notebook新手小白,原本装的是tensorflow=1.14,但是在进行深度学习时,遇到需要tensorflow=2.x版本,这就需要我在jupyter notebook中更换tensorflow版本,下面是我看到的一些讲的比较清楚的网址分享:1. https://blog.youkuaiyun.com/qq_36017609/article/details/1042714292. https://blog.youkuaiyun.com/u013517182/article/details/9305134
2021-08-20 10:33:26
388
原创 “C:\Users\用户名\AppData\里面的文件是什么?可以删除么??
很多人发现电脑中C:\Users\用户名\AppData 占据了很大的空间,这些文件都是什么?可以将其删除吗?下面为大家详细介绍相关知识!C:\Users\用户名\AppData里面一般有三个文件夹,分别是Local,LocalLow,Roaming,简单地来说,都是用来存放软件的配置文件和临时文件的,里面有很多以软件名称或软件公司命名的文件夹,理论上都可以删除。但是但是尽量不要删除,这里边存放的是软件运行时和结束后的数据和配置文件,如果删了,会导致软件不正常或者出错举个例子:例如,如果安装了Phot
2021-08-19 09:21:30
132309
5
原创 jupyter notebook出现kernel waitting,please wait一系列错误的解决办法
第一次使用jupyter notebook的常见问题kernel waitting,please waitImportError: cannot import name 'create_prompt_application' from 'prompt_toolkit.shortcuts'先找原因如何解决推荐参考博客网址kernel waitting,please wait第一步 打开Anaconda Prompt,输入python -m ipykernel install --user到这一步,可能
2021-08-18 09:11:24
405
原创 Anaconda安装的python环境中“No module named pip” 和 “ ‘pip‘ is a package and cannot be directly executed”问题
一. 没有pip3问题找到安装anaconda的文件夹,点击Scripts(利用anaconda安装的python虚拟环境都在这里),确定是否存在一个easy_install.exe的程序,如果有请往下看,如果没有进入直接进入第4步。打开 Anaconda Prompt 或 cmd ,进入到你需要安装pip3的那个环境下的Scripts文件夹(这里只给出了一个示例,每个人装的路径都不一样,需要你自己填写)。使用以下代码安装即可。easy_install.exe pipeasy_insta
2021-08-06 19:47:56
3015
2
转载 我以为的NLP
作为一个小白,在接触NLP(Nature Language Process,自然语言处理)之前,完全不清楚这个领域究竟是干什么的。首先,Nature我懂,Language我也懂,但是Nature Language是什么就不懂了。那么了解这个领域的首要任务就变成了搞清楚Nature Language到底指什么。“自然”嘛,那就是自然进化形成的,不能是人造的,自然进化形成的语言那就是人类的语言呗,毕竟是伴随着人类的进化过程不断进化,慢慢形成了今天的语言体系。要处理这些数据,而且还形成的一个研究领域,不得不感慨
2021-06-10 08:43:52
282
原创 Neo4j错误处理——Caused by: org.neo4j.helpers.PortBindException: Address localhost:7687 is already in use,
以管理员身份打开命令行,然后进入neo4j的bin目录下,输入neo4j-console.cmd发生如上错误,解决办法如下端口占用问题:Caused by: org.neo4j.helpers.PortBindException: Address localhost:7687 is already in use, cannot bind to it.打开cmd命令行,执行命令netstat -ano|findstr “7474”,查,7474端口是否被占用及占用此端口的PID,从下图中可以看到
2021-06-02 18:11:10
1246
1
原创 PyCharm安装tensorflow时遇到的问题
问题描述:PyCharm使用pip install tensorflow命令在命令行cmd或者中断terminal安装tensorflow时,遇到如下问题解决方案:第一步:先装上wrapt第二步:重新输入pip install tensorflow
2021-03-24 21:51:23
237
原创 C输入输出格式符
常见的以进制输入输出的格式符有:%d:十进制整数%o:八进制整数%x或者%X:十六进制整数常见的以数据类型输入输出的格式符有:%d:整型,即int型 %i :有符号十进制整数(与%d相同) %u:无符号的十进制整数%l:长整型,即long型%f:单精度浮点型,即float型%lf:双精度浮点型(默认保留6位小数),即double型%c...
2020-12-23 19:37:34
1067
原创 【HDU2037】今年暑假不AC 贪心算法
Problem Description“今年暑假不AC?”“是的。”“那你干什么呢?”“看世界杯呀,笨蛋!”“@#$%^&*%...”确实如此,世界杯来了,球迷的节日也来了,估计很多ACMer也会抛开电脑,奔向电视了。作为球迷,一定想看尽量多的完整的比赛,当然,作为新时代的好青年,你一定还会看一些其它的节目,比如新闻联播(永远不要忘记关心国家大事)、非常6+7、超级女生,以...
2020-12-23 19:37:09
118
原创 【HDU1051】Wooden Sticks 花样贪心算法
Wooden SticksTime Limit : 2000/1000ms (Java/Other)Memory Limit : 65536/32768K (Java/Other)Total Submission(s) : 7Accepted Submission(s) : 4Font: Times New Roman | Verdana | GeorgiaFont S...
2020-12-23 19:36:50
340
原创 LaTex常用命令介绍
LaTex常用命令LaTex介绍LaTex下载与安装LaTex中常用宏包LaTeX文件的框架LaTex中简单的规则LaTex中字号转换命令表LaTex中常见数学公式排版命令LaTex中常见的特殊符号使用LaTeX编辑表格UML 图表FLowchart流程图导出与导入导出导入LaTex介绍LaTeX(LATEX,音译“拉泰赫”)是一种基于ΤΕΧ的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在20世纪80年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥
2020-12-23 19:30:42
7133
原创 C++刷题日常记录
*HDU 1708【Fibonacci String】斐波那契的变形,int型至多求出46*HDU 1789【Doing Homework Again】贪心算法*HDU 2136【Largest prime factor】筛选法!!!HDU 1009【FatMouse' Trade】背包问题-贪心HDU 1290{二维问题 y = a*x^2 + b*x+c三维问题 y = a*x...
2019-04-10 21:49:54
268
原创 C/C++ 常用函数总结
万能头文件 #include<bits/stdc++.h>#include"iomanip"C++中左对齐/右对齐cout<<setiosflags(ios::left)<<setw(对齐的数字)<<输出的数<<endl;cout<<setiosflags(ios::right)<<setw(对齐的...
2019-04-10 21:48:46
445
原创 JAVA_HOME从jdk8变到jdk7错误处理
当你的电脑装了JDK1.8后,你的JAVA_HOME也是设置的1.8如果你不彻底删除JDK8就安装JDK1.7,尽管你重新设置了环境变量,改了JAVA_HOME,并且path值里的C:\ProgramData\Oracle\Java\javapath也删了,但是当你WIN+R输入cmd打开命令行窗口,输入java -version回车,还是会出现以下错误Error: Registry ke...
2019-03-04 21:10:03
346
原创 蓝桥杯---算法训练 出现次数最多的整数
问题描述 编写一个程序,读入一组整数,这组整数是按照从小到大的顺序排列的,它们的个数N也是由用户输入的,最多不会超过20。然后程序将对这个数组进行统计,把出现次数最多的那个数组元素值打印出来。如果有两个元素值出现的次数相同,即并列第一,那么只打印比较小的那个值。 输入格式:第一行是一个整数N,N £ 20;接下来有N行,每一行表示一个整数,并且按照从小到大的顺序排列。 输出格式:...
2018-12-15 11:43:39
914
2
原创 蓝桥杯【基础练习】十六进制转十进制、八进制
十六进制转十进制问题描述 从键盘输入一个不超过8位的正的十六进制数字符串,将它转换为正的十进制数后输出。 注:十六进制数中的10~15分别用大写的英文字母A、B、C、D、E、F表示。样例输入FFFF样例输出65535方法一:巧用C语言的输入输出格式符#include"cstdio"int main(){ __int64 n; //等价于 long lon...
2018-12-14 12:37:52
615
原创 Sql server2010常见操作【简洁易懂】
1.建立名为‘自己学号+姓名’的数据库,在数据库中添加个人信息 Student01表中添加个人学籍信息, Course01表中添加个人上学期课程信息, SC01表中添加自己上学期所学过课程的相关分数Create table Student01(Sno CHAR(10) not null,/*添加完整性约束条件,Sno是主码,主码不为空*/ Sname CHA...
2018-12-14 12:35:43
2902
基于BIOES模式标注的中文糖尿病命名实体识别数据集
2023-07-26
文本标注工具YEDDA
2023-07-26
Synonyms-中文近义词工具包
2023-07-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人