- 博客(27)
- 资源 (15)
- 收藏
- 关注
原创 Llama3-8B基于peft+trl进行SFT监督微调(Python代码模式)
4月19日Meta终于发布了Llama3,包含8B和70B两种模型,本次我们就来试着微调下8B的模型。
2024-04-30 17:47:26
6967
7
原创 Llama3-8B基于peft+trl进行SFT监督微调(命令行模式)
4月19日Meta终于发布了Llama3,包含8B和70B两种模型,本次我们就来试着用trl命令行微调下8B的模型。
2024-04-29 12:01:37
2745
1
原创 ElasticSearch查询时修改打分
原生的ES打分基于,相比于TF-IDF已经有了较大的改进,但是在实际场景中往往最终的排序效果还是需要进行调整。由于直接修改索引的权重往往代价较大,比较经济的方式还是在查询时即时修改得分以实现排序控制。
2024-04-16 21:31:45
1088
原创 ElasticSearch中使用bge-large-zh-v1.5进行向量检索(一)
ElasticSearch中使用bge-large-zh-v1.5进行向量检索
2024-04-12 12:24:29
9601
3
原创 Eland上传bge-large-zh-v1.5向量化模型到ElasticSearch中
Eland上传bge-large-zh-v1.5向量化模型到ElasticSearch中。
2024-04-11 22:10:07
3329
1
原创 Mac安装配置ElasticSearch和Kibana 8.13.2
Mac安装配置ElasticSearch和Kibana 8.13.2。配置过程中尽量不改ElasticSearch和Kibana的配置文件,尤其是涉及到host、账号、密码之类的。
2024-04-10 18:06:44
2440
3
原创 不相交集(并查集)(C++)
并查集可支持查找元素所属的集合以及不同集合元素的合并。并查集有3个过程: 构建集合 查找指定元素的所属集合(用该集合的代表元素表示,如果是树,就是树根) 不同集合的合并C++代码如下:1. DisjointSet.h//// Created by ZhuJiahui on 2016/8/10.//#ifndef DISJOINTSET_DISJOINTSET_H#define DISJO
2016-08-10 20:15:23
926
原创 图的最小生成树Kruskal算法朴素版(C++)
Kruskal算法先将所有的边按权值由小到大排序,然后从无开始(即每个顶点都是一棵子树),每次选取权值最小又不会构成回路的边作为最终最小生成树的一部分。最终能够将多个不连通的子树联合起来构成最小生成树。时间复杂度为O(ElogE+V2)O(E\log E + {V^2})。E为图中的边数,V为图中顶点数。C++代码如下:#include <iostream>#include <vector>#i
2016-08-10 16:44:39
872
原创 图的最小生成树Prim算法朴素版(C++)
Prim算法从一个节点开始不断选择权值最小的边加入当前已有的树结构,最终遍历完所有的节点得到最小生成树。时间复杂度为O(V^2)。V为图中顶点个数。C++代码如下:#include <iostream>#include <vector>using namespace std;typedef int DATA_TYPE; // 权值为int型const DATA_TYPE NO_EDGE = 1
2016-08-10 15:01:13
2228
原创 图的广度优先搜索遍历(邻接表&邻接矩阵)(C++)
图的广度优先搜索遍历这里只列了迭代的算法,递归比较困难搜索遍历需要借助一个队列。 每次将当前节点出队列,以及让该节点的所有未被访问的邻接节点入队列,重复直至队列为空。 节点的出队列的顺序构成了广度优先搜索的遍历序列。采用邻接表时,复杂度为O(V+E)。采用邻接矩阵时,复杂度为O(V^2)。V为顶点数、E为边数。 两者的空间复杂度相同。C++代码如下: 这里有2个函数,分别是: 邻接表 BF
2016-08-09 15:24:27
5198
原创 图的深度优先搜索遍历(邻接表&邻接矩阵,递归&非递归)(C++)
图的深度优先搜索遍历可有递归和迭代两种方法。递归的方式比较容易,每次以当前节点的未被访问的邻接节点为新的出发点去遍历即可,编程的时候注意维护好全局的访问标记以及访问序列即可(可以以引用的方式传递)。非递归(迭代)的方式需要借助栈。从起点开始,先保存栈顶,然后栈顶出栈,并将该节点(初始的时候为起点)的所有未被访问的邻接节点依次入栈;重复直到栈为空。C++代码如下: 这里有4个函数,分别是: 邻接表
2016-08-09 14:26:52
5442
原创 图的所有节点对之间的最短路径—Floyd算法(C++)
Dijkstra算法之后是Floyd算法 Dijkstra算法是求单源最短路径(即固定起点,不固定终点) Floyd算法是求任意点对之间的最短路径(起点和终点都任意)Floyd算法也叫Floyd-Warshall算法 时间复杂度O(n^3),n为图中节点的数目#include <iostream>#include <vector>using namespace std;typedef int
2016-08-08 18:52:04
4589
1
原创 单源最短路径—Dijkstra算法(C++)
最近复习图算法,练练手 先拿Dijkstra算法开刀吧以下是C++代码包含:Dijkstra算法函数(返回源节点到其余节点之间的最短路径)、路径打印输出函数PS:本人只喜欢用vector,不喜欢用原生数组;只喜欢string,不喜欢char*、char[]什么乱七八糟的。#include <iostream>#include <vector>using namespace std;typedef
2016-08-08 16:42:31
4348
原创 Visual Studio下实现Eigen+Intel MKL的矩阵乘法
科学计算过程中经常会用到线性代数运算,尤其是矩阵乘法,自己手写的C++代码想要赶上MATLAB几乎是不可能的。在C++中,谈到高性能计算就往往要用Intel MKL,但是用过的人都知道,这东西烦人的很,函数风格也怪异,不好用,一个简单的矩阵乘法函数dgemm的参数列表就老长老长。Eigen是一个相对来说十分优雅和好用的线性代数运算库(尤其是在Windows下,Blas,Lapack太麻烦,基本不考虑
2016-01-12 15:45:41
10780
原创 Visual Studio 2013配置Intel MKL
操作系统:Windows 7 64位 IDE:Visual Studio 2013 MKL:安装Intel Parallel Studio XE 2015 64位先安装Visual Studio 2013,后安装Intel Parallel Studio XE 2015。 假设Intel Parallel Studio XE 2015安装在D:\Program Files (x86)\Inte
2016-01-12 14:48:42
15917
1
原创 LDA学习笔记1——预备
作者简介David M. Blei :LDA之父,普林斯顿计算机科学系,本文发表时为加州大学伯克利分校学者。Andrew Y. Ng:中文名吴恩达,美籍华裔,斯坦福大学计算机科学系和电子工程系,人工智能和机器学习领域国际上最权威的学者之一,在线教育平台Coursera的联合创始人。Michael I. Jordan:加州大学伯克利分校计算机科学部,人工智能领域专家。本文发表
2014-10-17 12:41:21
976
原创 Feature Expansion for Microblogging Text Based on Latent Dirichlet Allocation with User Feature
论文学习1 题目中文翻译:基于用户特征LDA的微博文本特征扩展 作者:Wei Xia、Yanxiang He、Ye Tian、Qiang Chen、Lu Lin 时间:2011 关键词:TDT、LDA Model、user feature、short text 研究应用领域:话题检测与追踪
2013-10-18 19:29:18
1100
原创 LSA学习笔记1
这几天开始文本分类方面的研究,写点学习笔记。 潜在语义分析(Latent Semantic Analysis)是一种用奇异值分解方法获得文本中术语(一般是单词或单词的集合,用“术语”来指代感觉很高端的样子)和概念主题之间潜在关系的方法。该方法的主要依据是在相同文章中的词语一般有类似的含义。当两个词或一组词大量出现在一个文档中时,这些词之间就可以被认为是语义相关的。
2013-10-15 15:57:34
1402
原创 那些年快速排序、归并排序、堆排序的明争暗斗……
1. 当排除数据的干扰性之后,若问,当排序的数组规模在10左右时,快速排序、归并排序、堆排序的运行时间是怎么样的?大多数人答曰:快速排序最快,归并次之,堆排序最慢。 好吧,基本应该是这样的。 2. 若问,当排序的数组规模在10左右且元素基本有序时,快速排序、归并排序、堆排序的运行时间是怎么样的?一部分人答曰:归并排序最快,快速排序次之,堆排序最慢。
2013-03-28 23:10:56
864
原创 部分社会信息号码字符合法化验证的C#正则表达式
以下表达式均为基于整个目标字符串的匹配中国内地电话号码(可不含区号)^(\d{3,4}-)?\d{7,8}$中国内地手机号码^[1]+[3,5,8]+\d{9}$中国内地邮政编码^\d{6}$中国内地身份证号码^(\d{15}$|^\d{18}$|^\d{17}[\dXx]{1})$Email地址^[\
2013-03-20 22:33:10
628
原创 几个C#日期、时间验证的正则表达式
以下所列均是针对整个字符串匹配,而非在一大段字符串中进行匹配模式。yyyy/MM/dd格式^(?\\d{2,4})/(?\\d{1,2})/(?\\d{1,2})$yyyy-MM-dd格式^(?\\d{2,4})-(?\\d{1,2})-(?\\d{1,2})$yyyy.MM.dd 格式^(?\\d{2,4})[.](?\\d{1
2013-03-20 22:10:08
5650
DIV+CSS网站布局从入门到精通电子教程文档
2013-05-26
DIV+CSS网站布局从入门到精通源代码
2013-05-26
ASP.NET程序开发范例宝典(C#)(第3版)源代码 16-22章
2013-05-26
ASP.NET程序开发范例宝典(C#)(第3版)源代码1-15章
2013-05-26
Photoshop CS5抠图与调色圣经part2
2013-05-22
Photoshop CS5抠图与调色圣经part1
2013-05-22
Cisco网络技术教程第3版配套光盘
2013-05-20
轻量级Java EE企业级应用实战第3版-Struts2+Spring3+Hibernate整合开发源代码
2013-05-20
疯狂Android讲义第二版源代码10-12章
2013-04-29
疯狂Android讲义第二版源代码6-9章
2013-04-29
疯狂Android讲义第二版源代码1-5章
2013-04-29
Visual C#2010 开发权威指南源代码第14章
2013-04-29
Visual C#2010 开发权威指南源代码1-13章
2013-04-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人