自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大鹏的专栏

关注人工智能,自然语言处理,语音处理,图像识别,大数据,信息检索,语义网,知识图谱,编译原理,网络安全,软件架构,计算机语言的发展等等

  • 博客(297)
  • 资源 (11)
  • 收藏
  • 关注

转载 开源:DeepSeek-R1 蒸馏数据集(110k)

开源:DeepSeek-R1 蒸馏数据集(110k)开源在了 Hugging Face 和 ModelScope 上,有直接SFT使用的版本,可直接下载本数据集为中文开源蒸馏满血R1的数据集,数据集中不仅包含math数据,还包括大量的通用类型数据,总数量为110K。该中文数据集中的数据分布如下:Math:共计36987个样本,Exam:共计2440个样本,STEM:共计12000个样本,General:共计58573,包含弱智吧、逻辑推理、小红书、知乎、Chat等。

2025-02-20 14:32:35 124

原创 docker镜像源配置及正确的重启方式。

【代码】docker镜像源配置及正确的重启方式。

2025-02-10 16:08:15 224

原创 cuda安装地址

【代码】cuda安装地址。

2024-11-28 20:10:41 189

原创 matplotlib解决中文乱码。

matplotlib中文乱码。

2024-11-04 17:02:02 132

转载 windows 修复移动硬盘

【代码】windows 修复移动硬盘。

2024-11-02 19:59:14 45

原创 机器学习指标:准确率、精准率、召回率、F1、ROC曲线、AUC曲线

还是拿之前的例子,总样本中,90% 是正样本,10% 是负样本。这里,TPR 只关注 90% 正样本中有多少是被真正覆盖的,而与那 10% 毫无关系,同理,FPR 只关注 10% 负样本中有多少是被错误覆盖的,也与那 90% 毫无关系,所以可以看出:如果我们从实际表现的各个结果角度出发,就可以避免样本不平衡的问题了,这也是为什么选用 TPR 和 FPR 作为 ROC/AUC 的指标的原因。举个简单的例子,比如在一个总样本中,正样本占 90%,负样本占 10%,样本是严重不平衡的。这样不利于模型的学习。

2024-10-19 20:49:21 1269

原创 Ubuntu22.04安装cudnn详细步骤

注意,这里的libcudnn8和cuda版本的配对是指定的,可通过apt-cache policy libcudnn8命令查看。

2024-09-26 16:54:36 1200 1

原创 如何创建模板提示prompt

它的目的是根据不同的输入动态生成特定格式的文本,以便为大语言模型(如GPT)提供更清晰、结构化的指令或上下文。如何创建模板提示:方式一:PromptTemplate(input_variables=[], template=“Tell me a joke.”),这种要写input_variables。

2024-09-19 17:56:20 1670

原创 大模型框架xinference的本地安装注意事项

这时候你在浏览器打开http://host-ip:9997/应该可以看到xinference的界面了。根据系统选择官方编译后的whl下载进行离线安装。这样,下载源就换为阿里的源了,同时服务也开启了。

2024-09-11 16:36:03 1501

原创 本地源码方式部署启动MaxKB知识库问答系统

此命令应列出所有可用的扩展。专门查找 pgvector.control .python 版本大于3.11。初始的账号admin 密码。登录之后会提示你修改密码。

2024-09-11 16:34:32 883

原创 pip install pyaudio时, src/pyaudio/device_api.c:9:10: fatal error: portaudio.h: 没有那个文件或目录

ubuntu 22。

2024-08-27 16:41:20 282

原创 设置Ollama在局域网中访问的方法(Ubuntu)

【代码】设置Ollama在局域网中访问的方法(Ubuntu)

2024-08-09 14:36:41 8676

原创 fatal: unable to access ‘https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2/‘: Failed to

如果你曾设置过代理,便会在再设置代理时遭遇此错误。使用 --unset-all 替代 --unset 即可解决。

2024-07-26 09:26:13 613

原创 MediaDevices.getUserMedia` undefined 的问题

通过传递相应参数来启动 Chrome Insecure origins treated as secure flag 并填入相应白名单。

2024-07-17 17:23:02 355

原创 BM25算法, Best Matching

BM25 其实是一个(准确说,是一系列)经验公式,这里面的每一个环节都是经过很多研究者的迭代而逐步发现的。很多研究在理论上对 BM25 进行了建模,从“概率相关模型”(Probabilistic Relevance Model)入手,推导出 BM25 其实是对某一类概率相关模型的逼近。从结果上看,我们应该明了 BM25 权重计算公式,已经在众多的数据集和搜索任务上,被极其高频广泛和成功地使用。BM25 算法公式由三个主要的模块构成,包括。

2024-05-13 17:51:32 1544

原创 文本生成任务的评价方法BLEU 和 ROUGE、BERTScore

BLEU 是 2002 年提出的,而 ROUGE 是 2003 年提出的。这两种指标虽然存在着一些问题,但是仍然是比较主流的评价指标。

2024-04-20 20:22:05 5005

原创 gemma 大模型(gemma 2B,gemma 7B)微调及基本使用

Gemma是Google推出的一系列轻量级、最先进的开放模型,基于创建Gemini模型的相同研究和技术构建。提供了 2B 和 7B 两种不同规模的版本,每种都包含了预训练基础版本和经过指令优化的版本。所有版本均可在各类消费级硬件上运行,无需数据量化处理,拥有高达 8K tokens 的处理能力:它们是文本到文本的、仅解码器的大型语言模型,提供英语版本,具有开放的权重、预训练的变体和指令调优的变体。Gemma模型非常适合执行各种文本生成任务,包括问答、摘要和推理。

2024-03-28 21:41:31 13105 8

原创 Transformers 直观解释——不仅是如何工作,而且为什么工作得这么好

查询Q和键K之间的点积计算每对单词之间的相关性。然后将该相关性用作“因子”来计算所有值V的加权和。该加权和作为注意力分数输出。Transformer 学习嵌入等,从而使彼此相关的单词更加对齐。这是引入三个线性层并为查询、键和值创建三个版本的输入序列的原因之一。这为注意力模块提供了更多参数,它可以学习这些参数来调整词向量的创建。

2024-03-27 22:36:02 892

原创 传统语音识别系统流程

语音识别传统方法主要分两个阶段:训练和识别,训练阶段主要是生成声学模型和语言模型给识别阶段用。

2024-01-19 18:18:34 1669

原创 postgres 登录及常用命令

PostgreSQL默认会创建一个postgres的数据库用户作为数据库的管理员。将sqlScript.sql导入到名为database的数据库中。

2023-12-06 18:43:44 2426

原创 Paraformer 语音识别原理

模Paraformerr的组成:Encoder(编码器),Predictor(预测器),Sampler(采样器),Decoder(解码器),loss function。

2023-11-30 17:23:54 3811

原创 NLP中 大语言模型LLM中的思维链 Chain-of-Thought(CoT) GoT

在过去几年的探索中,业界发现了一个现象,在增大模型参数量和训练数据的同时,在多数任务上,模型的表现会越来越好。因而,现有的大模型LLM,最大参数量已经超过了千亿。然而,增大模型参数规模,对于一些具有挑战的任务(例如算术、常识推理和符号推理)的效果,并没有太大提升。对于算术类推理任务,我们期望模型生成自然语言逻辑依据来指导并生成最终答案,但是获得逻辑依据是比较复杂昂贵的(标注成本层面)。

2023-11-24 22:19:47 6312

原创 word中使用latex多行公式,矩阵公式

word中使用latex多行公式,矩阵公式。

2023-09-27 14:11:33 2445

原创 python reportlab 生成多页pdf

【代码】python reportlab 生成多页pdf。

2023-09-26 09:57:26 893

原创 python reportlab生成pdf

添加页码,支持中文

2023-09-26 09:40:13 258

原创 python reportlab生成pdf

这里自定义了pagetemplate,使用BaseDocTemplate,但我感觉一般使用SimpleDocTemplate就可以。

2023-09-26 09:15:34 807

原创 redis配制redis-static-server

3.将“protected-mode yes”改成“protected-mode no”。1.打开redis的配置文件“redis.conf”。2.将“bind 127.0.0.1”注释掉。5.重启redis服务即可。4.添加以下一行代码。

2023-09-06 10:50:59 521

原创 update-alternatives 下安装cudnn

dpkg -l查找,若要查找对应的package,可以加通配符,如查找包含fox的package。注意,卸载时候是package_file.deb对应的package name。这种方式不适合在“update-alternatives”下安装。但是这里对libcudnn8不合适,不知道为什么。“update-alternatives”下安装。如果没有驱动,那么就需要手动安装显卡驱动了。若不知道package name,可以通过。查看是否安装NVIDIA显卡。程序会被解包到var目录下。

2023-07-24 16:29:22 314

原创 ubuntu重启:A stop job is running for Advanced key-value store

这个按理说应该可以但是不行,最后让我把redis卸载了,才可以了。

2023-07-20 17:09:19 649

原创 Ubuntu中使用update-alternatives实现多版本CUDA切换,卸载cuda 、cudnn

Ubuntu中使用update-alternatives实现多版本CUDA切换

2023-07-20 16:37:56 1179

原创 项目化思维

利用WBS(名词)制定计划,是行动,动词。D:Deliverables 可交付物。I:Influencer关键影响人。A:Acceptance 成功标准。最底层可交付物是工作包:是名词。最大的风险就是没有分险意识。P:Purpose目的。

2023-07-19 16:27:57 785

原创 搭建Git本地服务器及其使用

GitHub就是一个免费托管开源代码的远程仓库。但是对于某些视源代码如生命的商业公司来说,既不想公开源代码,又舍不得给GitHub交保护费,那就只能自己搭建一台Git服务器作为私有仓库使用。搭建Git服务器需要准备一台运行Linux的机器,强烈推荐用Ubuntu或Debian,这样,通过几条简单的apt命令就可以完成安装。假设你已经有sudo权限的用户账号,下面,正式开始安装。

2023-07-05 15:43:07 8286

原创 CTCLoss如何使用-引用

CTC(Connectionist Temporal Classification)主要是处理不定长序列对齐问题,而CTCLoss主要是计算连续未分段的时间序列与目标序列之间的损失。CTCLoss对输入与目标可能对齐的概率求和,产生一个相对于每个输入节点可微分的损失值。假设输入到目标的对应关系是“多对一”的,那么这限制了目标序列的长度,因此目标序列的长度必须是小于或者等于输入长度。

2023-06-29 15:29:26 139

原创 Nextcloud实现协同办公 -V2

V1在这里:https://blog.youkuaiyun.com/philosophyatmath/article/details/130594037。V2没有继续使用onlyoffice而是使用nextcloud office。

2023-06-28 16:48:15 1284

原创 vcpkg

./vcpkg install boost --triplet=x64-mingw-dynamicYou can simply use one of the mingw triplets. (x64|x86)-mingw-(dynamic|static), e.g. x64-mingw-dynamic.You need to tell vcpkg which triplet to use via the following variables:export VCPKG_DEFAULT_TRIPLET=x6

2023-06-25 14:47:24 402

原创 Nextcloud集成Onlyoffice实现协同办公。

利用nextcloud集成onlyoffice实现协同办公,文件管理。

2023-05-18 13:57:09 2885

原创 TypeError: Cannot read properties of undefined (reading ‘apply‘) vue-router

环境:“webpack”:“5.76.2”,“vue”: “^3.2.47”

2023-03-24 11:31:34 349

原创 熵权法实现

一般来说,若某个指标的概率越大,不确定程度越小,信息熵越小,指标离散程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的指标的概率越小,不确定程度越小,信息熵越大,表明指标值得离散程度越小,提供的信息量也越少,在综合评价中所起到的作用也越小,其权重也就越小。而熵权法是统计学领域,与信息学领域对熵值的解释有所不同。简言之,在统计学领域中,当数据越分散时,熵值越小,可认为该数据包含信息越多,因此权重越大,这也是熵权法的解释;而在信息学领域中,数据越分散,计算熵值越小,数

2023-02-23 17:08:34 544

原创 网站热门排序算法分析

网站热点排序算法

2023-02-02 11:11:06 346

原创 VS Code Python调试时,选择conda虚拟环境

选择VS Code 的菜单项 View-> Command Palette。VS Code Python调试时,选择conda虚拟环境,配置环境变量。1 VS Code 调试Python时,选择conda虚拟环境。2.输入Python:Select Interpreter。

2023-01-19 14:55:37 851

HTK语音识别

HTK语音识别,包括在centos 7下编译通过的HTK-3.5.beta-2版本,并且改写makefile为cmake。还包括一个例子。地址;http://blog.youkuaiyun.com/philosophyatmath/article/details/64905670

2017-03-22

数理统计与数据分析 第3版

《数理统计与数据分析(原书第3版)》内容丰富,几乎涵盖了所有经典和前沿的概率论与数理统计理论和方法,主要包括概率、随机变量、联合分布、期望、极限定理、抽样调查、参数估计、假设检验、数据汇总、两样本比较、方差分析、分类数据分析和线性最小二乘等。

2015-11-24

基于C#的ribbon组件

基于C#的ribbon组件,office 2007的菜单样式,在网上看到这个,分享一下。

2014-11-23

神经网络原理

神经网络是计算智能和机器学习研究的最活跃的分支之一。本书全面系统地介绍神经网络的基本概念、系统理论和实际应用

2014-08-03

基于jersey v2.10的webservice核心框架

在这个框架中包含base认证,日志,rest,eclipselink jpa等等。但是有个问题就是我在利用@PersistenceUnit注解是总是无法成功,也只能自己亲自完成这块代码。

2014-07-24

Eclipse Rich Client Platform 2nd Edition with Source Code.zip

Eclipse Rich Client Platform 2nd Edition with Source Code

2014-05-12

kpca 核主成分分析

We describe a new method for performing a nonlinear form of Principal Component Anal

2010-12-10

kpca 核主成分分析

kpca 核主成分分析,别人写的,据说很好用,跟大家分享一下

2010-12-10

jena-2.6.2

解析owl的java库

2010-12-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除