自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(781)
  • 资源 (1)
  • 收藏
  • 关注

原创 [大A量化专栏] 看盘界面设置(未完待续)

https://zhuanlan.zhihu.com/p/688723907https://zhuanlan.zhihu.com/p/739145164

2025-06-09 17:45:17 32

原创 [大A量化专栏] 基础代码参考

https://zhuanlan.zhihu.com/p/10279202099回测示例 | 迅投知识库文心智能体平台AgentBuilder | 想象即现实

2025-06-06 18:19:12 19

原创 [大A量化专栏] VMware (mac本地跑QMT)

夸克网盘分享https://zhuanlan.zhihu.com/p/1905596508121864150【2024最新】VMware安装使用教程(超详细)从零基础入门到精通,看完这一篇就够了_vmware安装教程-优快云博客

2025-06-06 17:42:13 73

原创 [大A量化专栏] QMT常见问题Q&A

QMT系统支持将策略以加密的模式进行导出或导入,用户可以便捷的迁移系统本地策略。​。

2025-06-06 16:23:39 49

原创 [大A量化专栏] 夏普比率

如果该策略年化波动15%,则预期超额收益 = 1.5 × 15% = 22.5%(加无风险利率后为总收益)。虽然策略A收益更高,但策略B的单位风险收益效率是A的1.7倍,长期持有体验更稳定(回撤小)。日频策略用日收益率计算(需年化:夏普×√252,252为A股年交易日数)(Calmar,收益/最大回撤)综合评估策略风险收益比。:年化收益25%,波动率30%,无风险利率3%:年化收益18%,波动率12%,无风险利率3%:策略超额收益(超出国债等无风险收益的部分):策略收益的波动幅度(标准差,代表风险大小)

2025-06-06 15:53:59 67

原创 [linux] git强行拉取并覆盖

(操作前请确保你理解每个命令的作用,误操作可能导致代码丢失)若确定要完全放弃本地修改,推荐使用方法一。如果需要保留部分修改,建议使用。会永久删除所有未提交的修改。

2025-05-23 12:05:58 248

原创 [论文笔记] KTO:作为前景理论优化的模型对准

示例:假定一场赌博以80%的概率返回100美元,20%的概率返回0美元。计算期望可知为80美元。但人们可能会接受60美元来避免这场赌博,尽管他们确定60美元小于80美元。正反馈的阈值是1只需二元标注,适合企业用现有业务数据(如客服对话的成功/失败标记)快速训练模型29。传统方法可能让模型过度拟合人类偏好中的非理性部分(例如“厌恶风险”),而KTO通过前景理论更均衡地模拟人类决策57。

2025-05-23 11:31:33 38 1

原创 [论文笔记] 开发机conda install无法安装 代理配置以及jupyter使用

重启开发机,打开jupyter文件,选择kernel=xin。再次重启terminal,并下载conda,就可以下载了。复制这段代码到.bashrc文件中。

2025-05-16 11:53:11 68

原创 浏览器复制会报错:Unable to read from the browser‘s clipboard. Please make sure you have granted access for t

你在浏览器中复制内容时遇到“Unable to read from the browser's clipboard”报错,通常是因为。现代浏览器(如Chrome、Firefox、Edge等)出于安全考虑,默认禁止网站随意读取剪贴板内容。当网站尝试复制或粘贴时,需用户明确授权。报错表明:你首次使用该网站的复制功能时,拒绝了权限弹窗;浏览器全局设置禁用了剪贴板权限;网站未使用HTTPS(部分浏览器要求安全连接);广告拦截插件或隐私保护工具阻止了权限请求。

2025-05-14 15:43:17 458

原创 2025年北京市积分落户申报

需满足条件:连续7年北京社保取得学历(学位)期间的社保积分、居住积分与学历(学位)积分,需根据实际情况扣除对应年限的社保缴纳及居住积分,具体详见下表。如小A在工作期间就读在职硕士研究生,并获得了学位证(单证):可获得15分教育背景积分,同时(3x4=12分)(0.5x4=2分)。职住区域加分需要满足在城六区外职住区域指标2018年1月1日起算,按满1年算积分,;申请人,必须在本市其他行政区。积分标准在有详细说明,点击链接可直接跳转查看。

2025-05-12 15:25:45 1590

原创 [论文笔记] 超详细解读DeepSeek v3全论文技术报告

(可以理解为有多个专家,但每个token只会选择一部分专家进行推理,所以一个token的预测,只会用到37B参数),DeepSeek-V3 使用了。来实现高效的流水线并行(减少空泡情况,计算和通信同时进行,提升每张显卡的利用率)。对DeepSeek-V3进行了两阶段的上下文长度扩展。,在不使用采样loss帮助下,让每个专家访问次数接近)的。2、在第二阶段,进一步扩展到128K。阶段,以使其与人类偏好保持一致,并进一步释放其潜力。个不同的高质量token训练,然后进行监督微调和。,MoE)语言模型,总共。

2025-05-08 17:42:45 417 1

原创 [linux] vim 乱码

1. 确保终端支持中文 设置终端编码为 UTF-8,运行:如果不是 UTF-8(如 ),你可以设置为:2. 确保 Vim 使用 UTF-8 编码 打开 或输入以下命令:如果你经常编辑 GBK 编码的文件(如 Windows 系统下生成的中文文本),可以让 Vim 自动尝试解码。如果你使用 或其他图形界面版本,确保字体支持中文,例如:或者设置为系统中已有的中文字体,例如:确认你用的是支持多语言和 Unicode 的 Vim,可以用以下命令检查:如果没有 ,建议升级 Vim。如果你要保

2025-04-17 11:54:19 250

原创 [论文笔记] Deepseek技术报告解读: MLA&MTP

Deepseek技术报告解读: MLA&MTP

2025-04-02 16:52:46 224 1

原创 [linux] 怎么切换为用户状态:

curl -s http://baidu-ide.bj.bcebos.com/platform/script/host-script/install-agent.sh | bash -s -- -g cb022d85-a146-465b-9b93-a2a50c340c73 -c ad91a46d5f0e957c982684d2ecaa1f5c -v 1.8.401.70.0.9 /opt/compiler/gcc-8.2/lib/ld-linux-x86-64.so.2 Warning :Forbid Us

2025-03-03 19:34:45 429

原创 [论文笔记] RL对齐:GRPO & DPO & KTO

GRPO 和 DPO 都依赖于成对的偏好数据 (pairwise preference data),其中包含一个“更好”(preferred)的样本 A+ 和一个“较差”(dispreferred)的样本 A−,通常来源于模型生成的多个候选结果,由人工或规则标注优劣。Dkl(πθ||πref)是模型 πθ 与参考模型 πref之间的 KL 散度,控制模型偏离程度。GRPO 对 DPO 进行扩展,引入 KL 正则项,以更灵活地控制模型的生成质量。直接优化模型,使其偏向人类偏好的样本,而远离不符合偏好的样本。

2025-02-07 11:06:22 836 1

原创 [论文笔记] Deepseek-R1&R1-zero技术报告阅读

背景与目标报告聚焦于利用强化学习(RL)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督微调(SFT)的情况下,模型如何自我进化并形成强大的推理能力。(纯 RL,无 SFT 冷启动数据)和(在 RL 前加入少量冷启动数据和多阶段训练流程,提升可读性及推理表现)。核心思路直接在基础模型上应用大规模强化学习,利用规则设计的奖励机制(包括准确性奖励和格式奖励)激励生成长链思维(CoT)。通过拒绝采样和后续的监督微调,进一步改善模型输出的可读性和对齐人类偏好。

2025-02-05 20:09:04 1183 1

原创 [linux] linux获取本机ip

【代码】[linux] 获取本机ip。

2025-01-21 16:11:29 142

原创 [论文笔记] 中文推理评估类测试集

地址:https://github.com/Chenny0808/ape210k。

2024-12-24 15:44:10 103

原创 [论文笔记] 从生成到评估:LLM-as-a-judge 的机遇与挑战

论文提出了一个全面的分类框架,分为以下三个维度:

2024-12-24 11:04:19 533 1

原创 [论文笔记] 近线生成 和 在线生成

指在请求到达之前,通过提前生成可能需要的数据或答案,并将其缓存,待请求到来时直接使用或快速调整。这种方式通常结合模型离线计算和缓存策略使用。

2024-12-03 16:03:33 92

原创 [linux] 安装go

【代码】[linux] 安装go。

2024-11-28 20:17:55 206 1

原创 snipaste截图时隐藏浏览器窗口

2024-11-27 17:38:25 172

原创 [论文笔记] Pangea:完全开放的多语言多模式法学硕士,涵盖 39 种语言

Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages1. 背景与目的Pangea 旨在开发一个支持 39 种语言的完全开源多语言、多模态大模型 (MLLM),弥补语言技术领域的资源不均问题,特别是低资源语言的不足。目标是为多语言、多模态研究提供开放的工具和数据集,以促进语言包容性和公平性。2. 模型架构:Pangea-7BPangea-7B 是一个拥有 70 亿参数的语言模型,能够处理文本和图像的多模态输入。这使得它

2024-11-01 15:20:53 174

原创 [论文笔记] bleu值的计算方式

然后用这个命令就行,ref是正确答案,cand是模型预测的答案。

2024-10-31 15:22:56 164

原创 [论文笔记] 大模型评测:lm-evaluation-harnessPublic(eval-big-refactor)

1、添加SeaExam中的m3exam和mmlu测试集。英语+东南亚语:SeaLLMs/SeaExam。

2024-10-28 15:55:31 255

原创 [论文笔记] llama factory 跑LLama3.2 SFT config报错

【代码】[论文笔记] llama factory 跑LLama3.2 SFT config报错。

2024-10-22 15:41:46 438

原创 [论文笔记] CLIP(Contrastive Language-Image Pre-Training)

Transformer: 这部分NLP选手应该很熟悉,CV选手简单了解下,首先文本经过tokenize得到一个新的张量,比如 [“a diagram”, “a dog”, “a cat”] ,经过tokenize得到的(3,77)的张量,经过一个embeding层得到(3,77,512)的tensor,添加位置编码(nn.Parameter)后送入模型,最后模型输出的到(1,512)的特征。分别获得特征后,将两个特征进行余弦相似度计算,分别获得图像相对文本的相似度矩阵,和文本相对图像的相似度矩阵。

2024-10-21 17:14:22 220 1

原创 [论文笔记] llama-factory 微调qwen2.5、llama3踩坑

【代码】[论文笔记] llama-factory 微调qwen2.5、llama3踩坑。

2024-10-18 12:21:58 1619 4

原创 [论文笔记] Megatron LM环境安装

概述:注意其他集群的TransformerEngine包,不可以直接搬运过来install,因为cmake文件有不同。。细节注意:安完环境时,重新启一个terminal测试——————————————————修改transformer_engine——————————————————————————————————————测试apex——————————————————————注意,安完apex的时候需要测试,能import amp_C才行!!如果⬆️安装成功, 就不用看下面的了。。

2024-10-15 15:39:28 761

原创 [linux] error: RPC failed; curl 56 GnuTLS recv error (-9): Error decoding the received TLS packet.e

error: RPC failed; curl 56 GnuTLS recv error (-9): Error decoding the received TLS packet. error: 5233 bytes of body are still expected fetch-pack: unexpected disconnect while reading sideband packet fatal: early EOF fatal: fetch-pack: invalid index-pack o

2024-10-15 15:20:38 1059

原创 [论文笔记] llama3.2 蒸馏

软标签蒸馏(Soft Label Distillation)用教师模型的输出类别logit值/输出概率p(软标签)指导学生模型学习。使用温度系数 T 调节概率平滑,采用KL散度作为损失函数。硬标签蒸馏(Hard Label Distillation)用教师模型的预测类别标签(硬标签)训练学生模型。直接用交叉熵损失函数,简单但信息量较少。特征蒸馏(Feature Distillation)学生模型通过对齐教师模型的中间层特征来学习。更丰富的语义信息,适用于计算机视觉任务。

2024-10-15 14:53:33 1003 1

原创 [linux] 报错ssh-add /root/.ssh/id_ed25519 Could not open a connection to your authentication agent.

说明 SSH 代理未启动或未正确配置。

2024-10-15 14:23:54 272

原创 [论文笔记] Let‘s Verify Step by Step

"Let's Verify Step by Step" 是 OpenAI 的一项研究,探讨如何通过过程监督(Process Supervision)和结果监督(Outcome Supervision)来提高大型语言模型在复杂多步推理任务中的可靠性。

2024-10-12 18:14:22 510 1

原创 Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

1. **背景**:大语言模型在解决复杂任务方面已经有了很大的进步,但在**推理**(即模型训练好之后的实际使用)阶段,通常只让模型尝试一次。论文提出,通过增加模型为同一个问题生成的**样本数量**(即多次运行模型),可以提高模型的表现。- **逻辑检查**:对于数学或推理类的问题,可以通过逻辑验证的方式来判断答案的合理性。总的来说,论文中的验证机制旨在提高生成解答的**精确度**,通过自动化的验证手段来帮助模型从多个候选答案中筛选出最优解。- **精度**:在生成的多个解答中,能否选出正确答案?

2024-09-30 01:47:18 231

原创 [论文笔记] LLaMA3.2

除了现有的支持文本的外,Llama 3.2 还支持多模式用例。现在,您可以在 Amazon Bedrock 中使用 Meta 中的四个新 Llama 3.2 模型(90B、11B、3B 和 1B)来构建、试验和扩展您的创意。——Meta 最先进的模型,非常适合企业级应用。该模型擅长常识、长文本生成、多语言翻译、编码、数学和高级推理。它还引入了图像推理功能,可以执行图像理解和视觉推理任务。该模型非常适合以下用例:图像字幕、图像文本检索、视觉基础、视觉问答和视觉推理以及文档视觉问答。

2024-09-27 15:08:39 611 1

原创 [论文笔记] Chain-of-Thought Reasoning without Prompting

模型首先识别出说话者有3个苹果,然后识别出爸爸比说话者多2个,即5个苹果,最后将这两个数量相加得到总数8个苹果。这个例子表明,通过探索替代的解码路径,我们可以从预训练的LLMs中提取出有用的推理链,即使没有明确的提示或问题构造。这个例子表明,通过探索替代的解码路径,我们可以从预训练的LLMs中提取出有用的推理链,即使没有明确的提示或问题构造。当然,以下是一个使用CoT(Chain-of-Thought)解码方式的例子,它展示了如何从预训练的大型语言模型(LLMs)中激发推理路径。

2024-09-26 15:57:32 417

原创 [论文笔记] UNDERSTANDING AND IMPROVING LEXICAL CHOICE IN NON-AUTOREGRESSIVE TRANSLATION理解和改进非自回归翻译中的词汇选择

知识蒸馏(Knowledge Distillation, KD)对于通过自回归教师模型简化原始数据来训练非自回归翻译(NAT)模型至关重要。研究发现,KD训练的副作用是将教师模型中的低频词词汇选择错误传播到NAT模型。为了解决这个问题,提出了一种方法,通过比较NAT模型和原始数据中嵌入的词汇选择,引入额外的Kullback-Leibler散度项,使NAT模型能够恢复在蒸馏数据中丢失的低频词有用信息。实验结果表明,该方法在不同的语言对和模型架构中都有效,能够显著提高NAT模型的性能。

2024-09-26 14:07:38 127 1

原创 [论文笔记] 多语言配比的自动化超参搜索

【代码】[论文笔记]

2024-09-24 19:17:10 282

原创 [论文笔记] MIXTURE-OF-SKILLS: Learning to Optimize Data Usage for Fine-Tuning Large Language Models

尝试:根据当前策略尝试做菜(训练模型)。反馈:收集做菜的结果(模型表现)。分析:分析哪些食材(数据集)有用,哪些需要调整。调整:根据分析结果调整食材的使用策略(数据采样概率)。迭代:重复这个过程,直到找到最佳策略。通过这种动态调整和持续优化的方法,MOS能够有效地提升大型语言模型在特定任务上的性能。

2024-09-20 17:13:33 807 1

原创 [论文笔记] LLM大模型清洗篇——1、规则清洗&去重&模型清洗

gopher、C4、Fineweb 论文的规则。

2024-09-13 16:40:56 314

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除