- 博客(805)
- 资源 (1)
- 收藏
- 关注
原创 【论文笔记】嵌套学习 Nested Learning: The Illusion of Deep Learning Architectures
本文提出了一种称为"嵌套学习"的新学习范式,将机器学习模型视为一组嵌套的多层优化问题。该框架揭示了现有深度学习方法通过压缩自身上下文流来学习数据的本质,并解释了大模型中上下文学习能力的涌现。核心贡献包括:(1) 将优化器重新解释为关联记忆模块,提出了深度优化器;(2) 开发了自修改序列模型,通过学习自身更新算法实现自我改进;(3) 提出连续统记忆系统,超越了传统长短期记忆的局限。实验表明,结合这些创新的HOPE架构在语言建模、持续学习和长上下文推理任务中表现优异。嵌套学习为深度学习提供了
2025-11-29 22:22:36
273
原创 【论文笔记】Agent0 ZeroData ToolIntegrated SelfEvolving
• 扩展到多模态(Agent0-VL):引入双角色设计(Solver for reasoning + Verifier for self-feedback/reward),处理视觉-语言任务,实现零-shot自评估和自修复。在 MathVista testmini 上,Agent0-VL-7B 拿下了 65.6% 准确率,完胜当时的 Qwen2.5-VL-7B(53.1%)和 GPT-4o-mini。• 现有自演化框架虽提供替代方案,但受限于模型固有能力及单轮交互,无法生成涉及工具的复杂任务。
2025-11-27 09:41:02
39
原创 [论文笔记] 多尺度时间神经网络MSTNN
想象你在一只股票(比如苹果AAPL)的K线图前,眼睛不是只盯着最近一天的“日K”(短期跳动),而是用不同放大镜同时看:最近一周的“周K”(中期波动)、最近一个月的“月K”(长期趋势),甚至拉远到一年的“大周期”。但关系不简单——不是简单的“A影响B”,而是“高阶群组”(A+B+C一起联动),而且这些关系还会随时间变(昨天是盟友,今天变对手)。如果忽略这点,预测就成“瞎猜”。简单说:THAN把股票市场看成“动态朋友圈”,用超图抓群聊效应,注意力挑重点,时间模块看“关系漂移”,让预测从“独角戏”变“群戏”。
2025-11-21 00:00:17
199
原创 【Web3】web3概念术语
:区块链中通过调整交易顺序获取的额外收益。比如抢跑交易(Front-Running)或三明治攻击(Sandwich Attack),属于“链上套利”。:区块链中通过算法提供流动性的协议。:质押资产后获得的衍生代币,解决质押锁仓问题。如质押ETH得到stETH,可继续交易或借贷,同时赚取质押收益。:投资基金中的出资方,不参与管理,仅承担有限责任。:通过超高速算法买卖资产,赚取微小价差。传统股市中,机构用超级计算机在毫秒级完成交易,属于“速度套利”。:基金的实际管理者,负责投资决策并承担无限责任。
2025-11-08 17:07:39
200
原创 [论文笔记] windows wsl快乐试用cursor
《Cursor连接WSL的三种方案》摘要:本文介绍三种在Cursor中访问WSL项目的方法:1)首选方案是安装WSL扩展,通过绿色远程连接图标新建WSL窗口,实现完全集成环境;2)替代方案是通过Windows路径直接访问(格式为\wsl$\发行版名);3)命令行方式在WSL终端导航后启动Cursor。推荐首选方案,因其能完美集成WSL工具链、避免权限问题并提供原生Linux开发体验。(148字)
2025-10-30 16:34:29
264
原创 [论文笔记] 天工代码生成能力测试 VS Coze
天工和Coze在处理指令时表现不同:Coze因运行超时未返回结果,天工虽然快速响应但未以文件夹形式输出。为此,天工生成了一个归类脚本create_complete_project.sh来整理项目文件。这一对比凸显了两个AI在响应速度和输出格式上的差异,最终通过定制脚本解决了文件组织需求。(98字)
2025-10-30 15:47:17
43
原创 [linux] 怎么把windows本地的代码 C:\Users\ROG\Desktop\xxx传到wsl的/home/yy上
摘要:可以使用WSL的路径转换功能,通过cp -r命令将Windows本地代码复制到WSL。具体命令为: cp -r /mnt/c/Users/ROG/Desktop/tradeai/ /home/angela/ 其中/mnt/c对应Windows的C盘,实现跨系统文件传输。
2025-10-30 15:25:53
136
原创 [linux] windows如何快乐部署LLM:linux子系统—wsl
摘要:Windows Subsystem for Linux (WSL) 是微软开发的兼容层,允许用户在Windows上运行Linux环境。WSL提供两种版本:WSL1(基于兼容层)和WSL2(基于轻量级虚拟机)。用户可通过Microsoft Store安装Linux发行版,或使用命令行工具(如wsl --install)快速配置。WSL2支持完整的系统调用兼容性,适合开发者和需要Linux工具链的用户。未来可能新增更多功能或发行版选项,进一步提升Windows与Linux的互操作性。
2025-10-25 20:55:41
237
原创 [算法导论] 1≤n≤15,n个整数组成的数组,输出所有不重复且满足条件的排列组合
当 `n=15` 时,总的排列数 15!print(f"n = {n} 时,符合条件的排列有 {len(arrangements)} 个:")- 条件:`arr[i] % i == 0` 或 `i % arr[i] == 0`。- 位置 `i` 从 **1** 开始计数(不是从 0 开始)。3. 检查 `x % i == 0` 或 `i % x == 0`。2. 对于每个位置 `i`,尝试所有还未使用的数字 `x`。- 数组 `arr` 是 `1..n` 的一个排列。**输入 n = 3**
2025-10-22 18:36:56
37
原创 [论文笔记] Open WebUI 和 Chatbot 哪个更好
在Open WebUI中创建量化分析模板:text作为量化交易分析师,请分析以下内容:{content}请提供:1. 数据洞察2. 风险提示3. 投资建议。
2025-10-21 01:24:35
101
原创 [linux] 报错 error: ollama pull deepseek-r1:7bpulling manifestError: pull model manifest: Get
博主是网络的问题,重试即可。。。。。这个错误是由于网络连接问题导致的TLS握手超时,通常与网络环境或代理设置有关。
2025-10-21 00:46:27
406
原创 【论文笔记】李飞飞 世界模型RTFM
因此,它不需要显式的3D模型,输入2D图像后,其内部机制(如KV缓存)会形成一个对世界的**隐式理解**,生成新视角时直接基于这个理解进行“绘制”。* 🛠️ 技术路径:它不依赖传统3D建模(如三角形网格、高斯点云),而是通过**端到端学习大规模视频数据**,自己领悟了3D几何、光影、反射等物理规律,成为一个“学会了渲染的AI”。这些带位姿的帧共同构成了世界的“记忆地图”。* 🚀 突出特点:RTFM非常**高效**,仅需**单块H100 GPU**就能流畅运行,实现了此前需要巨大算力才能完成的任务。
2025-10-19 18:04:02
230
原创 【论文笔记】Pretraining with hierarchical memories: separating long-tail and common knowledge
苹果最新研究《Pretraining with hierarchical memories: separating long-tail and common knowledge》提出了一种革命性架构,将知识从模型参数中“分离出来”,通过“锚模型”+“层级记忆库”的组合实现高效推理。小巧的锚模型搭配动态记忆库,让AI既“聪明”又“省资源”,为边缘计算和知识更新提供了新思路。锚模型(Anchor Model):一个小巧的神经网络(160M参数),负责语言理解和推理。W)),如9MB相关参数。
2025-10-09 19:52:14
131
原创 【论文笔记】港大&月之暗面等开源OpenCUA:人人可造专属电脑智能体 OpenCUA: Open Foundations for Computer-Use Agents
进行了动作约简(Action Reduction) 和 状态–动作匹配(State-Action Matching)以及推理链文本的优化,以便于 Method-based 和 Model-based方法的实现以及OpenCUA model的评测。一篇来自香港大学 XLANG Lab 和月之暗面等多家机构的论文上线了 arXiv,其中提出了一个用于构建和扩展 CUA(使用计算机的智能体)的完全开源的框架。上达到了 34.8% 的成功率,创下了新的开源 SOTA,甚至在这个基准测试中超越了。
2025-09-24 21:11:21
104
原创 [算法导论] 正则匹配 . *
print(is_match('abcdef', 'abc.e*b')) # False - 新测试用例。print(is_match('abcdef', 'abc*****')) # True - 新测试用例。print(is_match('abcdef', 'abc.e*f')) # True - 新测试用例。
2025-09-23 22:37:30
153
原创 [大A量化专栏] 动态仓位管理
早盘(最强板块龙一/中军)、午盘(大消息板)、尾盘(转势板/板块无回落(比如周五的军工))Prompt:请你根据近日大盘点位,以及短线竞价情况,给出A股的动态仓位值。强调收益曲线保护功能,保持"安全系数"一致性。精确描述短线情绪安全度,覆盖所有情绪状态。其他的钱用于二奢租赁,固收50%/年。2、中军趋势(趋势龙头拿着不做T)1、只做预期重塑和颠覆性利好的个股。准确表达大盘安全程度,符合您的要求。直接描述目标值(动态仓位)1、最强板块的龙一打板。
2025-06-30 17:23:10
324
原创 [大A量化专栏] 6.30复盘: 注意风险
证券这边,国盛投河,弘业QH走独立行情。开盘爱建JT的低开高走,也是被今天回暖日的情绪带上去的。稳定币这边,隔壁Circle已经破位。周末消息刺激也表现不及预期。军工这边,九三阅兵的刺激,今天高潮。大盘如果明天继续缩量还是防守为主。
2025-06-30 17:21:39
80
原创 [大A量化专栏] 同花顺涨停板封单不足卖出失败(Ptrade解决)
同花顺的条件单不能全自动,需要手动确认,而且需要APP存活,不太实用。信用账户才可以量化交易。需要50+资金,以及6个月+交易记录。:可以设置封单不足多少卖出。由于是云端,不像QMT需要本机存活。国金证券APP的条件单则只能 “开板卖出”。
2025-06-29 20:25:41
397
原创 [大A量化专栏] 独家梳理-A股周末消息汇总-20250630
6月28日,南方的几个省份(包括广东、广西、云南、贵州、海南)的电力市场开始了一个新阶段,叫做“连续结算试运行”。维K技术(半固态电芯)、安K创新(高端产品)直接受益,但需警惕消费电子板块整体疲软。8月1日《稳定币条例》生效,关注HB股份(硬件钱包)、JBF(银行IT改造)。亦庄电动自行车试点验证安全性,宁德SD(硅碳负极)、金LY(电解质)技术领先。2025年言语皮层植入计划催化 创X医疗(脑科学)、佳H智能(可穿戴设备)。ND股份(铜箔需求增量)、天J股份(六氟磷酸锂转型)。电力供应更安全、更稳定。
2025-06-29 20:12:23
676
原创 [大A量化专栏] 看盘界面设置(未完待续)
https://zhuanlan.zhihu.com/p/688723907https://zhuanlan.zhihu.com/p/739145164
2025-06-09 17:45:17
77
原创 [大A量化专栏] 基础代码参考
https://zhuanlan.zhihu.com/p/10279202099回测示例 | 迅投知识库文心智能体平台AgentBuilder | 想象即现实
2025-06-06 18:19:12
72
原创 [大A量化专栏] VMware (mac本地跑QMT)
夸克网盘分享https://zhuanlan.zhihu.com/p/1905596508121864150【2024最新】VMware安装使用教程(超详细)从零基础入门到精通,看完这一篇就够了_vmware安装教程-优快云博客
2025-06-06 17:42:13
420
原创 [大A量化专栏] 夏普比率
如果该策略年化波动15%,则预期超额收益 = 1.5 × 15% = 22.5%(加无风险利率后为总收益)。虽然策略A收益更高,但策略B的单位风险收益效率是A的1.7倍,长期持有体验更稳定(回撤小)。日频策略用日收益率计算(需年化:夏普×√252,252为A股年交易日数)(Calmar,收益/最大回撤)综合评估策略风险收益比。:年化收益25%,波动率30%,无风险利率3%:年化收益18%,波动率12%,无风险利率3%:策略超额收益(超出国债等无风险收益的部分):策略收益的波动幅度(标准差,代表风险大小)
2025-06-06 15:53:59
458
原创 [linux] git强行拉取并覆盖
(操作前请确保你理解每个命令的作用,误操作可能导致代码丢失)若确定要完全放弃本地修改,推荐使用方法一。如果需要保留部分修改,建议使用。会永久删除所有未提交的修改。
2025-05-23 12:05:58
1122
原创 [论文笔记] KTO:作为前景理论优化的模型对准
示例:假定一场赌博以80%的概率返回100美元,20%的概率返回0美元。计算期望可知为80美元。但人们可能会接受60美元来避免这场赌博,尽管他们确定60美元小于80美元。正反馈的阈值是1只需二元标注,适合企业用现有业务数据(如客服对话的成功/失败标记)快速训练模型29。传统方法可能让模型过度拟合人类偏好中的非理性部分(例如“厌恶风险”),而KTO通过前景理论更均衡地模拟人类决策57。
2025-05-23 11:31:33
146
1
原创 [论文笔记] 开发机conda install无法安装 代理配置以及jupyter使用
重启开发机,打开jupyter文件,选择kernel=xin。再次重启terminal,并下载conda,就可以下载了。复制这段代码到.bashrc文件中。
2025-05-16 11:53:11
202
原创 浏览器复制会报错:Unable to read from the browser‘s clipboard. Please make sure you have granted access for t
你在浏览器中复制内容时遇到“Unable to read from the browser's clipboard”报错,通常是因为。现代浏览器(如Chrome、Firefox、Edge等)出于安全考虑,默认禁止网站随意读取剪贴板内容。当网站尝试复制或粘贴时,需用户明确授权。报错表明:你首次使用该网站的复制功能时,拒绝了权限弹窗;浏览器全局设置禁用了剪贴板权限;网站未使用HTTPS(部分浏览器要求安全连接);广告拦截插件或隐私保护工具阻止了权限请求。
2025-05-14 15:43:17
3111
原创 2025年北京市积分落户申报
需满足条件:连续7年北京社保取得学历(学位)期间的社保积分、居住积分与学历(学位)积分,需根据实际情况扣除对应年限的社保缴纳及居住积分,具体详见下表。如小A在工作期间就读在职硕士研究生,并获得了学位证(单证):可获得15分教育背景积分,同时(3x4=12分)(0.5x4=2分)。职住区域加分需要满足在城六区外职住区域指标2018年1月1日起算,按满1年算积分,;申请人,必须在本市其他行政区。积分标准在有详细说明,点击链接可直接跳转查看。
2025-05-12 15:25:45
15271
原创 [论文笔记] 超详细解读DeepSeek v3全论文技术报告
(可以理解为有多个专家,但每个token只会选择一部分专家进行推理,所以一个token的预测,只会用到37B参数),DeepSeek-V3 使用了。来实现高效的流水线并行(减少空泡情况,计算和通信同时进行,提升每张显卡的利用率)。对DeepSeek-V3进行了两阶段的上下文长度扩展。,在不使用采样loss帮助下,让每个专家访问次数接近)的。2、在第二阶段,进一步扩展到128K。阶段,以使其与人类偏好保持一致,并进一步释放其潜力。个不同的高质量token训练,然后进行监督微调和。,MoE)语言模型,总共。
2025-05-08 17:42:45
520
1
原创 [linux] vim 乱码
1. 确保终端支持中文 设置终端编码为 UTF-8,运行:如果不是 UTF-8(如 ),你可以设置为:2. 确保 Vim 使用 UTF-8 编码 打开 或输入以下命令:如果你经常编辑 GBK 编码的文件(如 Windows 系统下生成的中文文本),可以让 Vim 自动尝试解码。如果你使用 或其他图形界面版本,确保字体支持中文,例如:或者设置为系统中已有的中文字体,例如:确认你用的是支持多语言和 Unicode 的 Vim,可以用以下命令检查:如果没有 ,建议升级 Vim。如果你要保
2025-04-17 11:54:19
500
原创 [linux] 怎么切换为用户状态:
curl -s http://baidu-ide.bj.bcebos.com/platform/script/host-script/install-agent.sh | bash -s -- -g cb022d85-a146-465b-9b93-a2a50c340c73 -c ad91a46d5f0e957c982684d2ecaa1f5c -v 1.8.401.70.0.9 /opt/compiler/gcc-8.2/lib/ld-linux-x86-64.so.2 Warning :Forbid Us
2025-03-03 19:34:45
469
原创 [论文笔记] RL对齐:GRPO & DPO & KTO
GRPO 和 DPO 都依赖于成对的偏好数据 (pairwise preference data),其中包含一个“更好”(preferred)的样本 A+ 和一个“较差”(dispreferred)的样本 A−,通常来源于模型生成的多个候选结果,由人工或规则标注优劣。Dkl(πθ||πref)是模型 πθ 与参考模型 πref之间的 KL 散度,控制模型偏离程度。GRPO 对 DPO 进行扩展,引入 KL 正则项,以更灵活地控制模型的生成质量。直接优化模型,使其偏向人类偏好的样本,而远离不符合偏好的样本。
2025-02-07 11:06:22
1320
1
原创 [论文笔记] Deepseek-R1&R1-zero技术报告阅读
背景与目标报告聚焦于利用强化学习(RL)提升大型语言模型(LLMs)的推理能力,旨在探索在不依赖大规模监督微调(SFT)的情况下,模型如何自我进化并形成强大的推理能力。(纯 RL,无 SFT 冷启动数据)和(在 RL 前加入少量冷启动数据和多阶段训练流程,提升可读性及推理表现)。核心思路直接在基础模型上应用大规模强化学习,利用规则设计的奖励机制(包括准确性奖励和格式奖励)激励生成长链思维(CoT)。通过拒绝采样和后续的监督微调,进一步改善模型输出的可读性和对齐人类偏好。
2025-02-05 20:09:04
1282
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅