- 博客(366)
- 资源 (4)
- 收藏
- 关注
原创 CS336笔记3-Mixture of experts
优势:如果两种FFN的参数是一样的,这样可以在不影响flops的情况下,拥有更多的参数。如果你相信重要的是拥有更多的参数来记忆世界的事实等,这就是一个非常不错的架构。本质就是稀疏激活这些分散的FFN层(专家-拆分or复制来的)。如何激活->有一个路由器router,在每次forward或每次推理的时候只选择其中的一小部分。结构上来看:就是用选择器层和许多较小的FFN层来替换左边的这个大前馈网络。timeline: 11月14日-11月。
2025-11-14 12:05:07
156
原创 前后缀分解专题
什么时候能够让所有元素都变成0?这个过程类似于谈砖块游戏,只要出发位置左侧元素和、与右侧元素和差的绝对值<= 1即可达成目标。类比成弹砖块游戏+前后缀分解。
2025-10-28 19:13:09
264
原创 CS336笔记1-Tokenization&&Pytorch, Resource Accounting
1994年提出用于数据的压缩,适用于nlp的神经机器翻译(此前一直用的是word-based),gpt-2使用了bpe的分词方法。
2025-10-27 20:03:11
122
原创 苦涩的教训 The Bitter LessonRich —— SuttonMarch 13, 2019
究其根本,是摩尔定律,或者更广义地说,是单位计算成本持续的指数级下降。过去,大多数人工智能研究的开展,都仿佛智能体可用的算力是恒定的(在这种情况下,利用人类知识似乎是提升性能的唯一途径之一)。但是,在一个比典型研究项目稍长的时间尺度上,海量算力必然会涌现。为了在短期内取得成效,研究人员试图利用他们对特定领域的人类知识,但从长远来看,真正起作用的只有对算力的利用。这两者(利用人类知识和利用算力)本不必相互排斥,但在实践中它们往往如此。花在一种方法上的时间,就不能花在另一种上。
2025-10-23 16:59:47
514
原创 堆(优先队列)
错误思路,贪心全加到通过率最差的班级?×,应从数学的角度,考虑每增加一个必过的学生,带来的增量是多少?可以先举一个具体的例子,发现规律并加以证明即可。
2025-09-13 19:33:36
371
原创 语雀批量导出知识库
使用工具:yuque-dl参考文档:GitHub - gxr404/yuque-dl: yuque 语雀知识库下载Yuque-DL:一款强大的语雀资源下载工具_语雀文档怎么下载-优快云博客
2025-09-02 18:07:53
208
原创 Opencompass使用lawbench评测在eval阶段评分速度很慢
(2)开启了dump_eval_details=True会为每个样本保存详细日志,写入文件的开销较大。(1)开启了debug模式,会强制单线程顺序执行。①评分是在CPU上进行的。
2025-07-24 16:43:39
163
原创 Opencompass测评lawbench已完成inference在eval阶段提示缺失各种文件
②debug发现,项目根路径是从环境变量COMPASS_DATA_CACHE获取到的,打印了一下发现值为空,所以找不到。这样每次启动 shell 都会自动设置路径,OpenCompass 就能找到 LawBench 的资源文件。①先去lawbench仓库下载缺失的文件,此时依旧还在报错。仅在当前shell会话有效。方法二:写到配置文件里面。
2025-07-24 16:10:29
187
原创 llamafactory加载数据集过大,导致默认缓存位置报错no space left
解决方案参考:不会修改HuggingFace模型下载默认缓存路径?一篇教会你!_huggingface默认下载路径-优快云博客核心步骤:
2025-07-14 09:21:25
291
原创 《图解大模型:生成式AI原理与实战》摸鱼笔记
词袋模型的第一步是分词(tokenization),即将句子拆分成单个词或子词(词元,token),词袋模型旨在以数字形式创建文本的表示(representation),也称为向量或向量表示。在本书中,我们将这类模型称为表示模型(representation model)。缺点:忽略了文本的语义特性和含义。
2025-07-01 15:34:37
558
原创 Python——模块导入问题解析
在Python项目开发中,随着项目规模的扩大,合理组织代码结构变得尤为重要。而模块导入问题往往是令许多开发者头疼的难题之一。本文将以一个法律评估模型项目为例,深入探讨Python中的模块导入机制,并提供实用的解决方案。Python的模块系统是其强大功能之一,它允许我们将代码分割成多个文件,便于管理和复用。绝对导入:从项目根目录开始的完整导入路径,如import package.module相对导入:使用点号表示相对于当前模块的导入路径,如.module或..module。
2025-04-03 16:39:24
755
原创 Python——参数解包(位置参数解包/关键字参数解包/合并解包)
参数解包(Argument Unpacking)涉及 (单星号)和 (双星号)两种操作符,它们分别用于解包位置参数和关键字参数,并可以组合使用(合并解包)。“merge_pair(*best_pair, splits)”中“*best_pair”涉及到的语法。并衍生解包相关的话题。使用 * 运算符可以将序列(如列表、元组)解包为位置参数。可以在一次函数调用中同时使用位置参数解包和关键字参数解包。使用 ** 运算符可以将字典解包为关键字参数。
2025-04-01 15:38:57
469
原创 Elasticsearch使用记录
1.docker版本部署es 8.x系列可以关掉ssl(本地测试时),去docker的/usr/share/elasticsearch/config/elasticsearch.yml里面的“xpack.security.enabled:”设置成true就可以2.
2025-03-17 18:33:16
1196
原创 计算机通信与网络实验笔记
(10)物理层是均分(除以),数据链路层及以上是不除的。(1)什么时候用交叉电缆?什么时候用同轴电缆?1.LINUX通过版本号判断是否为稳定版本。(CD),默认二层以太网交换机。原理:光的quanfanshe。
2024-10-19 20:30:53
546
原创 图论算法(DFS/BFS/拓扑排序/最短路/最小生成树/二分图/基环树/欧拉路径)
图论算法(DFS/BFS/拓扑排序/最短路/最小生成树/二分图/基环树/欧拉路径)
2024-09-17 01:18:41
480
MySQL安装与配置大全(含my.ini的配置)
2022-08-14
C++飞机大战 C++课程设计
2022-06-27
C++利用grapghics图形库(easyx),绘制出的推箱子小游戏,含有悔棋(回退)功能,(推箱子是cxk限定版本)
2022-06-24
个人账本管理系统(C++实现+easyx图形界面)
2022-06-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
2