银河以北呀-优快云博客

原创机器学习-MNIST

MNIST是pytorch框架自带的一个手写0-9分类数据集，其中训练集5w张，测试集1w张，每张图片是28*28像素的单通道图片，本文将用全连接线性神经网络和卷积神经网络两种方式来实现对MNIST数据集的分类。

2024-10-11 23:49:28 1608

原创微调BERT模型实现文本分类

模型微调只是针对某种下游任务，针对性的强化模型的能力，但是微调之后的模型在泛化能力上有所下降。

2025-02-23 00:13:17 713

原创 DeepSeek系列论文解读三之DeepSeek R1

这篇论文聚焦于通过强化学习提升大语言模型推理能力，介绍了第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。前者基于大规模强化学习训练，不依赖监督微调，展现出强大推理能力，但存在可读性差和语言混合的问题；后者通过引入多阶段训练和冷启动数据，解决了上述问题，在推理任务上达到了与 OpenAI-o1-1217 相当的性能。论文还探索了从 DeepSeek-R1 到小模型的蒸馏，经蒸馏的小模型在基准测试中表现优异。

2025-02-14 22:14:01 621

原创 DeepSeek系列论文解读二之DeepSeek V3

DeepSeek-V3是一个大型的专家混合(MoE)语言模型，总共有671B个参数，每个令牌激活37B个参数。它采用了多头潜在注意力(MLA)和DeepSeekMoE架构进行高效推理和经济高效的训练，这些在DeepSeek-V2中得到了验证。DeepSeek-V3还开创了一种无辅助损失策略来实现负载平衡，并使用多令牌预测训练目标来提高性能。该模型是在140万亿个高质量多样的令牌上预训练的，然后进行了监督微调和强化学习阶段。

2025-02-14 00:10:50 921 2

原创 DeepSeek系列论文总结

该项目旨在推进开源大型语言模型(LLM)的长期发展。作者广泛研究了LLM的缩放规律，重点关注批量大小、学习率、数据和模型规模的缩放行为。从头开始构建开源LLM，收集了主要由中文和英文组成的2万亿令牌数据集。DeepSeek LLM模型在基准测试中表现出色，尤其在代码、数学和推理等领域优于LLaMA-2 70B。作者还讨论了他们的微调方法，包括监督式微调(SFT)和直接偏好优化(DPO)，这些方法使得DeepSeek Chat模型在开放式评估中优于GPT-3.5。

2025-02-13 00:24:39 497

原创 python-贪吃蛇

贪吃蛇

2024-11-03 23:01:56 957

原创协调过滤算法-电影推荐

协同过滤（Collaborative Filtering）是推荐系统中一种非常基础的方法，它主要分为两个方面：实时的协同作用和预先的过滤处理。在线协同指的是利用实时数据来识别用户可能感兴趣的商品，而离线过滤则是筛选掉一些不太适合推荐的内容，例如那些评分较低的商品，或者用户已经购买过的商品。在协同过滤的应用中，我们通常面对的是m个商品和m个用户的数据集，但只有部分用户对部分商品进行了评分，留下了许多空白的评分数据。

2024-11-02 10:56:01 1624

原创 vue axios封装

废话不多说，上代码！

2024-10-28 23:33:28 557

原创线性回归（手撸版）

手撸机器学习线性回归

2024-10-24 22:00:08 198 1

原创 node根据模板生成pdf，并在pdf中插入文本信息，水印，签章。

文本信息和水印都可以使用文本插入，水印可根据需要做特殊处理，如：用rgb函数设置水印的透明度，degrees设置水印的旋转角度。通过node生成司机小程序需要的pdf，并在pdf插入信息，用户签章，公司签章，水印等。

2024-10-23 11:05:52 887

原创决策树-ID3算法(手撸版)

决策树是一种树形结构的监督学习算法，广泛应用于分类任务和回归任务中。它通过递归地将数据集分割成更小的子集，最终形成一个树形模型，用于预测新数据的输出。本文主要以用信息增益作为分类准则的ID3来进行探索。

2024-10-14 23:24:47 2067

qq_57597568的博客