cs336 作业1 注意事项

原创已于 2025-09-20 11:15:29 修改 · 148 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #自然语言处理 #nlp

于 2025-09-20 10:51:44 首次发布

部署运行你感兴趣的模型镜像

关于特殊字符\n\n<|endoftext|>的识别问题

用的正则是

  PAT = r"""'(?:[sdmt]|ll|ve|re)| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+"""

会将“.......! \n\n<|endoftext|>” 中两个连续的\n识别成两个单词，这样后续多没有机会合并它们了

而在“......! \n\n”中将两个连续\n识别到一个单词去，这是该作业自动测试时认可的结果

没有找到较好的解决方法，参考网上各答案，他们的解决方案中都是按照<|endoftext|>把整个文本切割开分别处理。因此没有出现我的上述问题。

您可能感兴趣的与本文相关的镜像

Python3.11

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

你好123456789012

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

cs336系列（1）

heixiu_heixiuhei的博客

08-23

964

第一步先克隆到本地如果你的环境中没有下载uv，先安装一下然后激活下载需要的库和包，如果下载速度慢可以设置镜像源uv run。

Standford CS336 | Assignment 1 - Implementing the tokenizer

Bug_makerACE的博客

07-11

984

本次作业的核心任务是实现一个Tokenizer类，该类基于训练得到的词汇表（vocab）和合并规则（merges），能够将文本编码为整数 ID 序列，以及将整数 ID 序列解码为文本。同时，需要支持用户提供的特殊符号。编码（encode）：将输入的文本字符串转换为 token ID 列表。过程需先进行预分词，再应用 BPE 合并规则。解码（decode）：将 token ID 列表转换为文本字符串。对于无效的 token ID，需用 Unicode 替换字符（U+FFFD）处理。支持从文件加载：实现。

参与评论您还未登录，请先登录后发表或查看评论

【免费下载】 Stanford CS336 Assignment 1: 语言模型从零开始的最佳实践

gitblog_00692的博客

11-12

1443

本项目是基于斯坦福大学CS336课程的第一份作业，旨在从零开始实现语言模型。通过该作业，学生可以学习到如何处理自然语言数据、构建基本的语言模型，并对其进行训练和评估。项目采用Python语言开发，依赖uv环境管理，确保了代码的可复现性、可移植性和易用性。 ## 2. 项目快速启动 ### 环境准备首先，确保你已经安装了Python环境。然后安装uv工具，推荐使用以下命令： ```shel

Stanford CS336 | Assignment 1 - BPE Tokenizer Training 实现

Bug_makerACE的博客

07-10

1609

本次任务目标是在 TinyStories 数据集上训练一个字节级 BPE 分词器。如图所示，需要完成函数train_bpe。初始化：以所有可能的字节（0-255）作为初始词汇表；预处理：将文本分割为初始令牌（字节序列）；合并：统计所有字节对的频率，合并最频繁的对并更新词汇表，重复此过程直至达到目标词汇量。

CS336-Project:罗格斯CS336数据库项目

04-07

CS336-项目罗格斯CS336数据库项目

【cs336学习笔记】[第8课]手撕大模型并行训练

哪惧明天，风高路斜

08-27

426

多GPU通信与并行化实现本文介绍了多GPU系统中的通信结构和集合操作实现。主要内容包括：通信层级结构：从单GPU内部缓存到多节点NVSwitch连接，详解不同层级的存储/通信速度差异。集合操作类型：包括广播(Broadcast)、分散(Scatter)、聚集(Gather)、归约(Reduce)、全聚集(All Gather)和全归约(All Reduce)等，配有图示说明每种操作的数据流向。硬件架构演进：对比经典架构与现代数据中心架构，重点介绍NVLink和NVSwitch如何提升GPU间通信效率

cs101:UA CS101的注意事项和作业

04-04

在UA CS101的课程中，作业将是你巩固知识的重要途径。通过解决实际问题，你可以加深对C++的理解，提高编程技能。可能的作业主题包括但不限于编写简单的程序、实现特定算法、优化现有代码或设计和实现数据结构。总...

精选资源

draw-svg:斯坦福CS248作业1

05-25

斯坦福CS248作业1：简单的SVG光栅化器概述在这个项目中，您将实现一个简单的软件光栅化程序，该程序可以绘制点，线，三角形和位图图像。完成后，您将拥有一个支持（SVG）格式基本功能的查看器，该格式现已在...

cs代码-作业1 工资评定

07-14

"README.txt"文件通常用于记录项目的简要说明、使用方法、注意事项或者开发者想要传达的任何其他信息。在这个场景下，它可能会包含如何运行程序的指示，比如命令行参数，或者如何解读输出结果。总的来说，这个“cs...

cs代码-作业1 加法表

07-14

其次，`README.txt`文件通常是项目说明或指南，包含如何运行程序、程序的目的以及任何注意事项。在本例中，它可能解释了作业的具体要求，如输出格式、是否需要处理边界情况（如溢出）或者有无特定的性能要求。开发者...

周同学的博客

09-21

2180

Standford CS336（一）课程介绍

Sol-itude的博客

08-21

1142

斯坦福CS336课程(2025春季)聚焦"从零构建语言模型"，针对当前AI研究领域出现的"技术脱节"现象，强调通过实践深入理解模型机制。课程揭示了语言模型工业化面临的挑战：GPT-4等前沿模型需1.8万亿参数和1亿美元训练成本，且核心细节不公开。课程提出"多即不同"原则，指出小型与大型模型存在本质差异，重点培养三种能力：模型机制理解、硬件优化思维和建模直觉。通过梳理语言模型发展历程，从早期统计方法到Transformer架构演进，课程旨在帮助学生掌

斯坦福神课CS336作业5带你从零实现GRPO！

csdntcl的博客

07-19

262

新鲜出炉！斯坦福2025 CS336课程全公开：从零开始搓大模型

Datawhale

06-30

305

另一位讲师 Percy Liang 是斯坦福大学计算机科学系副教授，同时也是基础模型研究中心（CRFM）主任，同时也有参与以人类为中心的人工智能（HAI）、人工智能实验室、自然语言处理研究组和机器学习研究组等的研究工作。CS336 课程的目标是「引导学生完成开发自己的语言模型的整个过程，从而帮助他们全面理解语言模型。」该课程借鉴了操作系统课程中从零开始创建完整操作系统的教学方法，引导学生完成语言模型创建的各个环节，包括预训练的数据收集和清理、Transformer 模型的构建、模型训练以及部署前的评估。

开源项目启动和配置教程

最新发布

gitblog_00067的博客

11-16

337

本项目是基于斯坦福大学CS336课程的第一份作业，主要涉及语言模型从零开始的实现。以下是项目的目录结构及其简要介绍： - `./`: 项目根目录 - `./cs336_basics`: 包含项目的主要代码文件 - `./data`: 存储项目所需的数据文件 - `./tests`: 包含单元测试的代码 - `./tests/adapters.py`: 用于连接实现代码与测试代码的

assignment1-basics：掌握编程基础，提升技能第一步

gitblog_00657的博客

05-28

387

assignment1-basics：掌握编程基础，提升技能第一步项目介绍在计算机科学教育中，基础知识的掌握至关重要。assignment1-basics 是一个开源项目，旨在帮助学习者通过实际编码任务来深化对基础编程概念的理解。该项目作为CS336课程的第一个作业，提供了一个实践的平台，让学生在解决问题的过程中巩固Python编程的基础。项目技术分析 assignment1-basics ...

大佬面对面！斯坦福2025 CS336课程全公开：从零开始搓大模型~

Y525698136的博客

06-25

1047

从事大模型方向的小伙伴有福利了！斯坦福大学 2025 年春季的 CS336 课程「从头开始创造语言模型（Language Models from Scratch）」相关课程和材料现已在网上全面发布！

【cs336学习笔记】[第13课]训练数据策略

哪惧明天，风高路斜

09-09

1053

本文摘要探讨了训练语言模型时数据的关键作用。研究表明，数据质量远比模型架构重要，这从各大公司对训练数据的严格保密可见一斑。文章详细介绍了预训练的三个阶段（预训练、中期训练、后训练）及其数据特征，并通过BERT、GPT-2等案例分析了不同数据源（如Wikipedia、Common Crawl）的特点和处理方法，包括去重、语言识别和质量过滤等技术。特别指出即使是高质量数据源也可能存在投毒攻击等安全隐患，强调数据整理是影响模型性能的决定性因素。

CS61b课程学习指南与注意事项

### 编程实践与注意事项 在CS61b课程的编程实践中，学生需要注意以下几点： - **代码风格**：遵循良好的编程习惯和代码风格，编写易于他人阅读和维护的代码。 - **测试**：编写测试用例，对代码进行测试，确保代码...